用Pandas处理较大数据量 - 代码天地

用Pandas处理较大数据量

其他 2018-12-17 16:28:46 阅读次数: 0

在一些比赛中，经常会出现原始训练数据就有十几G大小，正常的个人电脑内存根本不足以容纳这么大数据量。查到可以使用Pandas将原数据集划分成小块存储。以下内容转载自知乎。

user_feat = ['user_id','user_gender_id','user_age_level','user_occupation_id','user_star_level']
reader = pd.read_csv("./data/round2_train.txt", sep="\s+",iterator=True)
chunks = []
loop = True
while loop:
    try:
        chunk = reader.get_chunk(500000)[user_feat]
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("Iteration is stopped")
df_user = pd.concat(chunks,axis=0, ignore_index=True)
df_user = pd.concat([df_user, test[user_feat]],axis=0)
df_user.drop_duplicates(subset='user_id',keep='first',inplace=True)
df_user.to_csv('./data/user_file.csv',index=False)
print('user_file', df_user.shape)

del df_user
gc.collect()

猜你喜欢

转载自blog.csdn.net/Lyteins/article/details/82355572

用Pandas处理较大数据量

大数据量处理

Mysql-处理数据量较大的表

大数据量处理(转载)

Jcs对大数据量的处理方案

大数据量任务处理

mysql大数据量处理

POI处理大数据量以及超大数据量的导出

java较大数据量取差集，list.removeAll性能优化

js导出table为Excel，支持较大数据量

大数据量，海量数据处理方法总结

大数据量，海量数据处理方法总结

大数据量，海量数据处理方法总结(转载)

大数据量，海量数据处理方法总结(转)

java 分批次处理大数据量数据

java list大数据量用addAll

LwIP用TCP连接方式在数据量比较大协议栈卡死

POI3.8中大数据量的处理

Hibernate对于大数据量处理之分表

Spring Batch: 大数据量批量并行处理框架

Android, BaseAdapter 处理大数据量时的优化

如何处理大数据量的查询

大数据量之表分区处理

jdbc大数据量时处理速度的比较

浅谈使用ArcPy执行大数据量处理任务

excel大数据量处理小结（excel07）

大数据量与 UI交互时的处理总结与心得

采用Kettle分页处理大数据量抽取任务

高并发高可用处理大数据量

大数据量下载

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)