modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案） - 代码天地

modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案）

其他 2019-06-23 12:11:07 阅读次数: 0

版权声明：本文为博主原创文章，转载请注明来源 https://blog.csdn.net/qq_26948675/article/details/89948331

import time
# 引入正常的pandas的模块
import pandas as pd
# 引入该模块
import modin.pandas as mpd

def test_pd_time(path):
    start = time.time()
    data=pd.read_csv(path)
    end= time.time()
    print('pd consume time is:',end-start)

def test_mpd_time(path):
    start = time.time()
    data=mpd.read_csv(path)
    end = time.time()
    print('modin pd  consume time is:',end-start)

path1='/home/yjj/data_oanda/AUD_CAD.csv'
path2='/opt/oanda_pair_rate.csv'
# 测试一个大样本的数据
print('大样本测试')

test_pd_time(path1)
test_mpd_time(path1)

# 测试一个小样本
print('大样小测试')

test_pd_time(path2)

test_mpd_time(path2)

大样本测试（2.5G左右）
pd consume time is: 36.11769914627075
modin pd  consume time is: 8.59299921989441
大样小测试（100M左右）
pd consume time is: 0.00580286979675293
modin pd  consume time is: 0.028467655181884766

注：处理大文件的时候，1个G以上，建议用modin.pandas，处理小文件，建议用pandas

猜你喜欢

转载自blog.csdn.net/qq_26948675/article/details/89948331

modin.pandas通过多进程可以使得读取大文件的速度提高4倍左右（pandas替代方案）

通过Pandas读取大文件

用pandas读取大文件

pandas 使用chunkSize 读取大文件

pandas读取tsv大文件(GB)方法

python多进程读取大文件并统计词频

pandas读取大文件时memoryerror的解决办法

pandas.read_csv——分块读取大文件

pandas.read_csv分块读取大文件

pandas chunksize读取大文件csv；dataframe 转json

Pandas VS. Numpy 读取文件速度比较

pandas 处理CSV大文件

网络编程-进程-5、通过多进程实现多任务下载文件

Pandas读取tsv文件

pandas读取文件

pandas读取json文件

pandas读取excel文件

pandas文件读取的问题

pandas读取csv文件

pandas - 文件读取与存储

pandas文件读取

pandas 读取tsv文件

pandas文件读取与存储

pandas读取xls文件

[Pandas] 读取Excel文件

pandas apply 函数多进程实现

如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe — Python多进程实现

python&pandas | 多进程处理dataframe通过某一列计算新列

Pandas处理较大文件、读文件

linux ------- 多进程实现大文件拷贝

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)