pandas读取较大文件卡死问题的一个可能原因

       最近遇到一个pandas.read_csv读取一个200多兆大小的文件卡死的问题,其实该文件也不算太大,而且笔者的机器配置也不低,但是就是卡了。就算怀疑文件太大,使用chunksize分块读取返回迭代器处理也不行。

       刚开始还报了一个错是文件格式不规范,导致有些行的列数过多,以为只是少数,所以设置了error_bad_lines=False,不让其报错而是直接忽略这些行。最终发现问题就是由该设置引起。最后仔细查看原始文件,发现原始文件第一行是一串文字,所以导致pandas以第一行的格式为准,让后面所有行都被识别为bad line,而pandas对bad line的判断是由异常扑捉实现的,当异常发生,异常捕捉实际上是个相对耗时的过程,而该文件的行数也很多,从而导致不断触发异常,故时间累积就变得很长,产生卡死的现象。

       最后,通过设置skiprows=1或者skiprows=[0]之后,就能够很快的成功读取了。因此,之后发现读取较大文件卡死现象,要先仔细分析原始文件的格式,还要注意在设置error_bad_lines参数为False之后,意识到bad line的数量问题,数量太多可能会造成IO时间过长。

猜你喜欢

转载自blog.csdn.net/S_o_l_o_n/article/details/108130433