在python数据领域处理数据使用numpy越来越多了,因为numpy相对来说是很快的,不过当 数据量较大时numexpr会更快
比如先做实验试试:
先准备数据:
import numexpr
import numpy as np
ls1=np.array([int(np.random.rand()*100) for i in range(1<<25)])
ls2=np.array([int(np.random.rand()*100) for i in range(1<<25)])
接下来对比一下加法:
使用numpy:
%timeit ls1+ls2
##结果
## 10 loops, best of 3: 74 ms per loop
使用numexpr:
%timeit numexpr.evaluate('ls1+ls2')
##结果
## 10 loops, best of 3: 40.5 ms per loop
加法速度有所提升,不过不算很大(数据量越大会差距越明显),接下来看乘法,变化就很大:
使用numpy:
%timeit ls1**2+ls2**3
##结果
## 1 loop, best of 3: 251 ms per loop
使用numexpr:
%timeit numexpr.evaluate('ls1**2+ls2**3')
##结果
## 10 loops, best of 3: 51.7 ms per loop
这个实验里面直接快了5倍,在很多其他实验速度可以快几十倍
numexpr这玩意不仅仅会加速,而且会比numpy节约内存,会比numpy少产生临时的中间变量