0. 参考资料
github教程,我也是看这里学的。
git clone http://github.com/dask/dask-tutorial
dask官网
http://dask.pydata.org/en/latest/
1. Dask是什么?
Dask是一个python的并行计算的库。
Dask对远远超过内存的数据集进行多核或分布式的并行计算运行。
1.1 集合
Dask提供了Array,Bag和DataFrame,都是模仿numpy,list和Pandas的。不同的是,dask提供的集合能够在不将数据集全部填充到内存中进行并行计算。可以去替代numpy和pandas去处理大的数据集。
1.2 调度
Dask提供了并行的动态的任务调度和执行任务图。意思就是,将一个任务划分成多个小任务,然后画出图表,有一些任务是可以同时执行的,根据这个图表进行动态的并行去执行。
如上图所示,两个inc函数同时执行,然后再执行add函数得到结果。
2. 环境
2.1 Anaconda
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 [1] 因为包含了大量的科学包
安装Anaconda
2.2 dask
pip install dask
2.3 Virtual Studio Code
本人使用的是virtualStudioCode集成开发环境,这个看个人。
推荐插件
Anaconda Extension Pack
2.4 jupyter notebook
推荐使用这个,非常好用。
它就是个web应用程序,但是可以在上面进行类似于ipython的编写,而且调试方便。
- 直接在终端运行如下命令即可开启。
ipython notebook
- 然后会跳进jupyter的web中,首页就是终端的当前目录。
- 选择右上角的new->python3,即可进入以下界面,即可写代码。shift+enter是执行代码。