Vaex处理大数据的Python库

随着社会的发展,5G和云技术的普及,数据也越来越方便搜集存储。随之而来的就是数据越来越大,数据科学家面对 50GB 甚至 500GB 大小的数据集的情况变得越来越普遍。海量数据的处理也变的越来困难和重要。本文推荐处理大数据的一个Python库,Vaex。Vaex 是一个开源的数据框架库(类似于Pandas),用于可视化和探索大型表格数据集。Vaex使用内存映射,零内存复制策略和惰性计算来获得最佳性能。

  1. 性能:适用于海量表格数据,流程>109 行/秒
  2. 惰性/虚拟列:动态计算,不浪费内存
  3. 高效的内存在执行过滤/选择/子集时没有内存副本
  4. 可视化:直接支持,单线通常就足够了
  5. 用户友好的API:您只需要处理DataFrame对象,而制表符完成+ docstring可以帮助您:ds.mean<tab>,感觉与Pandas非常相似
  6. Jupyter集成:vaex-jupyter将在Jupyter笔记本和Jupyter实验室中为您提供交互式可视化和选择。
  7. 精益:分成多个包。
  • vaex-core:DataFrame和核心算法,将numpy数组作为输入列。
  • vaex-hdf5:将内存映射的numpy数组提供给DataFrame。
  • vaex-arrow:箭头支持跨语言数据共享。
  • vaex-viz:基于matplotlib的可视化。
  • vaex-jupyter:基于Jupyter小部件/ ipywidgets,bqplot,ipyvolume和ipyleaflet的交互式可视化。
  • vaex-astro:与天文学有关的转换和FITS文件支持。
  • vaex-server:提供服务器以远程访问DataFrame。
  • vaex-distributed:(概念证明)将多个服务器/群集组合到单个DataFrame中,以进行分布式计算。
  • vaex-qt:使用Qt GUI编写的程序。
  • vaex:安装上述所有程序的Meta软件包。
  • vaex-ml:机器学习

Vaex 官方网站:https://vaex.io/ 

文档:https://docs.vaex.io/

GitHub:https://github.com/vaexio/vaex

PyPi:https://pypi.python.org/pypi/vaex/

发布了85 篇原创文章 · 获赞 34 · 访问量 14万+

猜你喜欢

转载自blog.csdn.net/chyuanrufeng/article/details/104631824