前言:
小弟弟我在写关于利用python进行数据分析这些博客,大部分案例都来自机械工业出版社出版的“利用Python进行数据分析”这本书,部分结合容大教育培训的讲解。希望可以通过写博客提高我用python来做数据分析的水平。
利用Python进行数据分析的优点和缺点:
优点:
近几年来Python已经成为了最受欢迎的动态编程语言之一,其他还有Perl、Ruby等。由于拥有大量的Web框架(如:Rails(Ruby)和Django(python)),这些语言通常被称作脚本语言,因为他们可以用于编写简短而粗糙的脚本。
Python作为一个胶水语言,可以轻松地集成C、C++等等代码。Python可以结合多种编程语言来进行科学计算,这是非常有优势的。
缺点:
由于Python是一种解释型编程语言,大部分Python代码都要比编译型语言写出的代码运行速度慢得多,对于高并发,多线程的应用程序而言,Python就不是一个理想的语言了,因为Python里面有一个叫做全局解释器锁的东西,它会限制解释器同事执行多条Python字节码指令的机关。
用Pyhton数据分析重要的库:
1、Numpy:
Numpy是python科学计算的基础包,功能很多,不能小觑。
>1 :他可以快速的创建多维数组对象ndarray。
>2 :含有用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
>3 :可以读写硬盘上的数据。
>4 :进行线性代数运算、傅里叶变换、生成随机数。
>5 :将C、C++、Fortran代码集成为Python的工具。
2、Pandas:
Pandas提供了我们能够快速的处理结构化数据的大量数据结构和函数,他是Python成为高效的数据分析环境的重要因素之一。
我们在pandas中最最常用的对象是DataFrame,他是面向列的二维表结构。
同事pandas还兼具Numpy高性能的数组计算功能以及电子表格和关系型数据库,并灵活的对数据进行处理,它还提供了精细的索引功能,可以方便的对数据进行重塑,切片,切块,以及聚合。
3、matplotlib:
matplotlib是目前最流行的用户绘制数据图表的Python库,它非常适合创建出版物上用的图表,而且与Ipyhon结合的非常好,并且提供了一个非常好的交互式数据绘图环境。
4、IPython:
他是一个Python科学计算标准工具集的组成部分,他是一个增强的Python shell,可以提高编写,测试,调试Python代码的速度。
5、SciPy:
Scipy是一组专门解决科学计算中各种标准问题域的包的合集。
>1 :scipy.integrate 微分方程求解器
>2 :scipy.linalg 扩展numpy.linalg提供线性代数例程和矩阵分解功能
>3 :scipy.optimize 函数优化,查找算法
>4 :scipy.signal 信号处理工具
>5 :scipy.sparse 稀疏矩阵和稀疏线性矩阵系统求解器
>6 :scipy.special 数学函数的包装器
>7 :scipy.stats 标准连续喝离散概率分布,各种统计检验方法、以及描述统计法。
>8 :scipy.weave 加速数组计算工具
(Numpy和Scipy结合完全可以代替MATLAB的计算功能包括他的插件工具箱)
简介结束,后期如果有什么补充的话小弟弟会更新上来的。