写在前面：

好久没写blog了，每天总是感觉过的好快，忙的但也不知道忙啥，最近刚好好学习了NUMPY PANDAS MATPLLTLY 三贱客，所以决定忙里偷闲记录一下自己的心得。

# NUMPY

numpy其实就是python中列表的结构，多层列表也可以完全表示ndarray这种概念哇。但是为什么他就被那么多人所追捧呢？-----那就是索引，提取数据方便。其他的也没啥，你说你搞个1000维的数据嘛谁也不懂，最后还不是要降为到3维或者2维上进行处理。人类永远理解不了他们之外的东西。世界是3维的，顶多加个时间也就4维。所以要用n维基本没啥可处理的。

下面我们就盘点一下numpy的那些骚操作：

基本的一笔带过：

1：数组

np.array()

np.arange()

2. 数据导入

np.genfromtxt()#j基本没啥用，谁会把数字型数据存在txt里经常不会这样干

3.索引（这里就是特点了）

本质上就下面

1. 列表式， [hang, lie] , (这里有一个符号 a:b，表示从a到b)

2. 把一个数组（可以是bool数组）当索引拿来索引元素。

4. 其他的没用过的

广播机制：说通俗一点就是自动对齐嘛，按照最大的那个为标准，其他位置上不够的都填上相应轴上的最后一个元素嘛。

结构化数组：就是pandas的df（笑哭）用起来麻烦，换不如直接导入pandas库。

字节交换没用到过

数组容器，没用到过

好了这里放张美图，悦悦下心情吧：

# PANDAS

pandas的使用就是和电子表格一样的。它是基于numpy构建的，那个结构化数组就和df很像。它的行索引默认是自然数，它的列就是各个属性名。它实现了用Python像操作表格一样来操作数据。

1. 第一种一维的数据结构SERIERS，他就是在一维数组上加了个索引呗。

它可以从列表，字典里构建（字典的就是他的行索引）。

他基本没啥用，能用他的地方用NUMPY会更好。

2.第二种数据结构就是DATAFRAME，多行或者多列堆在一起不就是DF了嘛。

它的索引主要有一下几种

1.按行列的进行索引（就和列表一样）

2.按行列标签进行索引

3.有索引函数可以索引，比如.loc（location）.iloc（in location）

它的读写是比较丰富的（numpy就很垃圾，只能读字节）

其他的都好认，这里说read_table（）和write_table（）这两个函数就是从文本文件读取数据。这里猜想可能TXT文档里TAB键用的多。

这里单独说一下json结构，说实话，我还是不太读的来这东西，不过格式体积小的有优点，用的人多。建议多认认。

它的最基本框架应该是—[{key:value},{key:value},{key:value}]

4.DF的数据清洗

它提供了一些函数来处理，数据中的一些垃圾值常见的有NAN，NA。

基本就这些了，放张美图，欣赏欣赏

# MATPLOTLY

这个库最长用的就是plt模块了。其他的没怎么用过。感觉他画的不是很好看。

下面就列一下它最常用的功能：

1.子图功能（一张大图上展示好几个小图）

函数就是subplot（）

2.就是各种图像，它的调用就是

plt.图的英文名称缩写

3.设置图形显示的大小

plt.figure（figuresize=大小）

还有其他一些什么轴，颜色，网格太麻烦了自己调起来也搞不好看。现在有一些其他库的图就很好看。有个叫plotly的库就很好。

学习数据分析三剑客之心得体会

写在前面：

猜你喜欢