写在前面:
好久没写blog了,每天总是感觉过的好快,忙的但也不知道忙啥,最近刚好好学习了NUMPY PANDAS MATPLLTLY 三贱客,所以决定忙里偷闲记录一下自己的心得。
# NUMPY
numpy其实就是python中列表的结构,多层列表也可以完全表示ndarray这种概念哇。但是为什么他就被那么多人所追捧呢?-----那就是索引,提取数据方便。其他的也没啥,你说你搞个1000维的数据嘛谁也不懂,最后还不是要降为到3维或者2维上进行处理。人类永远理解不了他们之外的东西。世界是3维的,顶多加个时间也就4维。所以要用n维基本没啥可处理的。
下面我们就盘点一下numpy的那些骚操作:
基本的一笔带过:
1:数组
np.array()
np.arange()
2. 数据导入
np.genfromtxt()#j基本没啥用,谁会把数字型数据存在txt里经常不会这样干
3.索引(这里就是特点了)
本质上就下面
1. 列表式, [hang, lie] , (这里有一个符号 a:b, 表示从a到b)
2. 把一个数组(可以是bool数组)当索引拿来索引元素。
4. 其他的没用过的
广播机制:说通俗一点就是自动对齐嘛, 按照最大的那个为标准,其他位置上不够的都填上相应轴上的最后一个元素嘛。
结构化数组:就是pandas的df(笑哭)用起来麻烦,换不如直接导入pandas库。
字节交换 没用到过
数组容器 ,没用到过
好了这里放张美图,悦悦下心情吧:
# PANDAS
pandas的使用就是和电子表格一样的。它是基于numpy构建的,那个结构化数组就和df很像。它的行索引默认是自然数,它的列就是各个属性名。它实现了用Python像操作表格一样来操作数据。
1. 第一种一维的数据结构SERIERS,他就是在一维数组上加了个索引呗。
它可以从列表,字典里构建(字典的就是他的行索引)。
他基本没啥用,能用他的地方用NUMPY会更好。
2.第二种数据结构就是DATAFRAME,多行或者多列堆在一起不就是DF了嘛。
它的索引主要有一下几种
1.按行列的进行索引(就和列表一样)
2.按行列标签进行索引
3.有索引函数可以索引,比如.loc(location).iloc(in location)
它的读写是比较丰富的(numpy就很垃圾,只能读字节)
其他的都好认,这里说read_table()和write_table()这两个函数就是从文本文件读取数据。这里猜想可能TXT文档里TAB键用的多。
这里单独说一下json结构,说实话,我还是不太读的来这东西,不过格式体积小的有优点,用的人多。建议多认认。
它的最基本框架应该是—[{key:value},{key:value},{key:value}]
4.DF的数据清洗
它提供了一些函数来处理,数据中的一些垃圾值常见的有NAN,NA。
基本就这些了,放张美图,欣赏欣赏
# MATPLOTLY
这个库最长用的就是plt模块了。其他的没怎么用过。感觉他画的不是很好看。
下面就列一下它最常用的功能:
1.子图功能(一张大图上展示好几个小图)
函数就是subplot()
2.就是各种图像,它的调用就是
plt.图的英文名称缩写
3.设置图形显示的大小
plt.figure(figuresize=大小)
还有其他一些什么轴,颜色,网格太麻烦了自己调起来也搞不好看。现在有一些其他库的图就很好看。有个叫plotly的库就很好。