数据读取
pandas.read_csv('文件名.csv')
dtypes() 查看有什么类型
.head() 把读取的数据显示出来(默认显示前五条数据)
想显示多少行就在括号里写几
.tail() 显示后几行,想显示多少行就在括号里写几
.columns 只显示表头(指标)
.shape 有多少个指标(有多少行,列)
.loc[ ] 取第几号数据(index值)
还可以切片如:.loc[3:6]
如要精准定位则:.loc[行数,’列名‘]
['列名'] 取一列的数据
如果要取两列以上数据则得
创建一个变量来接收['列1',[列2],...]
然后再用创建的变量取(不用加 ' ' !)
.columns.tolist() 把表头转换成列表
.max() 最大值
排序
.sort_values('列名',inplace=True/False) 第二个参数填True表示新建一个,形成一个新的;False表示在原来的基础上改(从小到大排,升序)(如果出现’NaN‘则表示该数据无法读取或显示缺失)
如果想从大到小(降序),则要添加ascending参数:.sort_values('列名',inplace=True/False,ascending=True/False) 第三个参数表示是否升序,默认是升序,True是升序,False是降序
.isnull(变量名) 处理NaN数据 ,显示True的值为NaN值,False则是有数据的值
接受的变量=被筛选的变量名[变量] 筛选,把被筛选的变量名中的变量去除,用接受的变量接受
.pivot_table(index=' ',values=' ',aggfunc=)index的意思是以什么为基准,values的意思是跟什么的关系,aggfunc的意思是他们(前两个值)要什么关系(默认求平均值)
如果要求一个量和其他两个的关系则:.pivot_table(index=' ',values=[' ',' '],aggfunc=)
.mean 求平均值(这是numpy库下的)
.reset_index(drop=True) 还原索引,重新变为默认的整型索引
.apply(函数体) 调用自己写的函数