《利用Python进行数据分析》第2章学习笔记
本篇博文是《利用Python进行数据分析》第二章的学习笔记,由于原书代码是用python2.7,现使用python3.5学习并重新实现书中内容;本人也是使用Python进行分析的初学者,若有建议及意见烦请多多交流。
数据集下载地址: https://github.com/wesm/pydata-book
- 导入数据
- 数据集的合并
- 数据透视表的使用
- 数据筛选
- 数据排序
- 图表制作
2.1 MovieLens 1M数据集分析
数据导入
原始数据集是.dat文件,可使用read_table直接导入:
import pandas as pd
import numpy as np
unames = ['user_id','gender','age','occupation','zip']
users = pd.read_table(r'/Users/SEN/Downloads/pydata-book-2nd-edition/datasets/movielens/users.dat',sep='::',header = None, names= unames,engine='python')
rnames = ['user_id','movie_id','rating','timestamp']
ratings = pd.read_table(r'/Users/SEN/Downloads/pydata-book-2nd-edition/datasets/movielens/ratings.dat',sep='::',header = None, names= rnames,engine='python')
mnames = ['movie_id','title','genres']
movies = pd.read_table(r'/Users/SEN/Downloads/pydata-book-2nd-edition/datasets/movielens/movies.dat',sep='::',header = None, names= mnames,engine='python')
可利用切片语法:
users[:5]
ratings[2:3]
也可直接用.head()方法展示前5行:
users.head()
数据集的合并
分析散布在三个表总的数据可不是一件轻松的事情,假设我们想要根据性别以及年龄来计算某部电影的平均得分,将所有的数据合并到一个表中的话问题就简单了:
data = pd.merge(pd.merge(ratings,users),movies)
data.head()
现在,只要稍微熟悉一下pandas,就能轻松地根据任意个用户或者电影的属性对评分数据进行聚合操作了。为了计算每部电影的平均得分,我们可以使用pd.pivot_table
方法:
mean_ratings = pd.pivot_table(data, index='title', values=['rating'],columns='gender', aggfunc= 'mean')['rating']
mean_ratings.head()
这样会产生另一个DataFrame,包括了数据集中各部电影的分性别的平均得分。
- 加粗
Ctrl + B
- 斜体
Ctrl + I
- 引用
Ctrl + Q
- 插入链接
Ctrl + L
- 插入代码
Ctrl + K
- 插入图片
Ctrl + G
- 提升标题
Ctrl + H
- 有序列表
Ctrl + O
- 无序列表
Ctrl + U
- 横线
Ctrl + R
- 撤销
Ctrl + Z
- 重做
Ctrl + Y
Markdown及扩展
Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]
使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。
本编辑器支持 Markdown Extra , 扩展了很多好用的功能。具体请参考Github.
表格
Markdown Extra 表格语法:
项目 | 价格 |
---|---|
Computer | $1600 |
Phone | $12 |
Pipe | $1 |
可以使用冒号来定义对齐方式:
项目 | 价格 | 数量 |
---|---|---|
Computer | 1600 元 | 5 |
Phone | 12 元 | 12 |
Pipe | 1 元 | 234 |
定义列表
- Markdown Extra 定义列表语法:
- 项目1
- 项目2
- 定义 A
- 定义 B
- 项目3
- 定义 C
-
定义 D
定义D内容
代码块
代码块语法遵循标准markdown代码,例如:
@requires_authorization
def somefunc(param1='', param2=0):
'''A docstring'''
if param1 > param2: # interesting
print 'Greater'
return (param2 - param1 + 1) or None
class SomeClass:
pass
>>> message = '''interpreter
... prompt'''
脚注
生成一个脚注1.
目录
用 [TOC]
来生成目录:
数学公式
使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.
- 行内公式,数学公式为: 。
- 块级公式:
更多LaTex语法请参考 这儿.
UML 图:
可以渲染序列图:
或者流程图:
离线写博客
即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。
用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。
博客发表后,本地缓存将被删除。
用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。
注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱。
浏览器兼容
- 目前,本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。
- IE9以下不支持
- IE9,10,11存在以下问题
- 不支持离线功能
- IE9不支持文件导入导出
- IE10不支持拖拽文件导入
- 这里是 脚注 的 内容. ↩