本课件的主要内容包括:
-
数据挖掘:鸟瞰视图;
-
数据挖掘:一些典型的处理步骤
-
什么是数据?
-
数据类型
-
数据清理
-
特征聚合
-
特征选择
-
特征转换
-
探索性数据分析
-
分类汇总统计
-
连续汇总统计
-
距离与相似度
-
汇总统计的局限性
-
可视化
-
基本绘图
-
直方图
-
箱形图
-
散点图
-
散点图阵列
-
等值线绘图
-
树形图
-
统计地图
-
流图
-
视频与交互可视化
-
熵作为随机性的量度
-
Hamming距离 vs. Jaccard系数
-
大数据集与并行/分布式计算
-
数据清理与杜克癌症丑闻
关于“杜克癌症丑闻”是美国杜克大学的医生恶意篡改实验数据导致的学术界造假丑闻,从2006年持续到2012年。
更详细的事件经过请查看以下网站:http://bbs.tianya.cn/post-100-1137194-1.shtml
英文原文课件下载地址:
http://page2.dfpan.com/fs/9l8c8jd262f1f2c9163/
更多精彩文章请关注微信号: