应该是目前网上能搜到的最全和最靠谱的入门书单了,几乎零基础(懂一点高数就可以入门),而且基本上都是我看完的书,有一些我看过完全没用的比如head first SQL等就不列入在内了。算是了了一直想要汇总书单的一个念想。
一、概率论和数理统计基础
1、《茆诗松概率论和数理统计》前七章(大数据的基础:概率论和相关的数理统计)
1.1、《商务经济统计学》
茆诗松更偏向严谨的论断和课堂式的学习,比较适合正在学校的或者刚出学校的学生。如果想快速了解常用的商用概率论和数理统计知识的话,这本是比较不错的选择,该了解的概率论和数理统计知识都能在上面找到,甚至作为茆诗松的补充都绰绰有余。
2、线性代数(普通高校教材即可,能理解矩阵的运算、特征值等思想即可、作为工具书碰上了再翻阅)
二、工具类
1、SPSS
1.1、《应用多元统计分析》-朱建平
这本不仅介绍了常见的数据分析和数据挖掘方法的spss操作,比如判别分析、聚类分析、因子分析、相应分析、典型相关分析和多维标度法等。更重要的是介绍了各种方法的背后原理和计算公式。
2、R
2.1、《统计建模与R语言》《R in action》二选一,熟悉R语言的基础操作
2.2、《机器学习与R语言》
以实例方式清楚地讲解了如何运用R语言进行常用的机器学习方法建模以及相应的调参,机器学习方法包括:近邻分析、朴素贝叶斯、决策树、线性回归、神经网络、支持向量机、关联规则、k均值聚类等。而且包括模型性能的评价和提高模型性能的方法等。
3、Python
Python作为未来一阶段内主流的语言,无论是作为爬虫、数据挖掘还是处理数据都是相当强大的工具。
3.1、《python编程-从入门到实践》
零基础的完美级入门教材,从基础语法到制作一个游戏再到web应用程序,perfect。
3.2、《利用python进行数据分析》
日常数据处理和熟悉python不同数据分析的包
3.3、《机器学习实战》
用python作机器学习,会比R能实现的功能更多
3.4、《从零开始学python网络爬虫》
爬虫是互联网分析必备技能
4、excel
不必专门买书了,常用的功能和函数即可。
常用的聚合函数、vlookup函数和数据透视表,养成良好的数据分析习惯。比如sheet1存放raw_data、sheet2存放加工数据和sheet存放可视化图表等。总之excel作为R/Python的补充还是相当有必要的。
5、SQL
5.1、计算机等级考试的二、三级
花一周半的时间看完并且通过即可,那两本书和真正的商业应用比较脱节,不过作为SQL的入门还是比较不错的,可以让你短时间内熟悉Sql的方方面面,经常有人买了SQL的入门书籍半年后还是只会写简单的"select * from table_name limit 1;"。
5.2、《HIVE编程指南》
基本上互联网公司用的都是hadoop等,有hadoop使用经验对于找到合适的数据分析实习还是有很大帮助的。
三、数据挖掘算法原理
1、《数据挖掘导论》
不仅有数据预处理的一些介绍,还包括常用的数据挖掘方法原理。
2、《机器学习》
大名鼎鼎的西瓜书。
3、《统计学习方法》
进阶书。
4、《统计学习基础 数据挖掘、推理与预测 》
*高阶书。
四、其他书籍,各取所需
1、《Web Analytics》
网站分析,以数据驱动决策
2、《实用数据分析》
3、根据自己感兴趣的方向自己搜相关书籍或者网站
4、数据结构(相当重要但是我暂时还没看,所以放在四中,应该单独成一类)