「资源」每天花5h来学习Hadoop+Spark大数据巨量分析与机器学习实战

本文的主题是Hadoop+Spark大数据分析与机器学习。众所周知，Hadoop是运用最多的大数据平台，然而Spark 异军突起，与Hadoop兼容而且运行速度更快，各大公司也开始加入Spark的开发。例如，IBM公司加入Apache Spark社区，打算培育百万名数据科学家。谷歌(Google)公司与微软公司也分别应用了Spark的功能来构建服务、发展大数据分析云与机器学习平台。这些大公司的加入，也意味着未来更多公司会采用Hadoop+ Spark进行大数据的数据分析。

然而，目前市面上虽然很多大数据的书，但是多半偏向理论或应用层面的介绍，网络上的信息虽然很多，但是也很杂乱。本文希望能够用浅显易懂的原理介绍和说明，再加上上机实践操作、范例程序，来降低大数据技术的学习门槛，带领读者进入大数据与机器学习的领域。当然整个大数据的生态系非常庞大，需要学习的东西太多。希望读者通过本文的学习，有了基本的概念后，能比较容易踏入这个领域，以便继续深入与研究其他大数据的相关技术。在这里插入图片描述

文档内容简介

本文档从浅显易懂的“大数据和机器学习”原理介绍和说明入手，讲述大数据和机器学习的基本概念，如:分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux 虚拟机，如何建立Hadoop集群，再建立Spark开发环境。文中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照文中介绍的搭建过程，同样可以将实践平台搭建在多台实体计算机上，以便更加接近于大数据和机器学习真实的运行环境。

章节介绍

第1章大数据与机器学习：介绍大数据、Hadoop、HDFS、MapReduce、 Spark、机器学习
第2章VirtualBox虚拟机软件的安装：上机实践操作。安装Virtual Box虚拟机，让你可以在Windows系统上安装多台Linux虚拟机
第3章Ubuntu Linux操作系统的安装：上机实践操作。安装Ubuntu Linux操作系统
在这里插入图片描述
第4章Hadoop Single Node Cluster的安装：上机实践操作。安装单台机器的Hadoop Single Node Cluster
第5章Hadoop Multi Node Cluster的安装：上机实践操作。安装多台机器的Hadoop Multi Node Cluster
第6章Hadoop HDFS命令：上机实践操作。示范如何使用HDFS命令
在这里插入图片描述
第7章Hadoop MapReduce：介绍Hadoop MapReduce的原理。WordCount.java范例程序。示范使用Hadoop MapReduce计算文章内的每一个单词出现的次数

第8章Spark的安装与介绍：上机实践操作。Spark安装与spark-shell交互界面在不同环境中的运行示范

第9章Spark RDD：上机实践操作。介绍Spark最基本的功能RDD ( Resilient Distributed Dataset,弹性分布式数据集)的基本运算
在这里插入图片描述
第10章Spark的集成开发环境：上机实践操作。安装集成开发环境(IDE)。WordCount.scala范例程序。示范使用SparkMapReduce计算文章内的每一个单词出现的次数

第11章创建推荐弓|擎：介绍如何使用Spark MLlib 以MovieLens 数据集建立电影的推荐引擎(Recommendation Engine)。Recommend.scala范例程序。示范如何获取数据、训练模型、推荐用户或电影，建立电影的推荐系统。AlsEvalution.scala范例程序。示范如何调试推荐引擎参数，找出最佳的参数组合在这里插入图片描述
第12章StumbleUpon数据集：StumbleUpon数据集属于二元分类问题，可以根据网页的特征预测哪些网页是暂时性的或是可以长久存在的

第13章决策树二元分类：RunDecisionTreeBinary.scala范例程序。示范如何使用决策树二元分类分析StumbleUpon数据集，预测哪些网页是暂时性的或可以长久存在的，并且找出最佳的参数组合，提高预测准确度

第14章逻辑回归二元分类：RunLogisticRegressionWithSGDBinary.scala范例程序。示范如何使用决策树二元分类分析StumbleUpon数据集，预测哪些网页是暂时性的或是可以长久存在的，并且找出最佳的参数组合，提高预测准确度

第15章支持向量机SVM二元分类：RunSVMWithSGDBinary.scala范例程序。示范如何使用支持向量机SVM二元分类分析StumbleUpon数据集，预测哪些网页是暂时性的或是可以长久存在的，并且找出最佳的参数组合，提高预测准确度
在这里插入图片描述
第16章朴素贝叶斯二元分类：RunNaiveBayesBinary.scala范例程序。示范如何使用朴素贝叶斯(Naive-Bayes)二元分类分析StumbleUpon 数据集，预测哪些网页是暂时性的或是可以长久存在的，并且找出最佳的参数组合，提高预测准确度

第17章决策树多元分类：RunDecisionTreeMulti.scala范例程序。示范如何使用决策树多元分类分析Covtype数据集(森林覆盖植被)，根据不同的土地条件可以预测该地的植被，并且找出最佳的参数组合，提高预测准确度

第18章决策树回归分析：RunDecisionTreeRegression.scala范例程序。示范介绍决策树回归分析，分析Bike Sharing数据集。根据天(和假日条件，可以预测每一小时租借的数量，并且找出最佳的参数组合，提高预测准确度
在这里插入图片描述
第19章使用Apache Zeppelin数据可视化：上机实践操作。安装Zeppelin并使用ml-100k数据集，示范使用Spark SQL进行数据分析与数据可视化

一般人可能会认为大数据需要在很多台机器的环境下才能学习，实际上通过虚拟机的方法，就能在自家电脑上演练建立Hadoop集群，并且建立Spark开发环境。本书以实际操作介绍Hadoop中的MapReduce与HDFS基本概念，以及Spark中的RDD与MapReduce基本概念。

以大数据分析实际案例-MoiveLens(电影推荐引擎)、StumbleUpon (网页二元分类)、CovType (森林覆盖植被运算)、Bike Sharing ( Ubike类租赁预测分析)。配合范例程序代码详解各种机器学习算法，示范如何获取数据、分析数据、建立模型、预测结果，由浅入深地介绍Spark机器学习。

这份《Hadoop+Spark大数据》小编已经为大家整理好了
在这里插入图片描述

Ppikaqiu

发布了85 篇原创文章 · 获赞 7 · 访问量 2万+

私信关注