目录
2、非监督学习(Unsupervised Learning)
Mahout(象夫)
Apache开源项目,主要用于创建可伸缩的机器学习算法
实现了如下几个主流的机器学习算法
- Recommendation 推荐算法
- Classification 分类算法
- Clustering 聚类算法
Mahout的特性
1、在hadoop上运行,spark上也可以运行
2、在大型数据集上进行数据挖掘
3、快速高效分析大数据
4、包含了一些聚类算法
5、贝叶斯和朴素贝叶斯分类算法
6、包含矩阵和向量类库
机器学习
是一个科学分支,主要是自动学习以及提升经验值。
学习意味着识别和理解输入数据,以及基于这些数据做出正确的决策。
实现机器学习的方式
1、监督学习(Supervised learning)
概念:
从可见的数据集中进行学习,产生推断函数,并应用到新的案例上。
应用场景:
- 分类垃圾邮件
- 基于内容的网页标签化
- 语音识别。
监督学习的算法:
- 神经网络
- 支持向量机
- 朴素贝叶斯分类器(Mahout实现)
2、非监督学习(Unsupervised Learning)
概念:
使用未标签的数据,没有做任何预定义数据,对于分析可用数据是一个极其强大的工具。
常见的非监督学习有:
- K-mean(均值)
- self-organizing maps(自组织映射)
- hierachical clustering(层级聚类)
非监督学习的形式:
聚类,是基于数据的一些共性,形成若干组和相关数据集合。
新闻组使用聚类技术基于相关主题对各种文章进行分组
聚类引擎对数据进行遍历,最终决定数据分配到哪个组下