Mahout的安装部署和算法实现

Mahout的安装及配置

1-1、首先下载安装包

https://archive.apache.org/dist/mahout/

1-2、解压并重命名：

mv apache-mahout-distribution-0.12.2 mahout-0.12.2

1-3、配置环境变量：

export MAHOUT_HOME=/Users/zhangchenguang/software/mahout-0.12.2

export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

扫描二维码关注公众号，回复： 5234384 查看本文章

Mahout 是依赖于hadoop的哦，不管怎么说，需要把hadoop给装上。

hadoop配置环境变量：

export HADOOP_HOME=/Users/zhangchenguang/software/hadoop-2.7.3

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_HOME_WARN_SUPPRESS=not_null

1-4、查询是否安装成功：

mahout

安装成功如下：

Mahout中的kmeans聚类算法的使用

2-1、kmeans聚类算法

K-MEANS算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

2-2、下载测试数据

wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

2-3、将测试数据上传到hdfs

hadoop fs -mkdir -p ./testdata

hadoop fs -put synthetic_control.data ./testdata

2-4、查看数据文件是否上传成功

hadoop fs -ls

hadoop fs -ls ./testdata

2-5、Mahout中的kmeans聚类算法的使用

mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job