-
Mahout的安装及配置
1-1、首先下载安装包
https://archive.apache.org/dist/mahout/
1-2、解压并重命名:
mv apache-mahout-distribution-0.12.2 mahout-0.12.2
1-3、配置环境变量:
export MAHOUT_HOME=/Users/zhangchenguang/software/mahout-0.12.2
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
Mahout 是依赖于hadoop的哦,不管怎么说,需要把hadoop给装上。
hadoop配置环境变量:
export HADOOP_HOME=/Users/zhangchenguang/software/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=not_null
1-4、查询是否安装成功:
mahout
安装成功如下:
-
Mahout中的kmeans聚类算法的使用
2-1、kmeans聚类算法
K-MEANS算法是输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
2-2、下载测试数据
wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
2-3、将测试数据上传到hdfs
hadoop fs -mkdir -p ./testdata
hadoop fs -put synthetic_control.data ./testdata
2-4、查看数据文件是否上传成功
hadoop fs -ls
hadoop fs -ls ./testdata
2-5、Mahout中的kmeans聚类算法的使用
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
经过多个job运行以后得出结果:
2-7、查看输出
hadoop fs -ls ./output
2-8、查看数据
mahout vectordump -i ./output/data/part-m-00000