数据挖掘
Parallel Machine Learning for Hadoop/Mapreduce – A Python Example
聚类算法
分类的目标是事先已知的, 聚类事先不知道目标变量是什么,类别没有像分类那样被预先定义出来。 欠缺经验的分析人员和经验丰富的分析人员对于结果的解读会有很大差异。 其实不光是聚类分析,所有的分析都不能仅仅依赖统计学家或者数据工程师。 Canopy Clustering 这个算法是2000年提出来的,此后与Hadoop配合,已经成为一个比较流行的算法了。 确切的说,这个算法获得的并不是最终结果,它是为其他算法服务的, 比如k-means算法。它能有效地降低k-means算法中计算点之间距离的复杂度。Mahout中已经实现了这个算法