这一章讲的是利用聚集算法对blog进行分类. 首先是构造数据,找到一组blog,每个blog包含一组单词.这样就形成了(blog-name, word*)*的数据结构. 在构造该数据结构的过程中,还需要删除那些出现得太广泛的单词,删除的办法是计算每个词出现的总次数以及blog的总数,两者的比例超出某个特定的数值则表明该单词太泛滥了. 然后是计算blog之间的距离,和前一章一样,存在两种计算的方式.欧氏距离和pearson相关系数. 然后是聚集算法,存在两种聚集的方法,一种是基于row的,另一种是…