足球游戏论坛数据分析－－简单粗暴的K均值聚类

在<<足球游戏论坛数据分析－－简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有

论坛帖子分类并非就是PC/PS/XBOX这么简单
即使是作者自己贴的标签,也存在挂羊头的可能性

既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现:

    #事先已经把分好词的所有文本存成一个文件,没有事先分类

    f = codecs.open('forum_all.txt', 'r', 'utf-8')

    words_full = f.readlines()

    f.close()

    true_k = 5  #事先预设分成5类

    vectorizer = TfidfVectorizer(max_df=0.5, max_features=1000,

                                 min_df=2)

    transformer = TfidfTransformer()

    td = vectorizer.fit_transform(words_full)

    tfidf = transformer.fit_transform(td)

    word = np.array(vectorizer.get_feature_names())

    km = KMeans(n_clusters=true_ke, init='k-means++', max_iter=200, n_init=1)

    km.fit(td)

    print(u"Silhouette Coefficient(轮廓系数): %0.3f"

          % metrics.silhouette_score(td, km.labels_, sample_size=5000))

    order_centroids = km.cluster_centers_.argsort()[:, ::-1]   

    terms = vectorizer.get_feature_names()

    for i in range(true_ke):  #输出每个分类头10个特征词

        for ind in order_centroids[i, :10]:

            print ' %s' % terms[ind],

        print ''

运行结果

Silhouette Coefficient(轮廓系数): 0.137

Cluster 0:  1634 posts

 显卡  识别  独立  安装  如何  方法  教程  最后  破解版  reloaded

Cluster 1:  4388 posts

 2014  evolution  soccer  推荐  pro  论坛  首发  dlc3  下载  破解版

Cluster 2:  1677 posts

 汇总  资源  dlc6  22  10  更新  pes2014  分享  谢谢  支持

Cluster 3:  7872 posts

 wecn  发布  正式  pes2016  patch  v2  简体中文  汉化  v1  补丁

Cluster 4:  11287 posts

 pes2014  疑难解答  补丁  更新  球员  10  球场  分享  pes2016  谢谢

从这个分类结果来看,我抓取的论坛板块主要讨论的是:

能/爽玩游戏的电脑配置, 即PC版游戏
"你懂的"游戏用户还是不少,正版化依然任重而道远
过半数的讨论(分类3和4)是游戏的各路补丁,老司机都知道,在版权问题这个点上,FIFA无敌
颇为意外的是, 2014/2016竟然是热门版本, 2015毫无存在感
我现在有点怀疑我的爬虫花了大量时间在扒PC板块的帖子 -_-b

PS, 分类数5其实只是个随便定下的值. 之所以最终选5, 只是在测试了从3到12的分类后, 发现轮廓系数在5开始步入稳定状态,提升不大.

最后,附上个特征向量经降维后作的分类散点图

足球游戏论坛数据分析－－简单粗暴的K均值聚类的更多相关文章

5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...

随机推荐

Selenium3.0 自动化测试
早在2013年的时候,Selenium官方宣布,Selenium新的版本会在圣诞节的时候发布.但是,他们并没有说哪一个圣诞节发布. 转眼的三年过去了,目前已经发布到Selenium3.0 beta4版 ...
iOS 视图控制器（内容根据iOS编程编写）
视图控制器是 UIViewController 类或其子类对象.每个视图控制器都负责管理一个视图层次结构,包括创建视图层级结构中的视图并处理相关用户事件,以及将整个视图层次结构添加到应用窗口. 创建 ...
Epplus
简介:Epplus是一个使用Open Office XML(Xlsx)文件格式,能读写Excel 2007/2010文件的开源组件功效:支持对excel文档的汇入汇出,图表(excel自带的图表基本 ...
SQL SERVER 9003错误解决方法只适用于SQL2000
SQLSERVER 9003错误解决方法只适用于SQL2000 (只适用于SQL2000) "无法打开新数据库 'POS'.CREATE DATABASE 中止. (Microsoft S ...
【C#进阶系列】29 混合线程同步构造
上一章讲了基元线程同步构造,而其它的线程同步构造都是基于这些基元线程同步构造的,并且一般都合并了用户模式和内核模式构造,我们称之为混合线程同步构造. 在没有线程竞争时,混合线程提供了基于用户模式构造所 ...
HTML相关
<td style="text-align:center;"> 让表格中的字居中 style="width:75px; margin-left:1100p ...
org.hibernate.exception.SQLGrammarException: could not execute query
SSH项目中出现了 org.hibernate.exception.SQLGrammarException: could not execute query 错误,仔细检查后发现,是把createQu ...
转载：《TypeScript 中文入门教程》 6、命名空间
版权文章转载自:https://github.com/zhongsp 建议您直接跳转到上面的网址查看最新版本. 关于术语的一点说明: 请务必注意一点,TypeScript 1.5里术语名已经发生了变 ...
Apache的初中级面试题
--- 原文:[关于Apache的25个初中级面试题](http://www.oschina.net/translate/apache-interview-questions) Apache 求职面试 ...
GJM ：SqlServer语言学习笔记
----------------------------SqlServer RDBMS 关系型数据库管理系统 Row/Record 行 Colimn/Attribute 列 Field/Cell 字段 ...

足球游戏论坛数据分析－－简单粗暴的K均值聚类

足球游戏论坛数据分析－－简单粗暴的K均值聚类的更多相关文章

随机推荐

热门专题