Python 使用k-means方法将列表中相似的句子聚为一类

由于今年暑假在学习一些自然语言处理的东西，发现网上对k-means的讲解不是很清楚，网上大多数代码只是将聚类结果以图片的形式呈现，而不是将聚类的结果表示出来，于是我将老师给的代码和网上的代码结合了一下，
由于网上有许多关于k-means算法基础知识的讲解，因此我在这里就不多讲解了，想了解详细内容的，大家可以自行百度，在这里我只把我的代码给大家展示一下。k-means方法的缺点是k值需要自己确定，大家可以多换换k值，
看看结果会有什么不同

# coding: utf-8

import sys

import math

import re

from sklearn.feature_extraction.text import TfidfTransformer

from sklearn.cluster import AffinityPropagation

import nltk

reload(sys)

sys.setdefaultencoding('utf8')

from sklearn.feature_extraction.text import CountVectorizer

#要聚类的数据

corpus = [

    'This is the first document.',#

    'This is the second second document.',#

    'And the third one.',#

    'Is this the first document?',#

    'I like reading',#

    'do you like reading?',#

    'how funny you are! ',#

    'he is a good guy',#

    'she is a beautiful girl',#

    'who am i',#

    'i like writing',#

    'And the first one',#

    'do you play basketball',#

]

#将文本中的词语转换为词频矩阵

vectorizer = CountVectorizer()

#计算个词语出现的次数

X = vectorizer.fit_transform(corpus)#获取词袋中所有文本关键词

word = vectorizer.get_feature_names()

#类调用

transformer = TfidfTransformer()

#将词频矩阵X统计成TF-IDF值

tfidf = transformer.fit_transform(X)

#查看数据结构 tfidf[i][j]表示i类文本中的tf-idf权重

weight = tfidf.toarray()

# print weight

# kmeans聚类

from sklearn.cluster import KMeans

# print data

kmeans = KMeans(n_clusters=5, random_state=0).fit(weight)#k值可以自己设置，不一定是五类

# print kmeans

centroid_list = kmeans.cluster_centers_

labels = kmeans.labels_

n_clusters_ = len(centroid_list)

# print "cluster centroids:",centroid_list

print labels

max_centroid = 0

max_cluster_id = 0

cluster_menmbers_list = []

for i in range(0, n_clusters_):

    menmbers_list = []

    for j in range(0, len(labels)):

        if labels[j] == i:

            menmbers_list.append(j)

    cluster_menmbers_list.append(menmbers_list)

# print cluster_menmbers_list

#聚类结果

for i in range(0,len(cluster_menmbers_list)):

    print '第' + str(i) + '类' + '---------------------'

    for j in range(0,len(cluster_menmbers_list[i])):

       a = cluster_menmbers_list[i][j]

       print corpus[a]

Python 使用k-means方法将列表中相似的句子聚为一类的更多相关文章

使用size()方法输出列表中的元素数量。需要注意的是，这个方法返回的值可能不是真实的，尤其当有线程在添加数据或者移除数据时，这个方法需要遍历整个列表来计算元素数量，而遍历过的数据可能已经改变。仅当没有任何线程修改列表时，才能保证返回的结果是准确的。
使用size()方法输出列表中的元素数量.需要注意的是,这个方法返回的值可能不是真实的,尤其当有线程在添加数据或者移除数据时,这个方法需要遍历整个列表来计算元素数量,而遍历过的数据可能已经改变.仅当没 ...
【转】使用JavaParser获得Java代码中的类名、方法形参列表中的参数名以及统计总的文件个数与不能解析的文件个数
遍历目录查找Java文件: public static void ergodicDir(File dir, HashSet<String> argNameSet, HashSet<S ...
python：找出两个列表中相同和不同的元素(使用推导式)
#接口返回值 list1 = ['张三', '李四', '王五', '老二'] #数据库返回值 list2 = ['张三', '李四', '老二', '王七'] a = [x for x in lis ...
[Python]统计1个元素在列表中的出现次数
使用列表自带的count方法: list.count(element) 示例: 列表a,有4个元素,其中值1出现3次 In []: a=[,,,] In []: a Out[]: [, , , ] ...
python之使用heapq()函数计算列表中数值大小
# heapq函数:计算列表最大几个值和最小几个值 # 语法:heapq.nlargest(n, list,[key]) # n表示最大或最小的几个: list为分析的对象: key为排序关键字,非必 ...
python使用二分法实现在一个有序列表中查找指定的元素
二分法是一种快速查找的方法,时间复杂度低,逻辑简单易懂,总的来说就是不断的除以2除以2... 例如需要查找有序list里面的某个关键字key的位置,那么首先确认list的中位数mid,下面分为三种情况 ...
Python 判断一个字符串是否在列表中任何一个字符串中出现过
strlist = ['a1', 'a2', 'b1'] if any("a" in s for s in strlist):
Python自学:第三章使用列表中的各个值
bicycles = ['trek','cannondale','redline','specialized'] message = "My first bicycle was a &quo ...
python之enumerate函数：获取列表中每个元素的索引和值
源码举例: def enumerate_fn(): ''' enumerate函数:获取每个元素的索引和值 :return:打印每个元素的索引和值 ''' list = ['] for index, ...

随机推荐

Spring Boot 最流行的 16 条实践解读，你值得收藏！
Spring Boot是最流行的用于开发微服务的Java框架.在本文中,我将与你分享自2016年以来我在专业开发中使用Spring Boot所采用的最佳实践.这些内容是基于我的个人经验和一些熟知的Sp ...
JS高级程序设计第3章--精简版
前言:纯手打!!!按照自己思路重写!!!这次是二刷了,想暑假做一次完整的笔记,但用本子来写笔记的话太贵了,可能哪天还丢了..所以还是博客好== 第三章:基本概念(语法.数据类型.流控制语句.函数) 3 ...
洛谷P1003 铺地毯 noip2011提高组day1T1
洛谷P1003 铺地毯 noip2011提高组day1T1 洛谷原题题目描述为了准备一个独特的颁奖典礼,组织者在会场的一片矩形区域(可看做是平面直角坐标系的第一象限)铺上一些矩形地毯.一共有 n ...
Java项目案例之--封装的实例
Java项目案例之---封装的实例有一个专业类,有一个专业对象,专业名称:计算机科学与技术,专业编号:J001,专业年限:4,对年限添加约束,如果输入小于0,则默认为0,否则显示输入的值有一个学生 ...
【Spring容器】项目启动后初始化数据的两种实践方案
早期业务紧急,没有过多的在意项目的运行效率,现在回过头看走查代码,发现后端项目(Spring MVC+MyBatis)在启动过程中多次解析mybatis的xml配置文件及初始化数据,对开发阶段开发人员 ...
基于C#的机器学习--微基准测试和激活功能
本章我们将学习以下内容: l 什么是微基准测试 l 如何将它应用到代码中 l 什么是激活函数 l 如何绘制和基准测试激活函数每个开发人员都需要有一个好的基准测试工具.质量基准无处不在;你们每 ...
一文带你了解git
git简介什么是git? git是当今世界上最先进的分布式的版本控制系统. 版本控制系统分集中式的和分布式的,集中式的主要代表有CVS.SVN,而Git是分布式版本控制系统的佼佼者. 那什么是集中式 ...
网页缓存相关的HTTP头部信息详解
前言之前看完了李智慧老师著的<大型网站技术架构-核心原理与案例分析>这本书,书中多次提起浏览器缓存的话题,恰是这几天生产又遇到了一个与缓存的问题,发现自己书是没少看,正经走心的内容却不多 ...
[USACO07FEB]银牛派对Silver Cow Party
题目简叙: 寒假到了,N头牛都要去参加一场在编号为X(1≤X≤N)的牛的农场举行的派对(1≤N≤1000),农场之间有M(1≤M≤100000)条有向路,每条路长Ti(1≤Ti≤100). 每头牛参加 ...
【原】深度学习的一些经验总结和建议 | To do v.s Not To Do
前言:本文同步发布于公众号:Charlotte数据挖掘,欢迎关注,获得最新干货- 昨天看到几篇不同的文章写关于机器学习的to do & not to do,有些观点赞同,有些不赞同,是现在算法 ...

Python 使用k-means方法将列表中相似的句子聚为一类

Python 使用k-means方法将列表中相似的句子聚为一类的更多相关文章

随机推荐

热门专题