【python】利用jieba中文分词进行词频统计

以下代码对鲁迅的《祝福》进行了词频统计:

 import io

 import jieba

 txt = io.open("zhufu.txt", "r", encoding='utf-8').read()

 words  = jieba.lcut(txt)

 counts = {}

 for word in words:

     if len(word) == 1:

         continue

     else:

         counts[word] = counts.get(word,0) + 1

 items = list(counts.items())

 items.sort(key=lambda x:x[1], reverse=True)

 for i in range(15):

     word, count = items[i]

     print (u"{0:<10}{1:>5}".format(word, count))

结果如下：

并把它生成词云

 from wordcloud import WordCloud

 import PIL.Image as image

 import numpy as np

 import jieba

 # 分词

 def trans_CN(text):

     # 接收分词的字符串

     word_list = jieba.cut(text)

     # 分词后在单独个体之间加上空格

     result = " ".join(word_list)

     return result

 with open("zhufu.txt") as fp:

     text = fp.read()

     # print(text)

     # 将读取的中文文档进行分词

     text = trans_CN(text)

     mask = np.array(image.open("xinxing.jpg"))

     wordcloud = WordCloud(

         # 添加遮罩层

         mask=mask,

         font_path = "msyh.ttc"

     ).generate(text)

     image_produce = wordcloud.to_image()

     image_produce.show()

效果如下：

【python】利用jieba中文分词进行词频统计的更多相关文章

Python大数据：jieba 中文分词，词频统计
# -*- coding: UTF-8 -*- import sys import numpy as np import pandas as pd import jieba import jieba. ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
python库--jieba(中文分词)
import jieba 精确模式,试图将句子最精确地切开,适合文本分析:全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义:搜索引擎模式,在精确模式的基础上,对长词再次切 ...
【python】一篇文章里的词频统计
一.环境 1.python3.6 2.windows系统 3.安装第三方模块 pip install wordcloud #词云展示库 pip install jieba #结巴分词 pip inst ...
jieba中文分词
jieba中文分词¶ 中文与拉丁语言不同,不是以空格分开每个有意义的词,在我们处理自然语言处理的时候,大部分情况下,词汇是对句子和文章的理解基础.因此需要一个工具去把完整的中文分解成词. ji ...
python利用jieba进行中文分词去停用词
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词模块jieba,它是python比较好用的分词模块.待分词的字符串可以是 unicod ...
jieba中文分词（python）
问题小结 1.安装需要用到python,根据python2.7选择适当的安装包.先下载http://pypi.python.org/pypi/jieba/ ,解压后运行python setup.py ...
Python分词模块推荐：jieba中文分词
一.结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采 ...

随机推荐

flex 居中
display: flex; justify-content: space-between; align-items: center;
Requests发送带cookies请求
一.缘起最近学习[悠悠课堂]的接口自动化教程,文中提到Requests发送带cookies请求的方法,笔者随之也将其用于手头实际项目中,大致如下二.背景实际需求是监控平台侧下发消息有无异常, ...
VS配置C++依赖包
处理好三个东西 1.头文件,Configuration Properties → VC++ Directories → Include Directories 2.静态库,Configuration ...
java-选中排序（新手）
//排序选择排序数组中每个元素都进行比较public class Test { //公共静态的主方法. public static void main(String[] args) { //创建一 ...
java-随机点名2（新手）
//创建的一个包名. package qige; //导入一个包.import java.util.*; //定义一个类.public class SJdm { //公共静态的主方法. public ...
Journal of Proteome Research | Proteomic analysis of Rhizobium favelukesii LPU83 in response to acid stress.（酸胁迫下根瘤菌LPU83（Rhizobium favelukesii）的蛋白质组学分析）(解读人：丑天胜）
文献名:Proteomic analysis of Rhizobium favelukesii LPU83 in response to acid stress.(酸胁迫下根瘤菌LPU83(Rhizo ...
java 获取 list 集合获取指定的字段数组
/** * * AdminEntity 管理员实体类 * getAdminId 获取管理员实体类中的id * */ @Testvoid adminIdList () { List<AdminEn ...
hdu1548 奇怪的电梯 dfs dijkstra bfs都可以，在此奉上dfs
题目链接:http://icpc.njust.edu.cn/Problem/Hdu/5706/ 简单的规定深度进行搜索,代码如下: #include<bits/stdc++.h> usin ...
面试刷题17:线程两次start()会发生什么？
线程是并发编程的基础元素,是系统调度的最小单元,现代的jvm直接对应了内核线程.为了降低并发编程的门槛,go语言引入了协程. 你好,我是李福春,我在准备面试,今天的题目是? 一个线程两次调用start ...
Nuget多项目批量打包上传服务器的简明教程
本篇不会介绍Nuget是什么,如何打包上传Nuget包,怎么搭建私有Nuget服务器.这些问题园子里都有相应的文章分享,这里不做过多阐述.另外本文假设你已经下载了Nuget.exe,并且已经设置好了环 ...

【python】利用jieba中文分词进行词频统计

【python】利用jieba中文分词进行词频统计的更多相关文章

随机推荐

热门专题