Python 中文文件统计词频 + 中文词云

1. 词频统计：

 import jieba

 txt = open("threekingdoms3.txt", "r", encoding='utf-8').read()

 words  = jieba.lcut(txt)

 counts = {}

 for word in words:

     if len(word) == 1:

         continue

     else:

         counts[word] = counts.get(word,0) + 1

 items = list(counts.items())

 items.sort(key=lambda x:x[1], reverse=True)

 for i in range(15):

     word, count = items[i]

     print ("{0:<10}{1:>5}".format(word, count))

结果是：

曹操 946
孔明 737
将军 622
玄德 585
却说 534
关公 509
荆州 413
二人 410
丞相 405
玄德曰 390
不可 387
孔明曰 374
张飞 358
如此 320
不能 318

进一步改进，我想只知道人物出场统计，代码如下：

 import jieba

 txt = open("threekingdoms3.txt", "r", encoding='utf-8').read()

 names = {'曹操','孔明','刘备','关羽','张飞','吕布','赵云','孙权','周瑜','袁绍','黄忠','魏延'}

 words  = jieba.lcut(txt)

 counts = {}

 for word in words:

     if len(word) == 1:

         continue

     elif word == "诸葛亮" or word == "孔明曰":

         rword = "孔明"

     elif word == "关公" or word == "云长":

         rword = "关羽"

     elif word == "玄德" or word == "玄德曰":

         rword = "刘备"

     elif word == "孟德" or word == "丞相":

         rword = "曹操"

     else:

         rword = word

     counts[rword] = counts.get(rword,0) + 1

 # for word in excludes:

 #     del counts[word]

 items = list(counts.items())

 items.sort(key=lambda x:x[1], reverse=True)

 for i in range(40):

     word, count = items[i]

     if word in names:

         print ("{0:<10}{1:>5}".format(word, count))

运行结果为：

曹操 1358
孔明 1265
刘备 1251
关羽 783
张飞 358
吕布 300
赵云 278
孙权 257
周瑜 217
袁绍 191

进一步的做词云图：

 import jieba

 import os

 import wordcloud

 def getText(file):

     with open(file, 'r', encoding= 'UTF-8') as txt:

         txt = txt.read()

         jieba.lcut(txt)

     return txt

 directoryname =  os.getcwd()

 filename = input()

 txt = getText(filename + '.txt')

 wordclouds = wordcloud.WordCloud(width=1000, height= 800, margin=2).generate(txt)

 wordclouds.to_file('{}.png'.format(filename))

 os.system('{}.png'.format(filename))

名称是可以进一步优化的，参见第二部分代码。

中文wordcloud库默认会出现乱码，解决方法参考 https://blog.csdn.net/Dick633/article/details/80261233

参考：https://blog.csdn.net/weixin_44521703/article/details/93058003

Python 中文文件统计词频 + 中文词云的更多相关文章

R语言统计词频画词云
原始数据: 程序: #统计词频 library(wordcloud) # F:/master2017/ch4/weibo170.cut.txt text <- readLines("F ...
根据词频生成词云(Python wordcloud实现)
网上大多数词云的代码都是基于原始文本生成,这里写一个根据词频生成词云的小例子,都是基于现成的函数. 另外有个在线制作词云的网站也很不错,推荐使用:WordArt 安装词云与画图包 pip3 insta ...
python编写文件统计脚本
python编写文件统计脚本思路:用os模块中的一些函数(os.listdir().os.path.isdir().os.path.join().os.path.abspath()等) 实现功能:显 ...
利用python实现简单词频统计、构建词云
1.利用jieba分词,排除停用词stopword之后,对文章中的词进行词频统计,并用matplotlib进行直方图展示 # coding: utf-8 import codecs import ma ...
python 基于 wordcloud + jieba + matplotlib 生成词云
词云词云是啥?词云突出一个数据可视化,酷炫.以前以为很复杂,不想python已经有成熟的工具来做词云.而我们要做的就是准备关键词数据,挑一款字体,挑一张模板图片,非常非常无脑.准备好了吗,快跟我一起 ...
python学习笔记（11）--词云
中分词库 jieba 词云 wordcloud import jieba import wordcloud f = open("新时代中国特色社会主义.txt", "r ...
Python脚本文件中使用中文
Python做图形用户界面(GUI)开发时经常要在界面上显示中文,需要做如下处理(详见[1]和[2]2.3节): 在py文件的首行写上:# -- coding:utf-8 -- 保存py文件时要存为u ...
python jieba 库分词结合Wordcloud词云统计
import jieba jieba.add_word("福军") jieba.add_word("少安") excludes={"一个", ...
Python词云的中文问题
image= Image.open('F:/__identity/course/建模/九寨沟地震/四川地图.jpg') fig = plt.figure(figsize=(20, 16)) graph ...

随机推荐

123457123456#0#-----com.threeapp.XianshiDaDiShu03-----现实版打地鼠03
com.threeapp.XianshiDaDiShu03-----现实版打地鼠03
thymeleaf动态拼接class
场景:站内消息,一些已读的要区别与未读的. <table class="layui-table"> <thead> <tr> <th la ...
js动态改变iframe的高度
js动态改变iframe的高度的写法〈iframe id="docDetail" width="100%" height="200" ...
winform_textbox控件只能输入数字
//实现只限制输入数字事件 private void txtShowNum_KeyPress(object sender, KeyPressEventArgs e) { e.Handled = tru ...
教你成为全栈工程师(Full Stack Developer) 四十五-一文读懂hadoop、hbase、hive、spark分布式系统架构
转载自http://www.shareditor.com/blogshow?blogId=96 机器学习.数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-red ...
学习JavaScript之this,call,apply（转）
转自: http://www.h5cn.com/js/jishu/2016/0128/17884.html 在之前的JavaScript学习中,this,call,apply总是让我感到迷惑,但是他们 ...
vector iterators incompatible
字面翻译迭代器类型不兼容今天同事遇到的这个问题算是一个习惯性写法的问题.描述一下代码: struct Track{}; class BaseTrack { - std::vector<Trac ...
codevs1227:方格取数2
题目描述 Description 给出一个n*n的矩阵,每一格有一个非负整数Aij,(Aij <= )现在从(,)出发,可以往右或者往下走,最后到达(n,n),每达到一格,把该格子的数取出来,该 ...
学习笔记：oracle学习一：oracle11g体系结构之物理存储结构
目录 1.物理存储结构 1.1 数据文件 1.2 控制文件 1.3 日志文件 1.3.1 重做日志文件 1.3.2 归档日志文件 1.4 服务器参数文件 1.4.1 查看服务器参数 1.4.2 修改服 ...
oracle管道函数的用法(一行拆为多行)
oracle管道函数是一类特殊的函数,oracle管道函数返回值类型必须为集合如果需要在客户端实时的输出函数执行过程中的一些信息,在oracle9i以后可以使用管道函数(pipeline funct ...

Python 中文文件统计词频 + 中文词云

Python 中文文件统计词频 + 中文词云的更多相关文章

随机推荐

热门专题