结巴库及词频统计bb

下面是利用云图和结巴库完成词频统计。代码如下：

# -*- coding:utf- -*-

from wordcloud import WordCloud

import matplotlib.pyplot as plt

import numpy as np

from PIL import Image

from jieba import *

def Replace(text,old,new): #替换列表的字符串

    for char in old:

        text = text.replace(char,new)

    return text

def getText(filename): #读取文件内容（utf- 编码格式）

    #特殊符号和部分无意义的词

    sign = '''！~·@￥……*“”‘’\n（）{}【】；："'「，」。-、？'''

    txt = open('{}.txt'.format(filename),encoding='utf-8').read()

    return Replace(txt,sign," ")

def creat_word_cloud(filename): #将filename 文件的词语按出现次数输出为词云图

    text = getText(filename) #读取文件

    wordlist = lcut(text) #jieba库精确模式分词

    wl = ' '.join(wordlist) #生成新的字符串

    #设置词云图

    font = r'C:\Windows\Fonts\simfang.ttf' #设置字体路径

    wc = WordCloud(

        background_color = 'black', #背景颜色

        max_words = ,           #设置最大显示的词云数

        font_path = font,           #设置字体形式（在本机系统中）

        height = ,              #图片高度

        width = ,               #图片宽度

        max_font_size = ,        #字体最大值

        random_state = ,         #配色方案的种类

        )

    myword = wc.generate(wl) #生成词云

    #展示词云图

    plt.imshow(myword)

    plt.axis('off')

    plt.show()

    #以原本的filename命名保存词云图

    wc.to_file('{}.png'.format(filename))

if __name__ == '__main__':

    creat_word_cloud('Detective_Novel') #输入文件名生成词云图

注：代码使用的文档 >>> Detective_Novel(utf-8).zip[点击下载]，也可自行找 utf-8 编码格式的txt文件。

效果如下：

结巴库及词频统计bb的更多相关文章

软工结对项目之词频统计update
队友胡展瑞 031602215 作业页面 GitHub 具体分工 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功 ...
作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
C语言实现词频统计——第二版
原需求 1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符. 2.统计英文单词在本文件的出现次数 3.将统计结果排序 4.显示排序结果新需求: 1.小文件输入. 为表明程序能跑 2.支持命 ...
c语言实现词频统计
需求: 1.设计一个词频统计软件,统计给定英文文章的单词频率. 2.文章中包含的标点不计入统计. 3.将统计结果以从大到小的排序方式输出. 设计: 1.因为是跨专业0.0···并不会c++和java, ...
软件工程第一次个人项目——词频统计by11061153柴泽华
一.预计工程设计时间明确要求: 15min: 查阅资料: 1h: 学习C++基础知识与特性: 4-5h: 主函数编写及输入输出部分: 0.5h: 文件的遍历: 1h: 编写两种模式的词频统计函数: ...
python瓦登尔湖词频统计
#瓦登尔湖词频统计: import string path = 'D:/python3/Walden.txt' with open(path,'r',encoding= 'utf-8') as tex ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
pyspark进行词频统计并返回topN
Part I:词频统计并返回topN 统计的文本数据: what do you do how do you do how do you do how are you from operator imp ...
使用storm分别进行计数和词频统计
计数直接上代码 public class LocalStormSumTopology { public static void main(String[] agrs) { //Topology是通过 ...

随机推荐

Windows 主机名映射地址
在开发中大数据集群中我们自己的电脑主机名映射不到集群的主机名下面我们就去修改自己电脑主机名映射地址 c/Windows/System32/drivers/etc/host 文件将主机名和IP地址 ...
/etc/inittab文件详解
/etc/inittab由/sbin/init程序解析调用,用于系统初始化,/sbin/init可参考源码busybox中init.c的实现方式. 原址如下: http://leejia.blog.5 ...
PHP知识点
目录 1. PHP函数前面添加@的作用 2. PHP连接MySQL数据库字符集设置 1. 通过PDO扩展连接MySQL数据库 2. 通过mysql扩展连接 3. php查询数据库出现中文乱码 3. 参 ...
iOS MJExtension的使用
前言: MJExtension是iOS的字典装模型的一个第三方框架.相对于JSONKit和SBJson相比MJExtension更简单易用.功能更强大. 安装: 使用CocoaPods导入(Cocoa ...
实验吧MD5之守株待兔解题思路
解题链接 http://ctf5.shiyanbar.com/misc/keys/keys.php 解题思路首先我们多打开几次解题链接,发现系统密钥大约在一秒钟左右变一次,所以联想到时间戳. 解题过 ...
监听器----java
监听器简介: 1 什么是web监听器? web监听器是一种Servlet中的特殊的类,它们能帮助开发者监听web中的特定事件,比如ServletContext,HttpSession,ServletR ...
FB面经Prepare: Bipartite a graph
input friends relations{{1,2}, {2,3}, {3,4}} 把人分成两拨,每拨人互相不认识, 所以应该是group1{1,3}, group2{2,4} 这道题应该是ho ...
HTTP 返回状态代码
一.HTTP状态码如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或 Googlebot 抓取网页时),服务器将会返回 HTTP 状态代码以响应请求. 此状态 ...
OpenGL——外部读档+异常报错
从外部读取shader文件: 先添加Shader类: 再创建vertexSource.txt和fragmentSource.txt两个文件: 如图填入shader: 在shader.h宣告: 在sha ...
搭建apache本地服务器·Win
1.下载apache地址:https://www.apachelounge.com/download/ 注意:下载压缩包如下 httpd-2.4.37-win64-VC15.zip 其中根据自己电脑的 ...

结巴库及词频统计bb

结巴库及词频统计bb的更多相关文章

随机推荐

热门专题