广师大学习笔记之文本统计(jieba库好玩的词云)
1.jieba库,介绍如下:
(1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,jieba 库还提供了增加自定义中文单词的功能。
(2) jieba 库支持3种分词模式:
精确模式:将句子最精确地切开,适合文本分析。
全模式:将句子中所以可以成词的词语都扫描出来,速度非常快,但是不能消除歧义。
搜索引擎模式:在精确模式的基础上,对长分词再次切分,提高召回率,适合搜索引擎分词。
2.按安装jieba库
(1)在命令行下输入:pip inshtall jieba
有进度条弹出来,再等待一下就安装好了。
(2)调用库函数 1:导入库函数<库名>
使用库中函数:<库名> . <函数名> (<函数参数>)
4.jieba库函数
(1)库函数常用的功能
2.jieba库的应用
3.利用jieba库统计一篇文章的出场顺序:
上代码:

1 # -*- coding: utf-8 -*-
2 import jieba
3
4 txt = open("D:\\文本\\Detective_Novel(utf-8)\Detective_Novel(utf-8).txt", "r", encoding='utf-8').read()
5 words = jieba.lcut(txt) # 使用精确模式对文本进行分词
6 counts = {} # 通过键值对的形式存储词语及其出现的次数
7
8 for word in words:
9 if len(word) == 1: # 单个词语不计算在内
10 continue
11 else:
12 counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1
13
14 items = list(counts.items())
15 items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
16
17 for i in range(3):
18 word, count = items[i]
19 print("{0:<5}{1:>5}".format(word, count))

4.运行结果
五。再利用wordcloud库生成词云图:
1.安装wordcloud库 在命令行打pip install wordcloud
代码如下:

1 from wordcloud import WordCloud
2
3 import matplotlib.pyplot as plt #绘制图像的模块
4
5 import jieba #jieba分词
6
7 path_txt='D:\\文本\\Detective_Novel(utf-8)\Detective_Novel\
8 l(utf-8)'
9
10 f = open("D:\\文本\\Detective_Novel(utf-8)\Detective_Novel(utf-8).txt", "r", encoding='utf-8').read()
11
12 # 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云
13
14 cut_text = " ".join(jieba.cut(f))
15
16 wordcloud = WordCloud(
17
18 #设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的
19
20 font_path="C:/Windows/Fonts/simsun.ttc",
21
22 #设置了背景,宽高
23
24 background_color="black",width=2000,height=1200).generate(cut_text)
25
26 plt.imshow(wordcloud, interpolation="bilinear")
27
28 plt.axis("off")
29
30 plt.show()

运行结果如下:
广师大学习笔记之文本统计(jieba库好玩的词云)的更多相关文章
- 数字、字符串、列表、字典,jieba库,wordcloud词云
一.基本数据类型 什么是数据类型 变量:描述世间万物的事物的属性状态 为了描述世间万物的状态,所以有了数据类型,对数据分类 为什么要对数据分类 针对不同的状态需要不同的数据类型标识 数据类型的分类 二 ...
- ArcGIS案例学习笔记-点群密度统计
ArcGIS案例学习笔记-点群密度统计 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 目的:对于点群,统计分布密度 数据: 方法: 1. 生成格网 2. 统计个数, ...
- ArcGIS案例学习笔记-栅格数据分区统计(平均高程,污染浓度,污染总量,降水量)
ArcGIS案例学习笔记-栅格数据分区统计(平均高程,污染浓度,污染总量,降水量) 联系方式:谢老师,135-4855-4328,xiexiaokui@qq.com 目的:针对栅格数据,利用多边形面要 ...
- ArcGIS案例学习笔记_3_2_CAD数据导入建库
ArcGIS案例学习笔记_3_2_CAD数据导入建库 计划时间:第3天下午 内容:CAD数据导入,建库和管理 目的:生成地块多边形,连接属性,管理 问题:CAD存在拓扑错误,标注位置偏移 教程:pdf ...
- jieba (中文词频统计) 、collections (字频统计)、WordCloud (词云)
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
- python爬虫——京东评论、jieba分词、wordcloud词云统计
接上一章,动态页面抓取——抓取京东评论区内容. url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJS ...
- jieba 库的使用和好玩的词云
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精 ...
- Jieba库使用和好玩的词云
jieba库的使用: (1) jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精 ...
- NLTK学习笔记(二):文本、语料资源和WordNet汇总
目录 语料库基本函数表 文本语料库分类 常见语料库及其用法 载入自定义语料库 词典资源 停用词语料库 WordNet面向语义的英语字典 语义相似度 语料库基本函数表 示例 描述 fileids() 语 ...
随机推荐
- 以语音评测的PC端demo代码为例,讲解口语评测如何实现
本文由云+社区发表 作者:腾讯智慧教育 概述 腾讯云智聆口语评测(英文版)(Smart Oral Evaluation-English,SOE-E)是腾讯云推出的语音评测产品,是基于英语口语类教育培训 ...
- 监控mysql
Mysql服务器监控 管理MySql服务器属于应用程序监控范畴.这是因为绝大多数性能参数是有MySql软件产生的,而不属于主操作系统的一部分. 如当前所提到的,应该总是先监控基础操作系统,然后监控My ...
- Centos7破解密码的两种方法--技术流ken
Centos7忘记密码 在工作或者自己练习的时候我们难免会大意忘掉自己的root密码,有些同学忘掉密码竟然第一选择是重装系统,工作中可万万使不得! 本篇博客将讲解两种最常用的破解centos7忘掉 ...
- [转]Nodejs学习笔记(十五)--- Node.js + Koa2 构建网站简单示例
本文转自:https://www.cnblogs.com/zhongweiv/p/nodejs_koa2_webapp.html 目录 前言 搭建项目及其它准备工作 创建数据库 创建Koa2项目 安装 ...
- [PHP] yield沟通函数循环内外
1.yield是函数内外,循环内外沟通用的 , 当你的函数需要返回一个大数组 , 循环的时候需要遍历这个大数组时 , 并且需要多次遍历这个函数的返回值 , 这个是有用的 2.当我也是只需要在一次循环中 ...
- Spring Boot入门-快速搭建web项目
Spring Boot 概述: Spring Boot makes it easy to create stand-alone, production-grade Spring based Appli ...
- 实现PHP内部的通知机制,如当一个类的属性发生变化时,另外一个类就可以收到通知
设计模式:观察者模式 当一个对象的状态发生改变时,依赖他的对象会全部收到通知,并自动更新. 使用场景 一个事件发生后,要执行一连串更新操作.传统的编程方式,就是在事件的代码之后直接加入处理逻辑,当更新 ...
- 阿里巴巴TXD前端小报 - 2019年3月刊
原文:前端小报 - 201903月刊 Fundebug经授权转载,版权归原作者所有. [Alibaba-TXD 前端小报]- 热门前端技术快报,聚焦业界新视界:不知不觉 2019 年已经过去了 1/4 ...
- cookie特殊字符在游览器被转义
环境:vue2.x axios 1.如果只是前端自己用,那么可以用 encodeURIComponent(string) 存 ,用decodeURIComponent(string)取. 2.遇到一种 ...
- CentOS7 分布式安装 Hadoop 2.8
1. 基本环境 1.1 操作系统 操作系统:CentOS7.3 1.2 三台虚拟机 172.20.20.100 master 172.20.20.101 slave1 172.20.20.102 sl ...