使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!#华为云·寻找黑马程序员#
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字“加群”,加入华为云线上技术讨论群;输入关键字“最新活动”,获取华为云最新特惠促销。华为云诸多技术大咖、特惠活动等你来撩!
文本分析
很多时候,我们会去统计一片文章中的高频词汇,以此来作为文章的关键词条,那么词频分析在python中,该用什么模块做?jieba!
第一次听到这个词就乐了,一个**“结巴”,帮助我们统计词频…但仔细了解这个模块后,你会发现它的强大。怎么证明?来看看github。
19K的star,5000+fork你就知道它多受欢迎了!让我们先来学学jieba**。
jieba介绍
jieba的github上readme写的非常详细,如果大家喜欢可以去仔细学习:jieba gihub地址。这里挑我们代码需要用到的地方讲解下…
安装: pip install jieba
以下内容引用自jieba github
“结巴”中文分词:做最好的 Python 中文分词组件
分词
- jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
- jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
- 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
- jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
- jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
- jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
代码示例
# encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
设置解析词语
add_word(word, freq=None, tag=None) 添加词语
比如上面的实力,我们想将中国科学院作为一个整体让jieba分析,那么我们可以jieba.add_word(‘中国科学院’)
jieba.load_userdict(file_name) 用户可以自定义分词字典
如果我们有成套的字典来提升词语识别,可以创建一个文本,将这些词语存储在文本中。具体格式如下:
词语、词频(可省略)、词性(可省略)
创新办 3 i
云计算 5
凱特琳 nz
台中
关键字抽取
刚才看到分词,不管我们是使用哪种方式,最终获得的都是迭代器或者的表,那我们如果想无脑输出词频权重较高的top多少次,如何做?
使用import jieba.analyse
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
但这种统计过于无脑,更多的情况下,还是要我们自己来配置…
分析什么?
说过了如何分词,获取词频。可我们没有数据,到底该分析什么?分析python书籍未免太过逗比,所以嘛还是分析点有意思的东西吧!前几天看新闻中国的玄幻小说,在老外的眼里简直就是至宝,什么掉下悬崖捡宝、穿越远古修仙、犀利哥重生附身,在我们看来俗到掉渣的剧情,老外看到都觉得是神来之笔!那么今天我们就来分析一部修仙小说吧…个人比较喜欢净无痕的书,绝世武神、太古神王到如今的伏天氏。但最近感觉写的越来越水。所以今天我们就来分析太古神王这部小说吧,貌似它已经拍成电视剧了。怎么获取全本内容?之前写的文章使用Python开发小说下载器,不再为下载小说而发愁就派上用场了,2000+章的小说全本下载。话说刚开始用写好的工具是,平均1秒3章,最近很多朋友反馈工具很慢,进来自己用了下两三秒才一章,难道跟我有关系?还是收敛点的好…边写着文章,手机边下载着,总算完了:
那分析什么内容呢,太古神王里面有两个女主叶倾城、长青青儿。那么秦问天到底更爱谁?让我们看看她俩的出场频率吧…
代码实现
只统计主角和两个女主,有些太过无趣,所以咱们多统计点词汇给50个吧…看看会有哪些:
# -*- coding: utf-8 -*-
# @Author : 王翔
# @JianShu : 清风Python
# @Date : 2019/7/24 2:23
# @Software : PyCharm
# @version :Python 3.7.3
# @File : DearestGirl.py
import jieba
class DearestGirl:
ROLES = "秦问天 倾城 青儿"
def __init__(self):
self.result = dict()
def add_key_word(self):
for user in self.ROLES.split():
jieba.add_word(user)
def cut_word(self):
data = open("太古神王全本.txt", encoding='utf-8').read()
jieba_cut = jieba.cut(data)
for word in jieba_cut:
if word not in self.ROLES.split():
continue
else:
self.result[word] = self.result.get(word, 0) + 1
def sort_words(self):
print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))
if __name__ == '__main__':
main = DearestGirl()
main.add_key_word()
main.cut_word()
main.sort_words()
output:
[('秦问天', 35182), ('倾城', 2085), ('青儿', 2028)]
这就懵逼了,这俩女主居然词频这相近,可再看看男主的词频…有一个问题呼之欲出,这部小说是一部男主自恋的小说,他最爱的是自己!通篇都是他…哈哈。
那么这样就完了?不行不行,既然词频都出来了,顺带生成一下词云呗…
wordcloud
今天上班苗妹子还问到了关于这个模块,当然得用用了…
最终代码如下:
# -*- coding: utf-8 -*-
# @Author : 王翔
# @JianShu : 清风Python
# @Date : 2019/7/24 2:23
# @Software : PyCharm
# @version :Python 3.7.3
# @File : DearestGirl.py
import jieba
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import numpy as np
from PIL import Image
class DearestGirl:
ROLES = "秦问天 倾城 青儿"
def __init__(self):
self.result = dict()
def add_key_word(self):
for user in self.ROLES.split():
jieba.add_word(user)
def cut_word(self):
data = open("太古神王全本.txt", encoding='utf-8').read()
jieba_cut = jieba.cut(data)
for word in jieba_cut:
if word not in self.ROLES.split():
continue
else:
self.result[word] = self.result.get(word, 0) + 1
def sort_words(self):
print(sorted(self.result.items(), key=lambda x: x[1], reverse=True))
def word_cloud(self):
mask = np.array(Image.open('bk.png'))
wc = WordCloud(
font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
mask=mask,
max_words=200,
max_font_size=100
)
wc.generate_from_frequencies(self.result)
image_colors = ImageColorGenerator(mask)
wc.recolor(color_func=image_colors)
wc.to_file('result.jpg')
if __name__ == '__main__':
main = DearestGirl()
main.add_key_word()
main.cut_word()
main.sort_words()
The End
OK,今天的内容就到这里,如果觉得内容对你有所帮助,欢迎点击文章右下角的“在看”。
期待你关注我的公众号**清风Python**,如果你觉得不错,希望能动动手指转发给你身边的朋友们。
来源:华为云社区征文 作者:清风Python
使用jieba分析小说太古神王中,男主更爱谁?去文章中找答案吧!#华为云·寻找黑马程序员#的更多相关文章
- 使用Python开发小说下载器,不再为下载小说而发愁 #华为云·寻找黑马程序员#
需求分析 免费的小说网比较多,我看的比较多的是笔趣阁.这个网站基本收费的章节刚更新,它就能同步更新,简直不要太叼.既然要批量下载小说,肯定要分析这个网站了- 在搜索栏输入地址后,发送post请求获取数 ...
- 大型情感剧集Selenium:6_selenium中的免密登陆与cookie操作 #华为云·寻找黑马程序员#
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
- 黑马程序员----java基础笔记中(毕向东)
<p>------<a href="http://www.itheima.com" target="blank">Java培训.Andr ...
- 黑马程序员——【Java基础】——File类、Properties集合、IO包中的其他类
---------- android培训.java培训.期待与您交流! ---------- 一.File类 (一)概述 1.File类:文件和目录路径名的抽象表现形式 2.作用: (1)用来将文件或 ...
- 黑马程序员_ JAVA中的多线程
------- android培训.java培训.期待与您交流! ---------- 尽管线程对象的常用方法可以通过API文档来了解,但是有很多方法仅仅从API说明是无法详细了解的. 本来打算用一节 ...
- 黑马程序员—创建JDBC框架及原理分析
对于Java数据库的连接,由最初学习的每次全部手工代码,到后面的不断利用知识简化代码量:这是不断学习的过程,就像人类由原始社会的钻木取火到当代的文明,都是一步步过来的! 本文不从最开始的JDBC入门开 ...
- Mybatis--课程中循序渐进的体会 《黑马程序员_Springmvc+Mybatis由浅入深全套视频教程video》
mybatis 刚开始是用最原始的方法开发了一个入门程序,(没有dao) 1.将数据源配置在SqlMapConfig.xml 2.写一个po类 和映射文件User.xml(中的namespace=“名 ...
- 使用jieba分析小说人物出现次数
分析: 1. 读取小说,以读的形式打开 with open('文件名.txt','r',encoding='utf8') as f: str = f.read() 2. 切割小说 ret = jieb ...
- 黑马程序员 Java正则表达式,详解反斜线在Java中的作用
---------------------- ASP.Net+Android+IO开发S. .Net培训.期待与您交流! ---------------------- 在程序设计过程中,经常需要对获取 ...
随机推荐
- 雷神领域(并查集真是个好东西)并查集+流氓dp
考场上,整整看了半个小时以上的题目!!! 化简题意: 给定一个全0矩阵,一些坐标点(x,y)为1,当三个点可以构成一个直角三角形时(直角边长为整数)拓展为一个矩形,之后从(0,0)出发,求最多的占用行 ...
- 爬虫学习--Urllib库基本使用 Day1
一.Urllib库详解 1.什么是Urllib Python内置的HTTP请求库 urllib.request 请求模块(模拟实现传入网址访问) urllib.error ...
- RocketMQ ACL使用指南
目录 1.什么是ACL? 2.ACL基本流程图 3.如何配置ACL 3.1 acl配置文件 3.2 RocketMQ ACL权限可选值 3.3.权限验证流程 4.使用示例 4.1 Broker端安装 ...
- jquery倒计时代码
jquery倒计时代码<pre> <span id="day_show">0天</span> <strong id="hour_ ...
- XML解析之Jsoup
操作xml文件 解析(读取):将文档中的数据解读到内存中 写入:将内存中的数据保存到XML文档中.持久化的存储 解析xml的方式 DOM:将标记语言文档一次性加载进内存,在内存中形成一颗dom树 优点 ...
- tomcat 日志(2)
一.Log4j在Tomcat中的配置说明(tomcat6) 学习Java中,从简单的开始.如果需要文中提到的文件可以找我要. http://www.apache.org/dist/tomcat/tom ...
- Flink入门(一)——Apache Flink介绍
Apache Flink是什么? 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题.随着雅虎对hadoop的 ...
- SqlServer2005 查询 第三讲 between
在数据库的查询中最重要的是要知道命令的顺序,因为在sql命令中有许多的参数,例如distinct,top,in,order by,group by.......如果你不能理解什么时候该执行什么的话,很 ...
- [java笔记] 最近学的一些笔记
1.@Override的用法 2.父类的返回值类型的范围,与子类返回值类型的返回的大小关系: 3.子类方法的权限修饰符,与子类方法的权限修饰符: 4.如果p1是一个对象,p2也是个对象,那么代码p1= ...
- Python 常用模块系列学习(1)--random模块常用function总结--简单应用--验证码生成
random模块--random是一个生成器 首先: import random #导入模块 print (help(random)) #打印random模块帮助信息 常用function ...