一、安装所需要的第三方库

jieba （jieba是优秀的中文分词第三分库）

pyecharts （一个优秀的数据可视化库）

《三国演义》.txt下载地址（提取码：kist ）

使用pycharm安装库

打开Pycharm选择【File】下的Settings
出现下面页面,
选择右边的【+】出现下面页面，在此页面顶端搜索想要的库，然后安装就可以了

二、编写代码

import jieba  #导入库

import os

print("人物出现次数前十名：")

txt = open('三国演义.txt', 'r' ,encoding='gb18030').read()

words = jieba.lcut(txt)

counts = {}

for word in words:

    if len(word) == 1:

        continue

    elif word == "诸葛亮" or word == "孔明曰":

        rword = "孔明"

    elif word == "关公" or word == "云长":

        rword = "关羽"

    elif word == "玄德" or word == "玄德曰":

        rword = "刘备"

    elif word == "孟德" or word == "丞相":

        rword = "曹操"  # 把相同意思的名字归为一个人

    else:

        rword = word

    counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

for i in range(10):

   word, count=items[i]

   print("{}:{}".format(word, count))  # 打印前十名名单

结果如下图：
可以看到这里面有很多不是人物的名字，所以咱们要把这些删掉。更改代码如下

import jieba  #导入库

import os

print("人物出现次数前十名：")

txt = open('三国演义.txt', 'r' ,encoding='gb18030').read()

remove = {"将军", "却说", "不能", "后主", "上马", "不知", "天子", "大叫", "众将", "不可",

            "主公", "蜀兵", "只见", "如何", "商议", "都督", "一人", "汉中", "人马",

            "陛下", "魏兵", "天下", "今日", "左右", "东吴", "于是", "荆州", "不能", "如此",

            "大喜", "引兵", "次日", "军士", "军马","二人","不敢"}  # 这些文字是要排出掉的，多次运行程序所得到的

words = jieba.lcut(txt)

counts = {}

for word in words:

    if len(word) == 1:

        continue

    elif word == "诸葛亮" or word == "孔明曰":

        rword = "孔明"

    elif word == "关公" or word == "云长":

        rword = "关羽"

    elif word == "玄德" or word == "玄德曰":

        rword = "刘备"

    elif word == "孟德" or word == "丞相":

        rword = "曹操"  # 把相同意思的名字归为一个人

    else:

        rword = word

    counts[rword] = counts.get(rword, 0) + 1

for word in remove:

    del counts[word]  #匹配文字相等就删除

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

for i in range(10):

   word, count=items[i]

   print("{}:{}".format(word, count))  # 打印前十名名单

运行结果如下图

可以看到现在都是人物名称了

导出数据，代码如下

import jieba  #导入库

import os

print("人物出现次数前十名：")

txt = open('三国演义.txt', 'r' ,encoding='gb18030').read()

remove = {"将军", "却说", "不能", "后主", "上马", "不知", "天子", "大叫", "众将", "不可",

            "主公", "蜀兵", "只见", "如何", "商议", "都督", "一人", "汉中", "人马",

            "陛下", "魏兵", "天下", "今日", "左右", "东吴", "于是", "荆州", "不能", "如此",

            "大喜", "引兵", "次日", "军士", "军马","二人","不敢"}  # 这些文字是要排出掉的，多次运行程序所得到的

words = jieba.lcut(txt)

counts = {}

for word in words:

    if len(word) == 1:

        continue

    elif word == "诸葛亮" or word == "孔明曰":

        rword = "孔明"

    elif word == "关公" or word == "云长":

        rword = "关羽"

    elif word == "玄德" or word == "玄德曰":

        rword = "刘备"

    elif word == "孟德" or word == "丞相":

        rword = "曹操"  # 把相同意思的名字归为一个人

    else:

        rword = word

    counts[rword] = counts.get(rword, 0) + 1

for word in remove:

    del counts[word]  #匹配文字相等就删除

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

#导出数据

fo = open("三国人物出场次数.txt", "a", encoding='utf-8')

for i in range(10):

   word, count=items[i]

   word = str(word)

   count = str(count)

   fo.write(word)

   fo.write(':') #使用冒号分开

   fo.write(count)

   fo.write('\n') #换行

fo.close() #关闭文件

现在咱们运行看是否导出，运行结果如下图。

可以看到已经生成一个名为三国人物出场次数.txt的文件，而文件里的内容就是咱们刚才的数据。

三、数据可视化

想要可视化首先咱们要有数据，咱们把刚才导出的数据转换为字典形式。代码如下

#将txt文本里的数据转换为字典形式

fr = open('三国人物出场次数.txt', 'r', encoding='utf-8')

dic = {}

keys = [] # 用来存储读取的顺序

for line in fr:

  v = line.strip().split(':')

  dic[v[0]] = v[1]

  keys.append(v[0])

fr.close()

print(dic)

-运行结果如下

使用pyecharts绘图
先倒入模块

from pyecharts import options as opts

from pyecharts.charts import Bar

代码如下

#　绘图

list1=list(dic.keys())

list2=list(dic.values())  #提取字典里的数据作为绘图数据

c = (

    Bar()

    .add_xaxis(list1)

    .add_yaxis("人物出场次数",list2)

    .set_global_opts(

        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),

    )

    .render("人物出场次数可视化图.html")

)

运行程序看到目录下会生成一个名为人物出场次数可视化图.html的文件，如下图
使用浏览器打开，就可以看到数据以图形的方式呈现出来。

三、全部代码呈现

#《三国演义》的人物出场次数Python代码：

import jieba  #导入库

import os

from pyecharts import options as opts

from pyecharts.charts import Bar

print("人物出现次数前十名：")

txt = open('三国演义.txt', 'r' ,encoding='gb18030').read()

remove = {"将军", "却说", "不能", "后主", "上马", "不知", "天子", "大叫", "众将", "不可",

            "主公", "蜀兵", "只见", "如何", "商议", "都督", "一人", "汉中", "人马",

            "陛下", "魏兵", "天下", "今日", "左右", "东吴", "于是", "荆州", "不能", "如此",

            "大喜", "引兵", "次日", "军士", "军马","二人","不敢"}  # 这些文字是要排出掉的，多次运行程序所得到的

words = jieba.lcut(txt)

counts = {}

for word in words:

    if len(word) == 1:

        continue

    elif word == "诸葛亮" or word == "孔明曰":

        rword = "孔明"

    elif word == "关公" or word == "云长":

        rword = "关羽"

    elif word == "玄德" or word == "玄德曰":

        rword = "刘备"

    elif word == "孟德" or word == "丞相":

        rword = "曹操"  # 把相同意思的名字归为一个人

    else:

        rword = word

    counts[rword] = counts.get(rword, 0) + 1

for word in remove:

    del counts[word]  #匹配文字相等就删除

items = list(counts.items())

items.sort(key=lambda x: x[1], reverse=True)

#导出数据

fo = open("三国人物出场次数.txt", "a", encoding='utf-8')

for i in range(10):

   word, count=items[i]

   word = str(word)

   count = str(count)

   fo.write(word)

   fo.write(':') #使用冒号分开

   fo.write(count)

   fo.write('\n') #换行

fo.close() #关闭文件

#将txt文本里的数据转换为字典形式

fr = open('三国人物出场次数.txt', 'r',encoding='utf-8' )

dic = {}

keys = [] # 用来存储读取的顺序

for line in fr:

  v = line.strip().split(':')

  dic[v[0]] = v[1]

  keys.append(v[0])

fr.close()

print(dic)

#　绘图

list1=list(dic.keys())

list2=list(dic.values())  #提取字典里的数据作为绘图数据

c = (

    Bar()

    .add_xaxis(list1)

    .add_yaxis("人物出场次数",list2)

    .set_global_opts(

        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),

    )

    .render("人物出场次数可视化图.html")

)

使用python统计《三国演义》小说里人物出现次数前十名，并实现可视化。的更多相关文章

Python统计日志中每个IP出现次数
介绍了Python统计日志中每个IP出现次数的方法,实例分析了Python基于正则表达式解析日志文件的相关技巧,需要的朋友可以参考下本脚本可用于多种日志类型 #-*- coding:utf-8 -* ...
python 统计字符串中指定字符出现次数的方法
python 统计字符串中指定字符出现次数的方法: strs = "They look good and stick good!" count_set = ['look','goo ...
python统计英文首字母出现的次数
使用python解析有道词典导出的xml格式单词,统计各个首字母出现的次数,并按次数由多到少进行排序相关实现导出的xml格式如下 <wordbook> <item> < ...
python统计字符串里每个字符的次数
方法一: 推导式 dd="ewq4aewtaSDDSFDTFDSWQrtewtyufashas" print {i:dd.count(i) for i in dd} 方法二: co ...
【python】一篇文章里的词频统计
一.环境 1.python3.6 2.windows系统 3.安装第三方模块 pip install wordcloud #词云展示库 pip install jieba #结巴分词 pip inst ...
简易安装python统计包
PythonCharm简易安装python统计包及本文介绍使用pythonCharm IDE 来安装Python统计包或一些packages的简单过程,基本无任何技术难度,顺便提一提笔者在安装过程中 ...
Python统计列表中的重复项出现的次数的方法
本文实例展示了Python统计列表中的重复项出现的次数的方法,是一个很实用的功能,适合Python初学者学习借鉴.具体方法如下:对一个列表,比如[1,2,2,2,2,3,3,3,4,4,4,4],现在 ...
Python抓取小说
Python抓取小说前言这个脚本命令MAC在抓取小说写,使用Python它有几个码. 代码 # coding=utf-8 import re import urllib2 import chard ...
使用jieba分析小说人物出现次数
分析: 1. 读取小说,以读的形式打开 with open('文件名.txt','r',encoding='utf8') as f: str = f.read() 2. 切割小说 ret = jieb ...

随机推荐

H5移动端实现图片上传
转至 :https://blog.csdn.net/qq_37610423/article/details/84319410 效果图: 我在用这个的时候发现博主少写了一些东西,导致功能无法实现,所以我 ...
解决Android RadioGroup跑到输入法上面
Android开发过程中,发现一个小问题,当我们点击屏幕下面的输入框时,我们的RadioGroup会跑到输入法的上面去,如下图两种解决方法 1.Manifest.xml文件activity标签中添加 ...
revel run报错 undefined: sys call.SIGUSR2"
revel run报错,报错信息为 o Compilation Error (in ..\\..\\revel\\server_adapter_go.go:135): undefined: sysca ...
Java 中的 3 个双引号是什么语法？Java 15 刷新你的认知！
Java 中的 3 个双引号 """ 是什么语法? 这是 Java 15 新出的,刷新你的认知! 一.前言在 Java 15 的推出的时候,Text Blocks 正式 ...
mock.js 学习
安装 npm install mockjs 使用 // 引入 import Mock from 'mockjs' Mock.setup({ timeout: '200 - 400' }) const ...
使用Vue简单的写组件的UI库
初始化项目vue create nature-ui 在根目录下面创建一个文件目录放置组件(我这里的创建packages) packages 目录下面创建个个组件的名称并创建index.js(用于输出所 ...
批量安装Zabbix_Agent
使用自动化部署工具Ansible批量部署zabbix_agent. 1. 安装Ansible yum –y install ansible 内网情况下,现在ansible及其依赖的rpm包,添加到yu ...
css-设置背景透明度
实现透明的css方法通常有以下3种方式,以下是不透明度都为80%的写法: css3的opacity:x,x 的取值从 0 到 1,如opacity: 0.8 兼容性:IE6.7.8不支持,IE9及以上 ...
4G DTU无线数据透明传输终端
4G DTU是基于4G网络的远程无线数据透明传输终端,是一种物联网无线数据传输设备,使用公用运营商的4G网络为用户提供无线远距离数据传输功能,使用工业级32位的高性能通信处理器和工业级无线模块,以嵌入 ...
[Luogu P4178]Tree (点分治+splay)
题面传送门:https://www.luogu.org/problemnew/show/P4178 Solution 首先,长成这样的题目一定是淀粉质跑不掉了. 考虑到我们不知道K的大小,我们可以开 ...

使用python统计《三国演义》小说里人物出现次数前十名，并实现可视化。

一、安装所需要的第三方库

使用pycharm安装库

二、编写代码

三、数据可视化

三、全部代码呈现

使用python统计《三国演义》小说里人物出现次数前十名，并实现可视化。的更多相关文章

随机推荐

热门专题