文本可视化[二]——《今生今世》人物关系可视化python实现
文本可视化[二]——《今生今世》人物关系可视化python实现
在文本可视化[一]——《今生今世》词云生成与小说分析一文中,我使用了jieba分词和wordcloud实现了,文本关键词的提取并生成词云,同时也尝试直接提取人名关键词来绘制。这次我们换一种方式——通过分析人物之间的关系,而不是人物在文本集中的频率来绘制一张复杂网络图,如下所示。数据经过可视化后还是非常有趣的。下面就讲讲人物关系网图的实过程。

用到的工具
- jieba
jieba分词,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在文本可视化[一]——《今生今世》词云生成与小说分析 使用了关键词抽取,在这里我们需要用他的分词功能来提取文本中的人名。 - gephi
gephi是一个开源的复杂网络数据可视化软件,可用于探索数据分析、链路分析、社交网络分析、生物网络分析等。我们需要把数据处理成gephi可接受的csv格式,然后再进行绘制。
数据处理方式
在词云中,我们只能通过词的大小来了解该词对于文本集是否起关键作用,无法探究人物之间的关系;在关系网图中,不仅可以了解词的关键程度,还能发现人物之间的联系,更能说明问题。

由此可见,绘制词云时,我们只需要提取两列数据,一列人名,一列为频率。而绘制网络图时,就需要两组数据。网络图,顾名思义,就是一张图。所有的图都是由节点和边构成的。节点数据也就是节点值+权重,边数据就是出度+入度+权重。
对应到本文的例子中来,我们是来绘制《今生今世》中的任务关系网。具体的处理方式如下:
- 对文本进行针对性分词,统计人物在本文中的出场次数。
- 以段落为单位进行划分,统计每段中的人物,两两配对后计数,形成粗略的人物关系统计。
- 数据为gephi特定的csv格式,人物出场次数输出为格式为(
Id,Label,Weight),人物关系输出格式为(Source,Target,Weigh)。这也就是之前所说的,用来绘制图的节点和边数据。
可能存在的问题
根据上文描述的统计方法来进行统计显然是粗略的,有很多问题需要进一步考量。
- 以自然段为单位统计人物关系是否合理?真实情况中有很多跨段落的人物关系。
- 显然利用笛卡尔积来统计人物之间的关系也是有问题的。
- 人物之前的称呼仅仅是直呼姓名的吗?显然还有多种代词,这里我将文本中的“我”也一并提取出来作为《今生今世》的中心人物——胡兰成。
结果虽然是粗略的,但是通过对文本的理解,绘制的图依然有一定的参考意义。
实现流程
代码实现分为三步,1. 人物出场次数统计。2. 人物关系统计。3. 格式化输出。
准备工作
准备两份字典,用于分词。
- 文本人物字典
文本人物字典包含了文本中的大部分人名,或者说是我们关心的人物的人名。

- 人物别称映射字典
民国时期的散文,势必每个人会有多个称呼,在文化人中甚多。蕊生、我、兰成、胡先生指代的都是胡兰成。因此需要一个映射字典,将不同的称呼都映射到同一个人名当中。

定义文件路径常量和初始化全局变量
TEXT_PATH = '../jsjs.txt' # 文本路径
DICT_PATH = 'person.txt' # 人物字典路径
SYNONYMOUS_DICT_PATH = 'synonymous_dict.txt' # 同义词路径
SAVE_NODE_PATH = 'node.csv'
SAVE_EDGE_PATH = 'edge.csv'
'''
person_counter是一个计数器,用来统计人物出现的次数。{'a':1,'b':2}
person_per_paragraph每段文字中出现的人物[['a','b'],[]]
relationships保存的是人物间的关系。key为人物A,value为字典,包含人物B和权值。
'''
person_counter = defaultdict(int) # 人物出场次数计数器
person_per_paragraph = []
relationships = {}
synonymous_dict = {}
人物出场次数统计
具体实现方式可以看代码注释。
def count_person(self):
'''
统计人物出场次数,添加每段的人物
:return:
'''
paragraphs = self.get_clean_paragraphs()
synonymous = self.synonymous_names()
print('start process node')
with codecs.open(self._dict_path, 'r', 'utf-8') as f:
name_list = f.read().split(' 10 nr\r\n') # 获取干净的name_list
for p in paragraphs:
jieba.load_userdict(self._dict_path)
# 分词,为每一段初始化新字典
poss = jieba.cut(p)
self._person_per_paragraph.append([])
for w in poss:
# 判断是否在姓名字典以及同义词区分
if w not in name_list:
continue
if synonymous.get(w):
w = synonymous[w]
# 往每段中添加人物
self._person_per_paragraph[-1].append(w)
# 初始化人物关系,计数
if self._person_counter.get(w) is None:
self._relationships[w] = {}
self._person_counter[w] += 1
return self._person_counter
人物关系统计
def calc_relationship(self):
'''
统计人物关系权值
:return:
'''
print("start to process edge")
# 遍历每一段落,笛卡尔积形式,统计人物关系
for p in self._person_per_paragraph:
for name1 in p:
for name2 in p:
if name1 == name2:
continue
if self._relationships[name1].get(name2) is None:
self._relationships[name1][name2] = 1
else:
self._relationships[name1][name2] += 1
return self._relationships
格式化输出
def save_node_and_edge(self):
'''
根据dephi格式保存为csv
:return:
'''
with codecs.open(SAVE_NODE_PATH, "a+", "utf-8") as f:
f.write("Id,Label,Weight\r\n")
for name, times in self._person_counter.items():
f.write(name + "," + name + "," + str(times) + "\r\n")
with codecs.open(SAVE_EDGE_PATH, "a+", "utf-8") as f:
f.write("Source,Target,Weight\r\n")
for name, edges in self._relationships.items():
for v, w in edges.items():
if w > 3:
f.write(name + "," + v + "," + str(w) + "\r\n")
print('save file successful!')
输出结果如下图所示。

完整代码参考github
接下来就可以把数据导入到gephi中生成人物关系网图了。
gephi的使用
gephi和之前使用的wordcloud不同,wordcloud仅仅是一个python的库,直接通过函数调用就可以绘制图片。gephi是一个可视化的应用程序。
需要在https://gephi.org/ 下载windows版的安装包进行安装。打开后如下图所示。

接下来就可以进行网图的绘制了。
1. 新建工程,导入数据
- 新建工程
- 选择
数据资料tab,点击输入数字表格,添加节点和边的csv数据。

2.调整相关的样式
点击概览调整相关样式。可以通过度,权重等信息修改相关的样式。

3. 修改字体,显示相应的标签

4. 选择一个自动化布局的方式,预览,再调整相关参数

5. 最终点击左下角导出图片

上面简单描述了下生成网图的过程。gephi具体的使用方式可以去查看官网的教程。
参考文档
**完整代码可参考github:https://github.com/maoqyhz/TextCharactervVisualization **
文本可视化[二]——《今生今世》人物关系可视化python实现的更多相关文章
- Python基于共现提取《釜山行》人物关系
Python基于共现提取<釜山行>人物关系 一.课程介绍 1. 内容简介 <釜山行>是一部丧尸灾难片,其人物少.关系简单,非常适合我们学习文本处理.这个项目将介绍共现在关系中的 ...
- Python学习笔记(2) Python提取《釜山行》人物关系
参考:http://www.jianshu.com/p/3bd06f8816d7 项目原理: 实验基于简单共现关系,编写 Python 代码从纯文本中提取出人物关系网络,并用Gephi 将生成的网 ...
- NLP(二十一)人物关系抽取的一次实战
去年,笔者写过一篇文章利用关系抽取构建知识图谱的一次尝试,试图用现在的深度学习办法去做开放领域的关系抽取,但是遗憾的是,目前在开放领域的关系抽取,还没有成熟的解决方案和模型.当时的文章仅作为笔者的 ...
- Python将文本生成二维码
#coding:utf-8 ''' Python生成二维码 v1.0 主要将文本生成二维码图片 测试一:将文本生成白底黑字的二维码图片 测试二:将文本生成带logo的二维码图片 ''' __autho ...
- Python来袭,教你用Neo4j构建“复联4”人物关系图谱!
来源商业新知网,原标题:Python来袭,教你用Neo4j构建“复联4”人物关系图谱!没有剧透! 复仇者联盟 之绝对不剧透 漫威英雄们为了不让自己剧透也是使出了浑身解数.在洛杉矶全球首映礼上记者费尽心 ...
- 与 QWidget 有关的 Qt 可视化组件的继承关系图
与 QWidget 有关的 Qt 可视化组件的继承关系图
- python 绘制三国人物关系图
author:weizhendong data:2019.12.19 func:绘制三国演义人物关系图 """ import codecs import jieba.po ...
- 凭借SpringBoot整合Neo4j,我理清了《雷神》中错综复杂的人物关系
原创:微信公众号 码农参上,欢迎分享,转载请保留出处. 哈喽大家好啊,我是Hydra. 虽然距离中秋放假还要熬过漫长的两天,不过也有个好消息,今天是<雷神4>上线Disney+流媒体的日子 ...
- 动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题
动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...
随机推荐
- 201521123045 《JAVA程序设计》第1周学习总结 1
1. 本周学习总结 学习了入门的java知识,知道了jdk.eclipse等基础软件,了解了如何编译最基础的java程序.知道了java的基本原理以及java的几种数据类型.掌握使用简单编译器编写ja ...
- Hibernate第五篇【inverse、cascade属性详解】
前言 上一篇博文已经讲解了一对多和多对一之间的关系了,一对多和多对一存在着关联关系(外键与主键的关系).本博文主要讲解Inverse属性.cascade属性.这两个属性对关联关系都有影响 Invers ...
- 鸟哥Linux学习笔记07
1, vi 是 老式的文字处理器,不过功能已经很齐全了,但是还是有可以进步的地方. vim可以说是程序开发者的一项很好用的工具,vim官网(http://www.vim.org)自己也说vim是一个“ ...
- 【漏洞公告】CVE-2017-12615/CVE-2017-12616:Tomcat信息泄漏和远程代码执行漏洞
2017年9月19日,Apache Tomcat官方确认并修复了两个高危漏洞,漏洞CVE编号:CVE-2017-12615和CVE-2017-12616,该漏洞受影响版本为7.0-7.80之间,在一定 ...
- Elasticsearch 的分页报错 result window is too large
检查自己分页查询的代码 Pageable pageable = new PageRequest(0, 10000); searchQuery.setPageable(pageable); // 分页效 ...
- python 作用域(LEGB)
def fa(a): b = 200 c = 888 def fb(b): print(b) print(a) print(c) print(sum) return fb c = 2 sum = 10 ...
- angular directive自定义指令
先来看一下自定义指令的写法 app.directive('', ['', function(){ // Runs during compile return { // name: '', // pri ...
- angular 学习笔记
每天进步一点点,学习笔记 笔记来自 angular权威指南 如果想要屏蔽浏览器对表单的默认验证行为,可以在表单元素上添加 novalidate 标记. 而按钮标签则完全忽略 hr e f 属性,并不 ...
- Java多线程Runnable与Callable区别与拓展
我们先来分别看一下这两个接口 Runnable: // // Source code recreated from a .class file by IntelliJ IDEA // (powered ...
- Swiper.js使用方法
<!DOCTYPE html> <html> <head> ... <link rel="stylesheet" href=" ...