关系网络数据可视化:3. 案例:公司职员关系图表 & 导演演员关系网络可视化
1. 公司职员关系图表
节点和边界数据
节点是指每个节点本身的数据,代表公司职工的名称;属性(Country)、分类(Category)和地区(Region,给每个节点定义的属性数据)。文件必须是.csv的格式。
连接线数据,不同的两个点之间的关系,权重(可以用各种方式做一个度量)。节点的数据结构可以是以点的形式,一个行数据是一个节点它有它的属性;边线的数据它每一行是两个点之间的关系。
节点数据名第一个字段必须是Id(第一个必须大写,第二个字母d小写),后边的字段Country、Category、Region、Level是可以变的(它们是点的属性);
边线的字段名必须target和source,并且内容是一一对应的(就是target和source所对应的点必须在node文件里边必须是能够对应的上的,否则无法识别) 一个edge代表了点与点间的关系,而node代表每个点的属性,它肯定要有个标签去对应,这个标签就是它的Id名称,
第一步:导入数据,node和edge
节点---node; 边---edge。
第二步:按照不同的国家做一个颜色的界定
第三步:设置下
节点有多大,里边的字体就有多大。
还是密密麻麻的,节点按照某种关系做一个输出,连出度越大,这个点本身越大。
连出度代表我这个人跟多少人是有关系的;
度就是我这个点跟其他点的连接关系;连出度是往外连接的,连入度是从外边往里边连接的。整个度是两个的求和。
第四步:参数
网络直径是点与点之间的最小距离
Betweenness Centrality:网络中任意两个点之间的最短路径,如果这个最短 路径都经过某个节点,那么这个节点的最短基数越高。
Closeness centrality
Eccentricity
Harmonic closeness centrality
把布局再调整下: ForceAtlas2 收缩 扩展
Betweenness Centrality中层领导(连接高层领导又连接下层的一个角色);
Closeness centrality: 所有跟我有连接的平均值是最短的;在公司中他跟谁都近,但连入度不一定是最高的
这个不是特别明显,大家的值的区别都不是很大,大小都是差不多大。
2. 案例:导演演员关系网络可视化
如何做一个筛选和数据清洗?通过可视化的方式直接清洗它
主要用到过滤和统计的模块
第一步:
加载数据---->> 数据太多,需要进行筛选和处理,筛选之后,统计计算只会计算筛选下来的内容;
第二步:
进行过滤
数据清洗
清洗的逻辑有:巨人组件参数和K核心
巨人组件是会保留一个组团中连接最多的那些节点,由于本身又一些连接关系,但是会有一些点没有联系(相当于没有那个参数),由于重力的关系会实现一个簇。巨人组件就会自动的删除周边这些点。
把相互之间的点的度看成它的一个均值,每一个点都有一个度,K核心可以按照这个度做一个筛选,比如K(核心)=0,基本上不会做任何的筛选,度非常小的接线还会保留。
K=4的时候它就会把那些小的接线给去掉了。
通过这两个方法不断去优化这些数据点的个数。节点数尽 量在1000个左右,还可以通过相互度的范围做下一步的筛选。
1000个节点(经验数值)以下的好做运算。
第三步:
再通过模块化对整个数据做一个聚类,得到里边的模块。最后这个模块就会呈现出我们想要的效果。
在这一步我们需要不断的去调整参数,去做这个设置,解析度越大,簇的社区越少。
布局 用扩展和ForceAtlas2来进行调节。
哪些点是属于黏度比较高的?算下网络的直径,
预览
度范围的操作结果如下:
关系网络数据可视化:3. 案例:公司职员关系图表 & 导演演员关系网络可视化的更多相关文章
- Linux 中的网络数据包捕获
Linux 中的网络数据包捕获 Ashish Chaurasia, 工程师 简介: 本教程介绍了捕获和操纵数据包的不同机制.安全应用程序,如 VPN.防火墙和嗅探器,以及网络应用程序,如路由程序,都依 ...
- 关系网络数据可视化:2. Python数据预处理
将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数 import numpy as np import pandas as pd import matplotlib.pyplo ...
- 分享数百个 HT 工业互联网 2D 3D 可视化应用案例
过去的 2018 年,我们认为是国内工业互联网可视化的元年,图扑软件作为在工业可视化领域的重度参与者,一线见证了众多 HTML5/Web 化.2D/3D 化的项目在工业界应用落地,我们觉得有必要在此分 ...
- iOS—网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- iOS开发——网络实用技术OC篇&网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- 《Mysql 公司职员学习篇》 第二章 小A的惊喜
第二章 小A的惊喜 ---- 认识数据库 吃完饭后,小Y和小A回到了家里,并打开电脑开始学习Mysql. 小Y:"小A,你平时的Excell文件很多的情况下,怎么样存放Exce ...
- 用python探索和分析网络数据
Edited by Markdown Refered from: John Ladd, Jessica Otis, Christopher N. Warren, and Scott Weingart, ...
- react-native 项目实战 -- 新闻客户端(4) -- 请求网络数据
1.Home.js /** * 首页 */ import React, { Component } from 'react'; import { AppRegistry, StyleSheet, Te ...
- 分享数百个 HT 工业互联网 2D 3D 可视化应用案例之 2019 篇
继<分享数百个 HT 工业互联网 2D 3D 可视化应用案例>2018 篇,图扑软件定义 2018 为国内工业互联网可视化的元年后,2019 年里我们与各行业客户进行了更深度合作,拓展了H ...
随机推荐
- mysql-约束介绍
一.约束介绍 约束是一种限制,它通过对表的行或列的数据做出限制,来确保数据的完整性.一致性.约束条件与数据类型宽度一样都是可选参数. 常用约束: PRIMARY KEY (PK) 标识该字段为该表的主 ...
- 使用SimHash进行海量文本去重[转]
阅读目录 1. SimHash与传统hash函数的区别 2. SimHash算法思想 3. SimHash流程实现 4. SimHash签名距离计算 5. SimHash存储和索引 6. SimHas ...
- Confluence 6 数据库表-内容(Content)
这部分的内容描述了有关 Confluence 存储内容所使用的表格.内容是用户在 Confluence 存储和分享的信息. attachmentdata 附件文件的二进制数据.当 Confluence ...
- Flex布局新旧混合写法详解
flex是个非常好用的属性,如果说有什么可以完全代替 float 和 position ,那么肯定是非它莫属了(虽然现在还有很多不支持 flex 的浏览器).然而国内很多浏览器对 Flex 的支持都不 ...
- 【linux】复制文件夹内容到另一个文件夹
我一直觉得cp是个非常简单的指令.结果居然遇到坑了.记录一下. 文件夹1:test1/ 文件夹2:test2/ 目标:将test1/中的所有文件和目录拷贝到test2/中 正确指令: cp -rf t ...
- java接口实现
1.接口中的方法一定是public abstract方法所以类要继承实现接口的时候,一定要去掉abstract修饰符,而且还要标明方法的访问权限一定是public 声明接口不适用public就是友好的 ...
- MongoDB----提升
文档之间的联系 一对一:通过文档内嵌的形式体现一对一的关系 db.user.insert({name:"xiaoming",frind:{name:"xiahua&quo ...
- markdown 相关零碎知识
1.尖括号<>在markdown会被当做html符号,解决办法:用转义字符,如:<测试> 可以写作<:测试>
- Fisher–Yates shuffle 算法
费希尔 - 耶茨洗牌 维基百科,自由的百科全书 所述费-耶茨洗牌是一种算法,用于产生随机排列的有限的序列 -in平原而言,算法打乱的序列.该算法有效地将所有元素放在帽子里; 它通过随机从帽子中 ...
- Python(列表操作应用实战)
# 输入一个数据,删除一个列表中的所有指定元素# 给定的列表数据data = [1,2,3,4,5,6,7,8,9,0,5,4,3,5,"b","a",&quo ...