每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

笔者寄语：这里所有的应用代码都来自与igraph包。《R语言与网站分析》书中第九章关系网络分析把大致的框架已经描述得够清楚，但是还有一些细节需要完善，而且该书笔者没找到代码。。。

————————————————————————————————————————

一、关系网络数据类型

关系网络需要什么样子的数据呢？笔者接触到了两种数据结构，擅自命名：平行关系型、文本型。根据数据关联，也有无向数据、有向数据。

并且关系网络生成之后，R里面就不是用真实的名字来做连接，是采用编号的。例如（小明-小红）是好朋友，在R里面就显示为（1-2），所以需要单独把名字属性加到序号上。

1、平行关系型

（1）无向平行数据。直接上例子比较直观，社交网络中的好友关系，你-我，我-他。这样排列，是无向

id1	di2
小明	小红
小张	小白
小红	小胖
小胖	小蓝
小白	小明
小白	小张
小明	小胖

很简单的两列数据，说明了小明-小红、小张-小白的社会关系。当然需要注意，重名问题，名字可能有重叠，可以给每个人一个编号，这样就不会出现重名。

实战中，一般是拿编号作为输入变量，拿名字作为编号的标签，加入到关系网络中。

（2）有向平行数据。举一个书（《R语言与网站分析》）上的例子。解读一下这个图，这是一条微博的转发情况，“老牛”用户这个微博号转发，让“晴”、“四眼看八方”两个用户看到了。

“老牛”用户发出，“晴”、“四眼看八方”用户分别接收到。

2、文本型

文本型主要针对的是文本数据，笔者在参赛时就用到这个。文本型也有两种情况：有向型以及词条-文本矩阵。这部分内容跟文本挖掘相关，关于分词内容可以参考中文分词包Rwordseg。

（1）有向型就如同平行关系型有向数据结构一样，人名-词条两个

人名	词条
小明	小气
小张	帅气
小红	好看
小胖	胖
小白	帅气
小白	阳光
小明	贪吃

（2）词条-文本矩阵

文本挖掘中，一般都能获得这个矩阵，可以看一下tm包的博客，文档-词频矩阵。tm包中用DocumentTermMatrix函数可以获得。

	小气	帅气	好看	胖	阳光	贪吃
小明	1		0	0	0	1
小张	0	1	0	0	0	0
小红	0	0	1	0	0	0
小胖	0	0	0	1	0	0
小白	0	1	0	0	1	0

跟上面的对比一下就了解，变成了一个稀疏矩阵，相关的关联规则、随机森林中中也会用到这个矩阵。tm包可以实现，也可以通过reshape包中的cast函数，构造这个函数。

需要原来的数据框调整为以每个词作为列名称（变量）的数据框。也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。

其中，data.table里的`dcast`函数比reshape2包里的`dcast`好用，尽管他们的参数都一样，但是很多人还是比较喜欢老朋友reshape2包,然而这一步需要大量的内存，本书在服务器上完成的，如果你的电脑报告内存不足的错误，可以使用data.table包里的`dcast`函数试试。转化为稀疏矩阵，1表示访问，0表示未访问。

————————————————————————————————————————

二、构造关系网络

1、自编译函数init.igraph

看到了数据类型，大概知道其实需要两样东西，一个起点数据列、一个终点数据列。那么构造数据就只需要调用一下函数，在这里选用《R语言与网站分析》书中第九章关系网络分析中，李明老师自己编译的函数来直接构造。

在使用之前需要library调用igraph包，该函数的好处就是直接帮你打上点标签以及线标签。

init.igraph<-function(data,dir=F,rem.multi=T){
  labels<-union(unique(data[,1]),unique(data[,2]))
  ids<-1:length(labels);names(ids)<-labels
  from<-as.character(data[,1]);to<-as.character(data[,2])
  edges<-matrix(c(ids[from],ids[to]),nc=2)
  g<-graph.empty(directed = dir)
  g<-add.vertices(g,length(labels))
  V(g)$label=labels
  g<-add.edges(g,t(edges))
  if (rem.multi){
    E(g)$weight<-count.multiple(g)
    g<-simplify(g,remove.multiple = TRUE,
                remove.loops = TRUE,edge.attr.comb = "mean")
  }
  g
}

这个函数有这么几个参数：

data,是两列关系数据，前面已经讲过了，只能两列，而且要同等长度；

dir，逻辑值，T代表有向图，F无向图；

rem.multi，逻辑，T删除重复变量并更新线权重weight，F不删除并且线权重为1。
使用方法直接init.igraph(data，dir=T,rem.multi=T)即可。

2、文本型数据

一般数据结构都可以套用上面的函数，包括平行关系型的有向、无向；文本型。其中对于文本矩阵型数据还有一个办法，参考于统计词画番外篇（一）：谁共我，醉明月？

利用igragh包中的graph_from_adjacency_matrix函数。

adjm <- matrix(sample(0:1, 100, replace=TRUE, prob=c(0.9,0.1)), nc=10)
g1 <- graph_from_adjacency_matrix( adjm ,weighted=TRUE,mode="undirected")

   ## 给稀疏矩阵行列进行命名
rownames(adjm) <- sample(letters, nrow(adjm))
colnames(adjm) <- seq(ncol(adjm))
g10 <- graph_from_adjacency_matrix(adjm, weighted=TRUE, add.rownames="row",add.colnames="col")

代码解读：adjm是随便构造的一个矩阵，函数；

graph_from_adjacency_matrix中，

weighted=TRUE，是否需要加入权重；
mode有directed, undirected, upper, lower, max, min, plus有这么几种，min代表把无向图中，只选取最小数字的线（1,1）与（1,2）只选择（1,1）。具体请参看函数官方解释。

add.rownames以及add.colnames，因为前面的自编译函数init.igraph可以自定义标签，这里定义名称，可以用add.rownames加入标签列，这样你可以用V（g10）$row以及V（g10）$col直接看到标签。其中还可以自己定义名字，row，col都是笔者自己定义的。

————————————————————————————————————————

三、一些基本操作

关系网络中，每一个点的信息存放在V中，每一个线的信息存放在E中。并且通过自编译的init.igraph函数，V（g）$label以及E(g)$weight都是自带的属性。

可以生成一个空的关系网络。

g<-graph.empty(directed=F)

1、关系网络中的点集V

点集就是网络中所有的点，如有向文本型那个数据格式，包括了14个点；7条线。

（1）点集属性

点集与数据框的操作很相似，属性是可以自己赋上去的，比如V（g）$label就是赋上去的，你还可以给点集加上颜色（V(g)$color）、加上每个点的尺寸(V(g)$size)，加上分类（V(g)$member）

点集的选择跟数据框操作一样，比如我要选择群落为1的点集，就是V(g)[which(V(g)$member==1)]

比如我要选择点度数大于1的点集，V(g)[degree(g)>1]

如果我想知道一下这两个点之间是否有关系，可以用edge.connectivit函数，edge.connectivity(g, 4,9) 代表着第四个点与第九个点之间是否有连接关系。返回的0/1。0是没有线，1代表有线。

（2）点集加减操作

我想在原来的基础上加入一些点，用add.vertices

g<-add.vertices(g,length(labels))#关系网络中加入“点”

如果我想减去点度数为0的点

g<-g-V(g)[degree(g)==0]

（3）相邻点的集合——neighbors（很重要）

neighbors(g.zn,v=which(V(g.zn)$label=="会计"))
V(g.zn)$label[neighbors(g.zn,v=which(V(g.zn)$label=="取向"),mode="total")]
   #默认mode设置是out，还有 in,total；其中V(g.zn)$label和V(g.zn)一个返回标签，一个返回值

eighbors可以找出标签如果是“会计”的点，与之有关系的点的序号是啥；不过你也可以通过V（g.zn）$label让临近点的标签一起筛选出来

其中mode代表点出度（out）以及点入度（in），还有两个都有的点度（total）。
该函数可以对于点集，做附近的画像，比较好用。

2、关系网络中的线集E

（1）线集的类型

关系网络中线的关系比较多，loop线就是循环到自己的点，1-2-1；multiple代表线的重叠。

which_loop(g)  #线是否能够指回自己，1-1就是指回自己
which_multiple(g)  #是否有重复线，后面1-1与前面1-1重复了

（2）线集属性

线的属性中，自编译函数能够拿到线权重，E(g)$weight。但是没有标签项，这时候需要用set_vertex_attr加入线标签。

g<-set_vertex_attr(g,"name",value=V(g)$label)

原理就是把点集的标签，打到线集上来，name是默认的设置。
线集的属性中也可以跟数据集一样进行筛选操作。

temp<-E(g)[order(E(g)$weight>25000)]

（3）线集加减

线集的加减可以用add.edges以及-来实现

g<-add.edges(g,t(edges))  #edges需要先转置
g<-g-E(g)[(weight>1)]  #删除部分线

其中需要注意，add.edges中，需要把列数据，转置为行数据，平放id与词条。

同时线集也会有重复性的问题，见下文count.multiple(g) 以及simplify函数。

还有一些特别的函数，diameter(g)可以做到最长的链接经过了多少根线。

4、关系网络的重复性问题

在关系网络中，重复是常见的，而且无向线中1-2与2-1是重复的，重复线的数量也可以作为线的权重。也就是E（g）$weight。其中igrarh包中笔者看到两个函数跟重复性问题有关。count.multiple(g) 以及simplify函数。

（1）count.multiple(g) 函数

可以获得网络中线的重复情况。不重复是1，重复一次+1。比如：无向网络（1-2,2-3，2-1）就是（2，1，2）

等价于E（g）$weight

（2）simplify函数

函数常规式:simplify(g,remove.multiple = TRUE,remove.loops = TRUE,edge.attr.comb = "mean")

其中loops是指是否循环回自己，比如1-2-1就是一个循环到自己；multiple是指重复比如1-2,2-1。

h <- graph( c(1,2,1,2,3,3,2,1,4,4) );h
is_simple(h)
simplify(h, remove.loops=FALSE)   #线重复，删除a->b,a->b删掉
simplify(h, remove.loops=TRUE)    #在线方向性重复基础上删掉点重复，a->a,b->b
simplify(h, remove.multiple=FALSE)#删掉点重复
simplify(h, remove.multiple=TRUE)#删掉点重复同时，删除线a->b,a->b
simplify(h, remove.multiple=TRUE,remove.loops=TRUE) #删掉线重复、点重复

simplify函数识别了两种重复方式，一种是线重复，比如1-2,2-1,；一种是点重复比如1-1,2-2就是点重复。

remove.multiple=TRUE，把重复的线删除
edge.attr.comb,使用重复次数来更新线权重E(g)$weight

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

R语言︱SNA-社会关系网络 R语言实现专题（基础篇）（一）的更多相关文章

Retrofit + RxJava ＋ OkHttp 让网络请求变的简单-基础篇
https://www.jianshu.com/p/5bc866b9cbb9 最近因为手头上的工作做完了,比较闲,想着做一些优化.看到以前用的那一套网络框架添加一个请求比较麻烦,并且比较难用,所以想改 ...
C#网络编程（一）基础篇
简介: C#网络编程API包含在System.Net和System.Net.Sockets命名空间下,大部分网络操作都可以在其中找到相应的类来实现:包括Socket的创建和连接,网络流收发方法的封装, ...
R语言︱贝叶斯网络语言实现及与朴素贝叶斯区别（笔记）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 一.贝叶斯网络与朴素贝叶斯的区别朴素贝叶斯的 ...
R语言构建蛋白质网络并实现GN算法
目录 R语言构建蛋白质网络并实现GN算法 1.蛋白质网络的构建 2.生物网络的模块发现方法 3.模块发现方法实现和图形展示 4.附录:igraph中常用函数参考链接 R语言构建蛋白质网络并实现GN算 ...
零基础数据分析与挖掘R语言实战课程（R语言）
随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...
R语言入门(1)-初识R语言
设置R语言环境为英文环境其实不设置也行...就是报错提示的内容是中文的话, 会不太好理解.. 1. 首先在用户根目录下cat查看一下, 发现没有.Renviron文件, 这个是R语言的环境配置文件. ...
R语言学习笔记1——R语言中的基本对象
R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心 ...
R语言- 实验报告 - 利用R语言脚本与Java相互调用
一. 实训内容利用R语言对Java项目程序进行调用,本实验包括利用R语言对java的.java文件进行编译和执行输出. 在Java中调用R语言程序.本实验通过eclipse编写Java程序的方式,调 ...
《C程序设计语言》（K&R）中文高清非扫描件
<C程序设计语言>(K&R)中文高清非扫描件(带书签目录) 对于某下载东西都要C币的网站无爱了.好不容易找了一个,发出来看会不会帮到别人附上addr:https://pan. ...
go语言之行--网络编程、http处理流程详情
一.简介 go语言中的网络编程主要通过net包实现,net包提供了网络I/O接口,包括HTTP.TCP/IP.UDP.域名解析和Unix域socket等.和大多数语言一样go可以使用几行代码便可以启动 ...

随机推荐

VMware10不能安装64位(linux)系统，提示此主机支持 Intel VT-x，但 Intel VT-x 处于禁用状态
今天下载VM10准备安装Ubuntu14.04,一如既往的进行安装,突然发现出现了问题:此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态,具体如图: 如图中提示可重启电脑进入B ...
Bug等级判断标准
测试的问题大致可分为以下几个类型:致命问题严重问题一般问题轻微问题判断标准如下1.致命问题:造成系统崩溃.死机.死循环,导致数据库数据丢失,与数据库连接错误,主要功能丧失,基本模块缺失等问题.如:代 ...
DRBD的主备安装配置
drbd软件包链接:https://pan.baidu.com/s/1eUcXVyU 密码:00ul 1.使用的资源:1.1 系统centos6.9 mini1.2 两台节点主机node1.node2 ...
cordova+vue 项目打包成Android（apk）应用
现在使用vue开发的项目越来越多,使用vue开发的移动端打包就成了最大的问题.现在前端打包方案有好多种,但是综合来说,我比较喜欢用cordova来进行Android和ios的打包,配置完成之后,每次只 ...
C语言对函数操作的结果声明
可以用来返回给调用者函数操作的状态值. /* 这是一份关于函数返回值定义的头文件. */ #ifndef _STATUS_H_ #define _STATUS_H_ #define STATUS in ...
Python CRM项目六
自定义Django Admin的action 在Django Admin中,可以通过action来自定义一些操作,其中默认的action的功能是选中多条数据来进行删除操作我们在king_admin中 ...
关于static的一点点总结
1. 简述在<Java编程思想>P86页有这样一段话: “static方法就是没有this的方法.在static方法内部不能调用非静态方法,反过来是可以的.而且可以在没有创建任何对象的前 ...
洛谷 [P2024] 食物链
并查集这是一道比较特殊的并查集,开一个三倍的数组, 1-n保存同类,n-n×2保存猎物,n2~n3保存天敌: #include <iostream> #include <cstdi ...
SpringMVC源码之参数解析绑定原理
摘要本文从源码层面简单讲解SpringMVC的参数绑定原理 SpringMVC参数绑定相关组件的初始化过程在理解初始化之前,先来认识一个接口 HandlerMethodArgumentResolv ...
python学习1：程序元素和基本使用方法（跟随mooc学习）
程序元素: 注释,缩进,变量,常量,表达式输入,输出,分支,循环示例程序,温度转换程序: #TempConvert.pyval=input("请输入带温度表示符号发温度值(例如:32C) ...

R语言︱SNA-社会关系网络 R语言实现专题（基础篇）（一）

一、关系网络数据类型

1、平行关系型

2、文本型

二、构造关系网络

1、自编译函数init.igraph

2、文本型数据

三、一些基本操作

1、关系网络中的点集V

（1）点集属性

（2）点集加减操作

（3）相邻点的集合——neighbors（很重要）

2、关系网络中的线集E

（1）线集的类型

（2）线集属性

（3）线集加减

4、关系网络的重复性问题

（1）count.multiple(g) 函数

（2）simplify函数

R语言︱SNA-社会关系网络 R语言实现专题（基础篇）（一）的更多相关文章

随机推荐

热门专题