社区发现(Community Detection)算法 [转]

作者: peghoty

出处: http://blog.csdn.net/peghoty/article/details/9286905

社区发现（Community Detection）算法用来发现网络中的社区结构，也可以看做是一种聚类算法。

博客上看到一篇优秀的介绍社区发现的PPT，转载过来分享：

从上述定义可以看出：社区是一个比较含糊的概念，只给出了一个定性的刻画。

另外需要注意的是，社区是一个子图，包含顶点和边。

下面我们以新浪微博用户对应的网络图为例，来介绍相应的社区发现算法。

这里在相互关注的用户之间建立连接关系，主要是为了简化模型，此时对应的图为无向图。

当然，我们也可以采用单向关注来建边，此时将对应有向图。

这个定义看起来很拗口，但通过层层推导，可以得到如下（4.2）的数学表达式。定义中的随机网络也称为Null Model，其构造方法为：

the null model used has so far been a random graph with the same number of nodes, the same number of edges and the same degree distribution as in the original graph, but with links among nodes randomly placed.

注意，(4.2) 是针对无向图的，因此这里的 m 表示无向边的条数，即若节点 i 和节点 j 有边相连，则节点 (i, j) 对 m 只贡献一条边。

标签传播算法（LPA）的做法比较简单：

第一步: 为所有节点指定一个唯一的标签；

第二步: 逐轮刷新所有节点的标签，直到达到收敛要求为止。对于每一轮刷新，节点标签刷新的规则如下:

对于某一个节点，考察其所有邻居节点的标签，并进行统计，将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时，随机选一个。

注：算法中的记号 N_n^k 表示节点 n 的邻居中标签为 k 的所有节点构成的集合。

SLPA 中引入了 Listener 和 Speaker 两个比较形象的概念，你可以这么来理解：在刷新节点标签的过程中，任意选取一个节点作为 listener，则其所有邻居节点就是它的 speaker 了，speaker 通常不止一个，一大群 speaker 在七嘴八舌时，listener 到底该听谁的呢？这时我们就需要制定一个规则。

在 LPA 中，我们以出现次数最多的标签来做决断，其实这就是一种规则。只不过在 SLPA 框架里，规则的选取比较多罢了（可以由用户指定）。

当然，与 LPA 相比，SLPA 最大的特点在于：它会记录每一个节点在刷新迭代过程中的历史标签序列（例如迭代 T 次，则每个节点将保存一个长度为 T 的序列，如上图所示），当迭代停止后，对每一个节点历史标签序列中各（互异）标签出现的频率做统计，按照某一给定的阀值过滤掉那些出现频率小的标签，剩下的即为该节点的标签（通常有多个）。

SLPA 后来被作者改名为 GANXiS，且软件包仍在不断更新中......

这里对上面的图做个简单介绍：带问号的节点是待确定标签的节点，黑色实心点为其邻居节点，它们的标签是已知的，注意标签均是由二元数对的序列构成的，序列中每一个元素的第一个分量表示其标签，第二个分量表示该节点属于该标签对应社区的可能性（或者说概率，叫做 belonging coefficent），因此对于每个节点，其概率之和等于 1。

我们按照以下步骤来确定带问号节点的标签：

1. 获取邻居节点中所有的互异（distinct）标签列表，并累加相应的 belonging coefficent 值。

2. 对 belonging coefficent 值列表做归一化，即将列表中每个标签的 belonging coefficent 值除以 C1 （C1 为列表中 belonging coefficent 值的最大值）。

3. 过滤。若列表中归一化后的 belonging coefficent 值（已经介于 0,1 之间）小于某一阀值 p （事先指定的参数），则将对应的二元组从列表中删除。

4. 再一次做归一化。由于过滤后，剩余列表中的各 belonging coefficent 值之和不一定等于 1，因此，需要将每个 belonging coefficent 值除以 C2 （C2 表示各 belonging coefficent 值之和）。

经过上述四步，列表中的标签即确定为带问号节点的标签。

这里，我们对 Fast Unfolding 算法做一个简要介绍，它分为以下两个阶段：

第一个阶段：首先将每个节点指定到唯一的一个社区，然后按顺序将节点在这些社区间进行移动。怎么移动呢？以上图中的节点 i 为例，它有三个邻居节点 j1, j2, j3，我们分别尝试将节点 i 移动到 j1, j2, j3 所在的社区，并计算相应的 modularity 变化值，哪个变化值最大就将节点 i 移动到相应的社区中去（当然，这里我们要求最大的 modularity 变化值要为正，如果变化值均为负，则节点 i 保持不动）。按照这个方法反复迭代，直到网络中任何节点的移动都不能再改善总的 modularity 值为止。

第二个阶段：将第一个阶段得到的社区视为新的“节点”（一个社区对应一个），重新构造子图，两个新“节点”之间边的权值为相应两个社区之间各边的权值的总和。

我们将上述两个阶段合起来称为一个 pass，显然，这个 pass 可以继续下去。

从上述描述我们可以看出，这种算法包含了一种 hierarchy 结构，正如对一个学校的所有初中生进行聚合一样，首先我们可以将他们按照班级来聚合，进一步还可以在此基础上按照年级来聚合，两次聚合都可以看做是一个社区发现结果，就看你想要聚合到什么层次与程度。

DCLP 算法是 LPA 的一个变种，它引入了一个参数来限制每一个标签的传播范围，这样可有效控制 Monster （非常大的 community，远大于其他 community）的产生。

最后，我们给出一些实验结果。

对比上述两个表格可知：SDCLP 算法得到的 top 5 社区更为均匀。

社区发现(Community Detection)算法 [转]的更多相关文章

社区发现(Community Detection)算法（转）
作者: peghoty 出处: http://blog.csdn.net/peghoty/article/details/9286905 社区发现(Community Detection)算法用来发现 ...
社区发现(Community Detection)算法
作者: peghoty 出处: http://blog.csdn.net/peghoty/article/details/9286905 社区发现(Community Detection)算法用来发现 ...
网络科学 - 社区发现 Community structure and detection及其几个实现工具
首先什么是社区(Community structure)呢?其实并不是指一个网络相互连接的部分,而是一个网络中链接“紧密的部分”,至于怎么定义紧密就有很多方法了. 社区发现算法可以参考下面的博客:博客 ...
Top Leaders社区发现算法（top leaders community detection approach in information networks）
一.概念复杂网络:现实生活中各种系统都可以看做成复杂网络,复杂网络构成包括节点和边,节点是网络中的基本组成单元,节点之间的联系或者关系是网络中的边.例如电力网络:基站代表节点,基站之间是否互通表示 ...
LabelRank非重叠社区发现算法介绍及代码实现（A Stabilized Label Propagation Algorithm for Community Detection in Networks）
最近在研究基于标签传播的社区分类,LabelRank算法基于标签传播和马尔科夫随机游走思路上改装的算法,引用率较高,打算将代码实现,便于加深理解. 这个算法和Label Propagation 算法不 ...
社区发现算法 - Fast Unfolding（Louvian）算法初探
1. 社团划分 0x1:社区是什么在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络的结构. 在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏.其中 ...
GNN 相关资料记录；GCN 与 graph embedding 相关调研；社区发现算法相关；异构信息网络相关；
最近做了一些和gnn相关的工作,经常听到GCN 和 embedding 相关技术,感觉很是困惑,所以写下此博客,对相关知识进行索引和记录: 参考链接: https://www.toutiao.com/ ...
模块度与Louvain社区发现算法
Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度. 模块度(Modularity) 模块度是评估一个社 ...
社区发现算法问题&&NetworkX&&Gephi
在做东西的时候用到了社区发现,因此了解了一下有关社区发现的一些问题 1,社区发现算法 (1)SCAN:一种基于密度的社团发现算法 Paper: <SCAN: A Structural Clust ...

随机推荐

[功能帮助类] C# BaseRandom随机数，随机字符，可限制范围-帮助类（转载）
点击下载 BaseRandom.rar 主要功能如下 .产生随机字符 .产生随机数 .在一定范围内产生随机数看下面代码吧 /// <summary> /// 编码人:苏飞 /// 联 ...
SQL语句一之建库
USE master --转到系统表goIF EXISTS(SELECT * FROM sysdatabases WHERE name ='Test') --查询是否存在Test数据库DROP DA ...
MSSQL备份及数据迁移
版本:MSSQL 2008 备份情景:从A服务器的SQL 迁移到B服务器,并且数据也迁移过去. 操作环境:A服务器:WINDOWS7 B服务器:WINDOWS8.1 辅助工具:VNC 首先从A服 ...
CoreAnimation3-专用图层
CAShapeLayer CAShapeLayer是一个通过矢量图形而不是bitmap来绘制的图层子类.你指定诸如颜色和线宽等属性,用CGPath来定义想要绘制的图形,最后CAShapeLayer就自 ...
Graphics类绘制图形
1. 画直线 void drawLine(int startX,int startY,int endX,int endY); 四个参数分别为:起始点的x坐标和y坐标以及终点的x坐标和y坐标,该方法用于 ...
JavaScript的push(),pop(),concat()方法
push 方法将新元素添加到一个数组中,并返回数组的新长度值. arrayObj.push([item1 [item2 [. . . [itemN ]]]]) 参数 arrayObj 必选项.一个 ...
Java设计模式（学习整理）---命令模式
设计模式之Command(学习整理) 1.Command定义不少Command模式的代码都是针对图形界面的,它实际就是菜单命令,我们在一个下拉菜单选择一个命令时,然后会执行一些动作. 将这些命令封装 ...
PAT_1018 锤子剪刀布
问题描述大家应该都会玩“锤子剪刀布”的游戏:两人同时给出手势,胜负规则如图所示: 现给出两人的交锋记录,请统计双方的胜.平.负次数,并且给出双方分别出什么手势的胜算最大. 输入格式: 输入第1行给出 ...
BestCoder Round #85 sum
大晚上的更一道下午的水题吧.(虽然WA了好多次= =,但真实情况是我比较水) 描述 Given a sequence, you're asked whether there exists a cons ...
VMware虚拟机中如何安装VMWare-Tools详解
VMware虚拟机中如何安装VMWare-Tools详解好处:可以支持图形界面,可以支持共享文件功能等 VMware虚拟机中如何配置显 VMware作为一款虚拟机利器,很多人都利用它来实现Linux ...

社区发现(Community Detection)算法 [转]

社区发现(Community Detection)算法 [转]的更多相关文章

随机推荐

热门专题