PageRank的java实现

一个网络(有向带权图)中节点u的PageRank的计算公式：

PR(u)表示节点u的PageRank值，d为衰减因子(damping factor)或阻尼系数,一般取d=0.85,N为网络中的节点总数，nb(u)表示节点u的所有邻居节点的集合，d(v)表示节点v的出度(如果是无向图，就是度)，w(u,v)表示节点v的边<u,v>所占的权重(如果对于无权图或者认为每条边的权重都一样，那么w(u,v)=1),PR(v)表示节点v的PageRank值。

由此可以看出要算出节点u的PR值需要先知道它的每个邻居节点的PR值，似乎是个递归的过程。其实初始状态下，可以给每个节点的PR值都赋值为一个任意正数，例如1，然后通过上述公式不断迭代计算更新每个节点的PR值，数学证明，最终每个节点的PR值都会收敛到一个稳定的PR值（初值PR不同，最终的PR值也不同，但最后各节点之间PR的大小排名不因初值而改变）。编程时如何确定某个节点u的PR值已经收敛？如果这次的PR值与上次的PR值相差很小的时候就可以认为收敛了。很小是多小？越小越好，但不要太小，免得迭代次数太多浪费时间，可取10的-4或-5次方。

PageRank的数学原理的详细说明，可参考：

深入浅出PageRank算法

PageRank on undirected and weighted graph

《集体智慧编程》上的例子：

Java实现代码：

Program.java:

 package dd.lt;

 import dd.lt.entity.Node;

 public class Program

 {

     //计算每个节点的PageRank值

     public static void CalcPageRank(ArrayList<Node> graph)

     {

         double distance = 0.00001;

         double d = 0.85;// damping factor

         double common = (1 - d) / graph.size();

         while (true)

         {

             for (Node n : graph)

             {

                 double sum = 0.0;

                 for (int nodeId : n.getNeighbors())

                 {

                     Node nb = getNodeById(nodeId,graph);

                     sum += nb.getPR() / nb.getDegree();

                 }

                 double newPR = common + d * sum;

                 //如果尚未收敛，赋新值，否则结束迭代

                 if (Math.abs(n.getPR() - newPR) > distance)

                     n.setPR(newPR);

                 else

                     return;

             }

         }

     }

     public static Node getNodeById(int nodeId,ArrayList<Node> graph)

     {

         for(Node n:graph)

         {

             if (n.nodeId==nodeId)

                 return n;

         }

         return null;

     }

     public static ArrayList<Node> buildGraph()

     {

         ArrayList<Node> graph = new ArrayList<Node>();//图以节点集合形式来表示

         //加载数据，组装好图结构

         ....

         return graph;

     }

     public static void main(String[] args)

     {

         ArrayList<Node> graph = buildGraph();

         CalcPageRank(graph);

         for(Node n:graph)

         {

             System.out.println("PageRank of %d is %.2f",n.nodeId,n.getPR());

         }

     }

 }

Node.java:

 package dd.lt.entity;

 import java.util.ArrayList;

 public class Node implements Comparable<Node>

 {

     public int nodeId;

     private ArrayList<Integer> neighbors = new ArrayList<Integer>();//邻接表的形式表示图结构

     private double pr=1;

     public Node(int nodeId)

     {

         this.nodeId = nodeId;

     }

     public int getDegree()

     {

         return this.neighbors.size();

     }

     public ArrayList<Integer> getNeighbors()

     {

         return this.neighbors;

     }

     public void setNeighbors(ArrayList<Integer> neighbors)

     {

         this.neighbors=neighbors;

     }

     public double getPR()

     {

         return pr;

     }

     public void setPR(double val)

     {

         this.pr=val;

     }

     // 按PageRank值排序

     public int compareTo(Node anotherNode)

     {

         if (this.neighbors != null && anotherNode.neighbors != null)

         {

             // 降序排列

             if (anotherNode.getPR() >this.getPR())

                 return 1;

             else if (anotherNode.getPR() <this.getPR())

                 return -1;

             else

                 return 0;

             // 升序排列

             // return this.getPR()-anotherNode.getPR();

         }

         return 0;

     }

 }

PageRank的java实现的更多相关文章

PageRank算法MapReduce实现
如果你现在需要计算网页的排名只有4一:数据如下面的: baidu 10.00 google,sina,nefu google 10.00 baidu sina 10.00 google nefu 10 ...
PageRank在Hadoop和spark下的实现以及对比
关于PageRank的地位,不必多说. 主要思想:对于每个网页,用户都有可能点击网页上的某个链接,例如 A:B,C,D B:A,D C:AD:B,C 由这个我们可以得到网页的转移矩阵 A ...
mr实现pagerank
PageRank计算什么是pagerankPageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度.是Google创始人拉里·佩奇和谢尔盖·布林于1997 ...
【Hadoop学习之十一】MapReduce案例分析三-PageRank
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 什么是pagerank?算法原理- ...
数据挖掘之权重计算（PageRank）
刘勇 Email:lyssym@sina.com 简介鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法.为验证本文算法 ...
20-hadoop-pagerank的计算
转: http://www.cnblogs.com/rubinorth/p/5799848.html 参考尚学堂视频 1, 概念( 来自百度百科) PageRank是Google专有的算法,用于衡量特 ...
Spark案例分析
一.需求:计算网页访问量前三名 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /* ...
pagerank
http://jung.sourceforge.net/ https://github.com/louridas/pagerank/blob/aeb9b17ada1f925bb525961574f6d ...
如何用70行Java代码实现深度神经网络算法（转）
对于现在流行的深度学习,保持学习精神是必要的——程序员尤其是架构师永远都要对核心技术和关键算法保持关注和敏感,必要时要动手写一写掌握下来,先不用关心什么时候用到——用不用是政治问题,会不会写是技术问题 ...

随机推荐

【swift学习笔记】四.swift使用Alamofire和swiftyJson
Alamofire是AFNetworking的swift版本,功能灰常强大. github:https://github.com/Alamofire/Alamofire SwiftyJSON是操作js ...
【转】fatal error C1900: “P1”(第“20081201”版)和“P2”(第“20080116”版)之间 Il 不匹配
转自:这里(然而这里并没有写原出处) 背景:今天傻逼逼地想用vs2010来编译一个vs2013的项目,其中这个项目用到了一个库(应该是用2013编译的) 在我浅薄的认知中,以为只是13支持的特性更多, ...
python 小功能
目录 1.上传文件 2.验证码一.上传文件首先了解一下 request.FILES : 字典 request.FILES 中的每一个条目都是一个UploadFile对象.UploadFile对象有 ...
织梦多语言站点，{dede:include filename=''/}引入问题
织梦模板include插入非模板目录文件出现"无法在这个位置找到"错误的解决办法以下是dede V55_UTF8 查dede include标签手册 (3) include 引入 ...
Android基础总结（九）
多媒体概念(了解) 文字.图片.音频.视频计算机图片大小的计算(掌握) 图片大小 = 图片的总像素 * 每个像素占用的大小单色图:每个像素占用1/8个字节 16色图:每个像素占用1/2个字节 25 ...
svn服务器地址变换以后，mac下的处理方法
svn服务器地址变换之后,mac下的处理方法 svn服务器地址变换之后,mac下的处理方法 1.进入终端,进入项目所在的文件夹下: cd 项目位置/ 2.查看svn信息 svn info 3.输出结果 ...
bitset用法总结
b.any() b中是否存在置为1的二进制位? b.none() b中不存在置为1的二进制位吗? b.count() b中置为1的二进制位的个数 b.size() b中二进制位的个数 b[pos] 访 ...
javascript 原型查找再次试探~
前言我们知道对象字面量是没有能力去查找自己原型的,它必须通过他的构造器来完成原型查找, 1本文将测试以下 a,new这个对象之前/之后改变构造器的原型,使其指向其他构造器的原型 b,new这 ...
ssl
在Java加密技术(八)中,我们模拟了一个基于RSA非对称加密网络的安全通信.现在我们深度了解一下现有的安全网络通信--SSL. 我们需要构建一个由CA机构签发的有效证书,这里我们使用上文中生 ...
Table 表单样式
<style> table th { white-space: nowrap; background-color: #f5f5f5; height:30px; font-size:14px ...

PageRank的java实现

PageRank的java实现的更多相关文章

随机推荐

热门专题