PageRank算法原理及实现

typedef unsigned char BYTE;
class CPageRank
{
public:
CPageRank(int nWebNum = , bool bLoadFromFile = false);
~CPageRank(); int Process();
float *GetWeight(); private:
void InitGraph(bool bLoadFromFile = false);
void GenerateP();
BYTE *m_pu8Relation; //节点关系 i行j列表示j是否指向i
float *m_pf32P; //转移矩阵 //缓存
float *m_pf32Weight0;
float *m_pf32Weight1;
int *m_pl32Out;
int m_nNum;
float m_f32DampFactor; //阻尼系数 int m_nMaxIterTime;
float m_f32IterErr;
float *m_pf32OutWeight;//输出的最终权重
};
下面就是具体各个函数的实现了。
首先构造函数主要是初始化一些迭代相关变量,分配空间等,这里把生成节点指向图的工作也放在这里,支持直接随机生成和读取二进制文件两种方式。
CPageRank::CPageRank(int nWebNum, bool bLoadFromFile)
{
m_f32DampFactor = 0.85;
m_nMaxIterTime = ;
m_f32IterErr = 1e-; m_nNum = nWebNum;
m_pu8Relation = new BYTE[m_nNum * m_nNum];
m_pf32P = new float[m_nNum * m_nNum];
m_pf32Weight0 = new float[m_nNum];
m_pf32Weight1 = new float[m_nNum];
m_pl32Out = new int[m_nNum];//每个节点指向的节点数 InitGraph(bLoadFromFile);
}
析构函数自然就是释放内存了:
CPageRank::~CPageRank()
{
delete []m_pl32Out;
delete []m_pf32P;
delete []m_pf32Weight0;
delete []m_pf32Weight1;
delete []m_pu8Relation;
}
下面就是随机生成或读取文件产生节点指向关系,如果随机生成的话,会自动保存当前生成的图,便于遇到问题时可复现调试:
void CPageRank::InitGraph(bool bLoadFromFile)
{
FILE *pf = NULL;
if(bLoadFromFile)
{
pf = fopen("map.dat", "rb");
if(pf)
{
fread(m_pu8Relation, sizeof(BYTE), m_nNum * m_nNum, pf);
fclose(pf);
return;
}
} //建立随机的节点指向图
int i, j;
srand((unsigned)time(NULL));
for(i = ; i < m_nNum; i++)
{
//指向第i个的节点
for(j = ; j < m_nNum; j++)
{
m_pu8Relation[i * m_nNum + j] = rand() & ;
}
//自己不指向自己
m_pu8Relation[i * m_nNum + i] = ;
} pf = fopen("map.dat", "wb");
if(pf)
{
fwrite(m_pu8Relation, sizeof(BYTE), m_nNum * m_nNum, pf);
fclose(pf);
}
}
既然已经产生了各个节点的关系了,那PageRank的核心思想就是根据关系,生成出上面的转移矩阵P:
void CPageRank::GenerateP()
{
int i,j;
float *pf32P = NULL;
BYTE *pu8Relation = NULL; //统计流入流出每个节点数
memset(m_pl32Out, , m_nNum * sizeof(int));
pu8Relation = m_pu8Relation;
for(i = ; i < m_nNum; i++)
{
for(j = ; j < m_nNum; j++)
{
m_pl32Out[j] += *pu8Relation;
pu8Relation++;
}
} //生成转移矩阵,每个节点的权重平均流出
pu8Relation = m_pu8Relation;
pf32P = m_pf32P;
for(i = ; i < m_nNum; i++)
{
for(j = ; j < m_nNum; j++)
{
if(m_pl32Out[j] > )
{
*pf32P = *pu8Relation * 1.0f / m_pl32Out[j];
}
else
{
*pf32P = 0.0f;
}
pu8Relation++;
pf32P++;
}
} //考虑阻尼系数,修正转移矩阵
pf32P = m_pf32P;
for(i = ; i < m_nNum; i++)
{
for(j = ; j < m_nNum; j++)
{
*pf32P = *pf32P * m_f32DampFactor;
pf32P++;
}
}
}
接下来就需要求解出各个节点的权重,process函数里先调用GenerateP生成出P矩阵,然后采用迭代法求解,当时为了测试收敛速度,直接返回了迭代次数:
int CPageRank::Process()
{
int i,j,k,t;
float f32MaxErr = 0.0f;
float *pf32Org = m_pf32Weight0;
float *pf32New = m_pf32Weight1;
float f32MinWeight = ( - m_f32DampFactor) / m_nNum; //设置初始值,全1
for(i = ; i < m_nNum; i++)
{
pf32Org[i] = 1.0f / m_nNum;//rand() * 2.0f / RAND_MAX;
} //生成P矩阵
GenerateP(); //迭代
for(t = ; t < m_nMaxIterTime; t++)
{
//开始迭代
f32MaxErr = 0.0f;
for(i = ; i < m_nNum; i++)
{
pf32New[i] = f32MinWeight;
int l32Off = i * m_nNum;
for(j = ; j < m_nNum; j++)
{
pf32New[i] += m_pf32P[l32Off + j] * pf32Org[j];
} float f32Err = fabs(pf32New[i] - pf32Org[i]);
if(f32Err > f32MaxErr)
{
f32MaxErr = f32Err;
}
} //迭代误差足够小,停止
if(f32MaxErr < m_f32IterErr)
{
break;
} //交换2次迭代结果
float *pf32Temp = pf32Org;
pf32Org = pf32New;
pf32New = pf32Temp;
} //迭代结果存在pf32New中
m_pf32OutWeight = pf32New;
return t;
}
最后的结果已经存在了m_pf32OutWeight中了,下面函数直接传出结果:
float * CPageRank::GetWeight()
{
return m_pf32OutWeight;
}
这样,整个算法就算完成了,考虑到篇幅,贴上来的代码把opencv显示相关的代码去掉了,完整代码见https://bitbucket.org/jcchen1987/mltest。

PageRank算法原理及实现的更多相关文章
- PageRank算法原理与Python实现
一.什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO( ...
- 【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2 ...
- [转]PageRank算法
原文引自: 原文引自: http://blog.csdn.net/hguisu/article/details/7996185 感谢 1. PageRank算法概述 PageRank,即网页排名,又称 ...
- PageRank算法实现
基本原理 在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高.这就是PageRank的核心思想. 引用来自<数学之美>的简单例子: 网页Y的排名应该 ...
- Machine Learning:PageRank算法
1. PageRank算法概述 PageRank,即网页排名,又称网页级别.Google左側排名或佩奇排名. 在谷歌主导互联网搜索之前, 多数搜索引擎採用的排序方法, 是以被搜索词语在 ...
- PageRank算法R语言实现
PageRank算法R语言实现 Google搜索,早已成为我每天必用的工具,无数次惊叹它搜索结果的准确性.同时,我也在做Google的SEO,推广自己的博客.经过几个月尝试,我的博客PR到2了,外链也 ...
- PageRank 算法-Google 如何给网页排名
公号:码农充电站pro 主页:https://codeshellme.github.io 在互联网早期,随着网络上的网页逐渐增多,如何从海量网页中检索出我们想要的页面,变得非常的重要. 当时著名的雅虎 ...
- PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
- 【原创】机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码
在上一篇文章:机器学习之PageRank算法应用与C#实现(1)算法介绍 中,对PageRank算法的原理和过程进行了详细的介绍,并通过一个很简单的例子对过程进行了讲解.从上一篇文章可以很快的了解Pa ...
随机推荐
- python中的逻辑操作符
python中主要有三个逻辑操作符,分别是:and.or.not. and:且,所有人为真才为真. or:或,一个为正就是真. not:非,取反. >>> print(3>2 ...
- $ 用python处理Excel文档(1)——用xlrd模块读取xls/xlsx文档
本文主要介绍xlrd模块读取Excel文档的基本用法,并以一个GDP数据的文档为例来进行操作. 1. 准备工作: 1. 安装xlrd:pip install xlrd 2. 准备数据集:从网上找到的1 ...
- HashTable的使用,扑克牌发牌游戏
l 场景 主要实现以下功能: 1. 首先给扑克牌中每张牌设定一个编号,下面算法实现的编号规则如下: 红桃按照从小到大依次为:1-13 方块按照从小到大依次为:14-26 黑桃按 ...
- pdo封装2
<?php //添加了一个 _createSql 方法,负责创建所有sql class Db{ static private $ins; private $pdo; private $table ...
- MySQL数据库基本操作(一)
进入mysql 本地连接: mysql -u用户名 -p 输入密码 qwe123 mysql -uroot -pqwe123 sudo apt-get install mysql-server # p ...
- groupby和agg的使用
先来看一段代码: 分析下groupby和agg的联合使用: reset_index()表示重新设置索引 agg传进来的统计特征: 按照A这一列作聚合,C这一列作统计 注意:df = df.groupb ...
- 一步一步粗谈linux文件系统(三)----超级块(superblock)【转】
本文转载自:https://blog.csdn.net/fenglifeng1987/article/details/8302921 超级块是来描述整个文件系统信息的,可以说是一个全局的数据结构,可以 ...
- UVA 12307 Smallest Enclosing Rectangle(旋转卡壳)
题意:给你一些点,找出两个可以包含所有点的矩形,一个保证矩形面积最小,一个保证矩形周长最小,输出两个最小值 题解:首先根据所有点求一个凸包,再在这个凸包上枚举每条边,作为矩形的一条边(这样可以保证最小 ...
- VK Cup 2017 - Qualification 1 C 贪心
是一道很有趣的题目 给出地图和起始点 与要求的步数k 要求走k步 正好回到起始点 输出字典序最小的移动路径 DLRU这样 可以想到DU LR都是相同数量的 于是k必须是一个偶数 然后走了弯路QAQ 从 ...
- JavaScript -- 正则表达式 检验表单提交的内容
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...