吴裕雄--天生自然HADOOP操作实验学习笔记：pagerank算法

实验目的

了解PageRank算法

学会用mapreduce解决实际的复杂计算问题

实验原理

1.pagerank算法简介
　　PageRank,即网页排名，又称网页级别、Google左侧排名或佩奇排名。
　　pagerank是Google排名运算法则（排名公式）的一部分，pagerank是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的唯一标准。
　　Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。pagerank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他低等级页面的等级提升。
　　如下图一个简单的例子，互联网中的网页可以看成是一个有向图，其中网页是结点，如果网页A有链接到网页B，则存在一条有向边A->B:

2.原理介绍
　　有关pagerank的原理和各种情况网络上的资料比较多，我们省略掉中间的很多高深的数学证明，给出比较简单的原理介绍：
　　(1).PR的核心思想有2点：

如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PR值会相对较高

如果一个PR值很高的网页链接到一个其他的网页，那么被链接到的网页的PR值会相应地因此而提高

　　(2).WIKI上有一个PR的简便算法，它不考虑转移概率，而是采用的是迭代的方式，每次都更新所有网页的PR值，更新的方式就是将每个网页的PR值平摊分给它指向的所有网页，每个网页累计所有指向它的网页平摊给它的值作为它该回合的PR值，直到全部网页的PR值收敛了或者满足一定的阈值条件就停止。

　　(3).ABCD的初始PR值都是1，现在A投票给BCD，所以用所以给BCD的PR值都加上A的PR/3，同理，B投票给AD，所以AD的PR值都要加上B的PB/2，CD同理，这样一轮完成后，ABCD都有了新的PR值，再重复上面的步骤，直到相邻两次的误差达到精度要求为止。

　　(4).上面的算法有个问题，如果每次都把原始的PR值和获得的投票的PR值直接相加作为新的PR值，结果容易受到初始误差的影响，所以有一种方法是选择将原有的PR值乘以一个系数加上获得投票的PR和乘以另一个系数，这样得到的结果更合理，经过很多互联网公司的实验结果来看，一般会使用0.85和0.15两个系数。

3.PageRank简单计算
　　假设一个由只有4个页面组成的集合：A，B，C和D。如果所有页面都链向A，那么A的PR（PageRank）值将是B，C及D的和。

继续假设B也有链接到C，并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑，D投出的票只有三分之一算到了A的PageRank上。

换句话说，根据链出总数平分一个页面的PR值。

以下所示的例子可以更容易理解PageRank的具体计算过程：

实验环境

1.操作系统
　　操作机：Windows_7
　　操作机默认用户名：hongya，密码：123456
2.实验工具
　　IntelliJ IDEA

IDEA全称IntelliJ IDEA，是java语言开发的集成环境，IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品，这家公司总部位于捷克共和国的首都布拉格，开发人员以严谨著称的东欧程序员为主。

　　优点：
　　１）最突出的功能自然是调试(Debug)，可以对Java代码，JavaScript，JQuery,Ajax等技术进行调试。其他编辑功能抛开不看，这点远胜Eclipse。
　　２）首先查看Map类型的对象，如果实现类采用的是哈希映射，则会自动过滤空的Entry实例。不像Eclipse，只能在默认的toString()方法中寻找你所要的key。
　　３）其次，需要动态Evaluate一个表达式的值，比如我得到了一个类的实例，但是并不知晓它的API，可以通过Code Completion点出它所支持的方法，这点Eclipse无法比拟。
　　４）最后，在多线程调试的情况下，Log on console的功能可以帮你检查多线程执行的情况。

　　缺点：
　　１）插件开发匮乏，比起Eclipse，IDEA只能算是个插件的矮子，目前官方公布的插件不足400个，并且许多插件实质性的东西并没有，可能是IDEA本身就太强大了。
　　２）在同一页面中只支持单工程，这为开发带来一定的不便，特别是喜欢开发时建一个测试工程来测试部分方法的程序员带来心理上的不认同。
　　３）匮乏的技术文章，目前网络中能找到的技术支持基本没有，技术文章也少之又少。
　　４）资源消耗比较大，建个大中型的J2EE项目，启动后基本要200M以上的内存支持，包括安装软件在内，差不多要500M的硬盘空间支持。(由于很多智能功能是实时的，因此包括系统类在内的所有类都被IDEA存放到IDEA的工作路径中)。

　　特色功能：
　　智能选择
　　丰富的导航模式
　　历史记录功能
　　JUnit的完美支持
　　对重构的优越支持
　　编码辅助
　　灵活的排版功能
　　XML的完美支持
　　动态语法检测
　　代码检查等等

步骤2：代码类实现分析

　　解析每个记录中的value的工具类NodeUtils，代码比较简单，主要有三个方法，解析value，判断是否有投票，将节点转化为字符串。
　　2.1PageRankMapper，读进来一行记录，解析得到源节点，投票节点，写出每个节点的pr值，大家可以参照hellohadoop|com.hongya|day027|RunJob中PageRankMapper方法的代码。

static class PageRankMapper extends Mapper<Text, Text, Text, Text> {

protected void map(Text key, Text value,

Context context)

throws IOException, InterruptedException {

//解析value

NodeUtils n = NodeUtils.parse(value.toString());

assert n != null;

//写出现有值

context.write(key, new Text(n.toString()));//key:A value:1.0 B D

if (n.isHaveOutLink()) {

for (String outNode : n.getOutLinkNodes()) {

double outValue = n.getPr() / n.getOutLinkNodes().length;

//写出投票值

context.write(new Text(outNode), new Text(outValue + ""));//key:B value:0.5

}

　　2.2PageRankReducer直接得到map的数据后，累加得到的投票的pr值，然后写出。

static class PageRankReducer extends Reducer<Text, Text, Text, Text> {

protected void reduce(Text key, Iterable<Text> values,

Context context)

throws IOException, InterruptedException {

double sum = 0;

/** sourceNode和sourcePr分别代表源节点和源PR，sum计算所有的投票的值*/

NodeUtils sourceNode = null;

double sourcePr = 0;

for (Text i : values) {

NodeUtils n = NodeUtils.parse(i.toString());

assert n != null;

if (n.isHaveOutLink()) {

sourceNode = n;

sourcePr = n.getPr();

} else {

sum = sum + n.getPr();

}

double newPr = sum * 0.85 + 0.15 * sourcePr;

System.out.println("新的pagerank的值为： ---------" + key + "*****" + newPr);

//计算误差

double n = newPr - sourcePr;

System.out.println(n + " " + (int) (Math.abs(n) * 1000));

context.getCounter(My.COUNTER).increment((int) (Math.abs(n) * 1000));

//重新写出

assert sourceNode != null;

sourceNode.setPr(newPr);

context.write(key, new Text(sourceNode.toString()));

}

　　由于实现过程需要不断迭代，知道误差达到精度要求，所以job需要记录误差，不断循环运行mapreduce，具体参考hellohadoop|com.hongya|day027|RunJob。

吴裕雄--天生自然HADOOP操作实验学习笔记：pagerank算法的更多相关文章

吴裕雄--天生自然HADOOP操作实验学习笔记：使用hive操作hbase
实验目的熟悉hive和hbase的操作熟悉hadoop.hbase.hive.zookeeper的关系熟练大数据环境的搭建学会分析日志排除问题实验原理 1.hive整合hbase原理前面大 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：mapreduce代码编程
实验目的深入了解mapreduce的底层了解IDEA的使用学会通过本地和集群环境提交程序实验原理 1.回忆mapreduce模型前面进行了很多基础工作,本次实验是使用mapreduce的AP ...
吴裕雄--天生自然HADOOP操作实验学习笔记：分布式及RPC通信简介
实验目的掌握GOF设计模式的代理模式了解掌握socket编程.java反射.动态代理了解NIO.多线程掌握hadoop的RPC框架使用API 实验原理 1.什么是RPC 在hadoop出现以前 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：hbase学生选课案例
实验目的复习hbase的shell操作和javaAPI操作了解javaWeb项目的MVC设计学会dao(数据库访问对象)和service层的代码编写规范学会设计hbase表格实验原理前面我 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：hbase的javaAPI应用
实验目的进一步了解hbase的操作熟悉使用IDEA进行java开发熟悉hbase的javaAPI 实验原理前面已经了解通过hbase的shell操作hbase,确实比较难以使用,另外通过hiv ...
吴裕雄--天生自然HADOOP操作实验学习笔记：hbase的shell应用v2.0
HRegion 当表的大小超过设置值的时候,HBase会自动地将表划分为不同的区域,每个区域包含所有行的一个子集.对用户来说,每个表是一堆数据的集合,靠主键来区分.从物理上来说,一张表被拆分成了多块, ...
吴裕雄--天生自然HADOOP操作实验学习笔记：hive DDL
实验目的了解hive DDL的基本格式了解hive和hdfs的关系学习hive在hdfs中的保存方式学习一些典型常用的hiveDDL 实验原理有关hive的安装和原理我们已经了解,这次实验我 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：mapreduce和yarn命令
实验目的了解集群运行的原理学习mapred和yarn脚本原理学习使用Hadoop命令提交mapreduce程序学习对mapred.yarn脚本进行基本操作实验原理 1.hadoop的shel ...
吴裕雄--天生自然HADOOP操作实验学习笔记：hdfs简单的shell命令
实验目的了解bin/hadoop脚本的原理学会使用fs shell脚本进行基本操作学习使用hadoop shell进行简单的统计计算实验原理 1.hadoop的shell脚本当hadoop集 ...

随机推荐

JS-find、filter、forEach、map
js这四个方法不会对空数组进行检测,也不会改变原始数组 find()方法主要用来返回数组中符合条件的第一个元素(没有的话,返回undefined) //语法 array.find(function(v ...
Spring 事务管理的API
Spring事务管理有3个API,均为接口. (1)PlatformTransactionManager 平台事务管理器常用的实现类: DataSourceTransactionManager ...
「CF911F」Tree Destruction
传送门 Luogu 解题思路显然的贪心策略,因为每次都要尽量使得删点后的收益最大. 我们可以求出树的直径(因为树上的任意一个节点与其距离最远的点一定是直径的端点). 然后我们对于所有不是直径上的点, ...
php 基础判断类型
八.PHP中判断类型 is_bool():判断是否是布尔型 is_int().is_integer()和 is_long():判断是否为整型. is_float().is_double()和 is_r ...
Java入门笔记 05-多线程
介绍:Java提供了非常优秀的多线程支持,程序可以通过非常简单的方式来启动多线程.本章主要内容为:多线程的创建.启动.控制以及同步操作,并介绍JDK 5新增的线程创建方式. 一.线程的创建与使用: 1 ...
svn服务器IP/URL地址更换,修改本地的仓库地址
TortoiseSVN服务器ip地址修改后如何使用_windows和linux下svn切换新仓库地址的方法 windows下svn切换仓库地址右键项目文件夹 TortoiseSVN => Re ...
spring data flow
spring data flow相当于一个快速发布应用的平台.并可以通过消息队列(kafa,rabbitMQ)把多个应用链接在一起进行链式处理数据.支持的平台是: Cloud Foundry Apac ...
IDEA 下的 github 创建提交与修改
本章假定你已经安装了 git 客户端,本文仅仅使用与 Mac 环境下,未在 Window下实验,但 IDEA 在 Window 和 Mac 下软件的使用方法是一致的. 1 配置账号 IDEA 需要配置 ...
思科室外AP无法注册到WLC
思科的一些新的室外AP,在购买回来时,有时候会出现无法加入WLC的情况,现象基本是无法加入,或感觉加入了,立马又掉了. 例如: AIR-AP1562E-H-K9 AIR-AP1572EAC-H-K9 ...
adblock广告过滤
1.在 img的 src中出现 ad连在一起的情况,会被adblock过滤掉. 例如 <img id="adasdd" class="ad_mina" ...

吴裕雄--天生自然HADOOP操作实验学习笔记：pagerank算法

吴裕雄--天生自然HADOOP操作实验学习笔记：pagerank算法的更多相关文章

随机推荐

热门专题