[IR] Link Analysis
网络信息的特点在于:
Query: "IBM" --> "Computer" --> documentIDs.
In degree i 正比于 1/iα , 例如: α = 2.1
即:i越大,量越少。
Query processing
§ First retrieve all pages meeting the text query (say venture capital).
§ Order these by their link popularity (either variant on the previous slide).
§ More nuanced – use link counts as a measure of static goodness (Lecture 7), combined with text match score.
link多,但不一定意味着都是重要的推荐(link).
可以让PageRank Scoring通过"Flow" Model来获得,即访问量。
方法一:
解方程得:
y+a+m = 1
y = 2/5, a = 2/5, m = 1/5
Gaussian elimina*on method works for small examples, but we need a better method for large graphs.
方法二:
利用Markov chains。xi = x0 Pi
初始值,可以假设是uniform distribution,最后也将达到稳定状态。
若干可能的问题:
- Spider traps
Sol: Random teleports - 随机瞬间移动,防止掉入死胡同
可见,1变为了7/11,但貌似并不是效果特别满意。
- Dead Ends
§ Follow random teleport links with probability 1.0 from dead-ends
§ Adjust matrix accordingly. How?
Sol:
0.8 * [0,0,0] 这里是触发条件。
发现,0.2*[1/3, 1/3, 1/3]这么下去,趋势必然为0。
那就,0.2这个随机处理去掉好了。[1/15,1/15,1/15] --> [1/3, 1/3, 1/3]
[IR] Link Analysis的更多相关文章
- 海量数据挖掘MMDS week1: Link Analysis - PageRank
http://blog.csdn.net/pipisorry/article/details/48579435 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
- [IR] Graph Compression
Ref: [IR] Compression Ref: [IR] Link Analysis Planar Graph From: http://www.csie.ntnu.edu.tw/~u91029 ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- [IR] Information Extraction
阶段性总结 Boolean retrieval 单词搜索 [Qword1 and Qword2] O(x+y) [Qword1 and Qword2]- 改进: Gallo ...
- the art of seo(chapter two)
***Search Engine Basics*** *Understanding How Vertical Results Fit into the SERPs* As a direct conse ...
- 斯坦福CS课程列表
http://exploredegrees.stanford.edu/coursedescriptions/cs/ CS 101. Introduction to Computing Principl ...
- 搜索引擎Query Rewrite
中心词抽取项目总结 B2B国际站Query重写.ppt 达观数据搜索引擎的Query自动纠错技术和架构详解 Natural Language Processing Simrank++ Query re ...
- [DFNews] Cellebrite UFED系列更新, 支持IOS7
10月15日,Cellebrite公司对旗下产品进行了更新,包括UFED Classic.UFED Touch.Physical Analyzer.Logical Analyzer.Phone Det ...
- 《BI那点儿事》浅析十三种常用的数据挖掘的技术
一.前沿 数据挖掘就是从大量的.不完全的.有噪声的.模糊的.随机的数据中,提取隐含在其中的.人们事先不知道的但又是潜在有用的信息和知识的过程.数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种 ...
随机推荐
- javaweb回顾第七篇jsp
1:为什么会有JSP jsp全名(java server pages)中文叫做java服务器页面.在Servlet那一篇我们发现用Servlet可以生成动态页面,但是我们却在Servlet中却写了大量 ...
- 今天踩过的坑——structs和spring
struts 如果实现了CookiesAware了,还需要引用org.apache.struts2.interceptor.CookieInterceptor过滤器,否则拿不到值同时还要能看到这样的错 ...
- qq临时会话设置
qq临时会话怎么设置?QQ正常情况下是不被允许临时会话的,需要加为好友才可以,网上一些教程说代码加QQ号可以直接临时与别人临时会话,其实是不准确的,需要对方开通了临时会话才可以使用该功能.下面来看看怎 ...
- mssql 获取表空间大小
create table #Data(name varchar(100),row varchar(100),reserved varchar(100),data varchar(100),index_ ...
- Revit如何修改云线批注外观
Revit云线批注属于注释族类别,有两种方式可以修改云线批注的外观,有两处设置可以修改云线批注的颜色线宽等外观,一个是视图属性"可见性/图形替换"对话框,另一个是菜单"管 ...
- Revit中如何控制图元的显示与隐藏
Revit建模过程中经常会遇到图元的相互遮挡的情况,为了将一些图元显示出来,就需要将一些不需要显示的图元隐藏掉,这就需要用到"隐藏/重置"工具,在Revit绘图窗口左下角提供了一排 ...
- Sqlte数据库
1. 收缩数据库. 指令:VACUUM
- hdu 2203 亲和串
把T串扩展成两倍 然后KMP 注意T的长度要大于P的长度 #include <iostream> #include <cstdio> #include <cstri ...
- 使用 ContentProviderOperation 来提升性能
ContentProviders 是android 系统核心组件之一,ContentProviders 封装了数据的访问接口,其底层数据一般都是保存在数据库中或者保存在云端. 有时候你需要更新多行数 ...
- Win7 32bit + Matlab2013b +Visual Studio 2010联合编程配置
要建立独立运行的C应用程序,系统中需要安装Matlab.Matlab编译器.C/C++编译器以及Matlab C/C++数学库函数和图形库函数. Matlab编译器使用mbuild命令可以直接将C/C ...