Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata
读了一篇paper,MSRA的Wei Wu的一篇《Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata》。是关于Ranking Relevence方面的文章。下面简单讲下我对这篇文章的理解,对这方面感兴趣的小伙伴们可以交流一下。
1. Abstract
这篇文章的重点在于使用query-doc的点击二部图,结合query/doc的meta数据(组织成multiple types of features),来学习出query-doc(顺带介绍了query-query,doc-doc)的similarity。
为了计算上述的similarity,作者采用了两个不同的linear mappings,用来把query从query feature space,把doc从doc feature space映射到相同的latent space上,然后便可通过计算这个latent space上两者的vector的dot product来获得两者的similarity。于是,便把对similarity的learning形式化为对mapping的learning,而这个mapping的learning的目标是为了maximize从enriched click-through bipartite gragh上观察到的query-doc的similarity(可以通过query-doc pair的点击数来衡量)。另外,这个linear mapping是针对一种类型的features,获得一种类型features的similarity function,如果有multiple types of features的话,则最终的similarity function是每个type的similarity function的线性组合。
learning过程用到的算法包括Singular Value Decomposition(SVD)和Multi-view Partial Least Squares(M-PLS)。
2. Introduction
作者提到了先前的关于计算query-doc similarity的几种方法。
1)feature based methods:Vector Space Model(VSM),BM25,Language Models for Information Retrieval(LMIR)等。
2)gragh based methods:mining query-doc similarity from a click-through bipartite gragh等。
而这篇文章是将两者结合起来:


3. Problem Formulation
将每种type的features的query或者document用一个向量的形式来表示,,则linear mapping可以看做是维度为 和
和 的两种形式的矩阵(
的两种形式的矩阵( 和
和 ),通过这两种变换矩阵,query或者doc在原始空间上的向量被变换成latent space上的维度为
 ),通过这两种变换矩阵,query或者doc在原始空间上的向量被变换成latent space上的维度为 的向量
的向量 和
和 。于是,对于这种type的faetures,simialrity function表示为
。于是,对于这种type的faetures,simialrity function表示为 。我们可以将点击二部图中query-doc的点击数看作是query-doc similarity的大小,而通过maximize观察到的query-doc的similarity来学习linear mapping
。我们可以将点击二部图中query-doc的点击数看作是query-doc similarity的大小,而通过maximize观察到的query-doc的similarity来学习linear mapping 和线性加权的权重
和线性加权的权重 。
。
最终的learning problem可以表示为:

这时候有个问题,就是需要最大化的公式的值是可以无限大的,因为没有系数的限制,下面会介绍如何在系数上加上constraints。
4. Multi-view Partial Least Squares
4.1 Constrained Optimization Problem
1)对feature vectors进行归一化: ,
,
2)对mapping matrices 进行正交化限制。
进行正交化限制。
3)对线性加权权重 进行L2 正则化限制。
进行L2 正则化限制。
于是,learning method重新形式化为:

4.2 Globally Optimal Solution
为了获得全局最优解,两步走。第一步,对每种type的features,通过SVD求解得到optimal linear mapping;第二步,求解optimal combination weights。
上述的公式(2)可以重写为:

optimization problem为:

通过SVD求得global optimal solution。

于是,公式(2)可以写成:

而combination weights求解为:

4.3 Learning Algorithm
1)for each type of feature,solves SVD of Mi to learn the linear mapping。
2)calculates the combination weights using (5)。

版权声明:
本文由笨兔勿应所有,发布于http://www.cnblogs.com/bentuwuying。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。
Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata的更多相关文章
- 关于IOS浏览器:document,body的click事件触发规则
		今天做了个手机页面,点击某个按钮->弹出菜单,再点击菜单以外的任意位置->关闭菜单,在其他浏览器里面没有问题,但是在IOS浏览器中并不会关闭. 网上解决这个bug的帖子很多,这篇帖子主要是 ... 
- (八)Index and Query a Document
		Let’s now put something into our customer index. We’ll index a simple customer document into the cus ... 
- 深度学习基础(一)LeNet_Gradient-Based Learning Applied to Document Recognition
		作者:Yann LeCun,Leon Botton, Yoshua Bengio,and Patrick Haffner 这篇论文内容较多,这里只对部分内容进行记录: 以下是对论文原文的翻译: 在传统 ... 
- Gradient-Based Learning Applied to Document Recognition 部分阅读
		卷积网络 卷积网络用三种结构来确保移位.尺度和旋转不变:局部感知野.权值共享和时间或空间降采样.典型的leNet-5如下图所示: C1中每个特征图的每个单元和输入的25个点相连,这个5* ... 
- 计算广告(5)----query意图识别
		目录: 一.简介: 1.用户意图识别概念 2.用户意图识别难点 3.用户意图识别分类 4.意图识别方法: (1)基于规则 (2)基于穷举 (3)基于分类模型 二.意图识别具体做法: 1.数据集 2.数 ... 
- 使用点击二分图计算query-document的相关性
		之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ... 
- 使用点击二分图传导计算query-document的相关性
		之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ... 
- Awesome Deep Vision
		Awesome Deep Vision A curated list of deep learning resources for computer vision, inspired by awes ... 
- learning to rank
		Learning to Rank入门小结 + 漫谈 Learning to Rank入门小结 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 特征抽取 3.1 人工 ... 
随机推荐
- ionic跳转(一)
			在ionic中可以用两个办法写中转链接(写模版地址或路由地址) 1)a 标签的 href <a class="button button-icon icon ion-android-h ... 
- ftp简单命令
			1.连接ftp ftp 192.168.10.15 进去后输入用户名 ,然后再输入密码,就这样登陆成功了,你会看到 ftp> 2.进入ftp后,你对目录需要切换操作.和linux一样的命令.cd ... 
- div位置设置
			div居中显示 margin:0 auto div中的内容居中显示 text-algin:center div靠右显示 float:right 设置div元素的右外边距 margin-right:10 ... 
- 集群--LVS的介绍
			相关概念 LVS体系结构如图所示,一组服务器通过高速的局域网或者地理分布的广域网相互连接,在它们的前端有一个负载调度器(Load Balancer).负载调度器能无缝地将网络请求调度到真实服务器 ... 
- Receiver type for instance message is a forward
			本文转载至 http://my.oschina.net/sunqichao/blog?disp=2&catalog=0&sort=time&p=3 这往往是引用的问题.ARC要 ... 
- stl中的map经验
			如果想使用一个map临时变量装载参数map,不需要使用new创建一个对象. 声明一个变量,直接赋值就可以.map内部自己重载了=操作符,会自己分配内存. 
- PopupMenu弹出菜单
			CMenu MoviePopupMenu;//声明 MoviePopupMenu.CreatePopupMenu();//创建弹出菜单 根据对象类型增加弹出项 ) // FLASH对象 { CStri ... 
- iOS设计模式之类族(class cluster)
			类族模式在UIKit(user interface framework)使用的范围已经远远超过我们的想象,比如,UIButton,NSArray,NSString,NSNumber等, 例如NSNum ... 
- linux文件锁flock【转】
			转自: https://www.cnblogs.com/kex1n/p/7100107.html linux文件锁flock 在多个进程同时操作同一份文件的过程中,很容易导致文件中的数据混乱,需要 ... 
- JS-高程3(更新中...)
			附录A 名词解析: const:声明常量,常量的值不能通过重新赋值来改变,并且在初始赋值后,不能重新声明.重新赋值了. 即:同一作用域中,常量名不能与其他变量或函数名重名.值也不能修改了. “常量是块 ... 
