转:http://hi.baidu.com/christole/item/23215e364d8418f896f88deb

What is Rank?

rank就是排序。IR中需要排序的问题很多,最常见的的就是给一个query,对候选的documents排序,返回top-k给用户。另外,QA任务中最后也要对候选的A排序,query feedback, KEA等任务也都涉及rank。

what is learning ro rank?

用machine learning 理论来解决rank的问题。

Conventional method for ranking

之前我们都采用retrieval model 来解决ranking 问题的。这是IR最基本的理论,随便翻开一本IR的书,都有一章叫做retrieval model。常见的retrieval model 有Bool model,vector space model ,Language model等等。

Problems of conventional methods

1. 很难融合多种信息。如基于vector space model 以tf-idf作为权重,可能就很难用上其他信息了;基于language model 除了计算p(q | D),也很难结合其他信息了。

2. 缺乏深厚的理论支持。还如vector space model通过计算向量间的余弦相似度,看似有道理,但是否有道理,或是否对于每种情况都是准确的,没人可以证明;常用的一元language model假设bags of words又有多少道理?如果模型中需要设定参数,那只能手工调整出经验参数,那么是否准确,是否over-fitting,很难讲了。

Machine learning can help

1. 机器学习方法很容易融合信息(特征)。

2. 机器学习有成熟又深厚的理论基础。参数是通过迭代优化出来的。有一套成熟的理论解决,稀疏,过拟合,优化等问题。(当然机器学习也有一些缺陷了)

Methods

一般常说的有三类方法pointwise,pairwise,listwise。

(1) pointwise

如给定q1时document正确的顺序为d3,d2,d1。pointwise方法着眼于优化每个q,d对:{q1,d3,3},{q1,d2,2},{q1,d1,1}。

(2)pairwise

pairwise将顺序d3,d2,d1看成{d3 , d2,+1},{d2 , d1,+1},{d3 , d1,+1}。之后进行优化。

最常见的pairwise方法是Ranking SVM。它的优化过程和SVM非常相似。只是SVM要优化出一个超平面w.x+b=0,它的约束条件是y(w.x+b)>1。而Ranking SVM要优化出一个排序函数f(x),它的约束条件是y.f(x,w)>1,其他过程都相同。

(3)listwise

与pointwise不同的地方是,listwise将document看成一个list或permutation,如之前的{d1,d2,d3}看成一个排列d1d2d3,当然空间内一共有六种不同的排列,每种排列都会有一个概率,如何从d1,d2,d3的score值f1,f2,f3,求得分布的概率p(d1d2d3),可以用到plackett-luce model。

listwise方法一般从建立objective function角度不同分为最小化loss function和直接优化IR meature(MAP,NDCG)两类方法。一些学者证明二者的关系,一些IR meature 的变形如(1-NDCG)是loss function 的上界。而由于直接优化IR meature的方法缺乏些理论支持,又一些meature是非连续的,不便于优化,所以通过优化loss function 的方法更被接受。下面是三种主流的基于loss function 的方法,都是MSRA提出的。

RankCosine (IP&M 2007) 以truth rank和所得的rank间的cosine相似度作为loss function。

ListNet(ICML2007)以truth rank和所得的rank排列间的KL距离作为loss function。

ListMLE(ICML2008)以似然函数作为loss function。

合理的loss function 是机器学习的关键,提出ListMLE的文章同样介绍了什么样的loss function 才是好的。有了loss funtion 之后学习的过程就比较常规了,一般采用神经网络,优化参数用gradient decent。

Problems

Learning to Rank 是利用machine learning 的理论来解决IR中Rank的问题,Rank任务是根据某个标准(一般是指文档和查询的匹配程度)对对象进行排序,显然Rank是IR最核心的部分。Learning to rank任务使IR任务增加了理论深度也使ML理论得到了应用,理应是个很好的研究方向。

当然,起初Learning to rank 成为各大实验室争相研究的方向,短短几年时间,关于它的高水平的论文就有百篇。最近Learning to rank似乎遇到了些瓶颈...

1. Learning to rank一般是监督学习,实际应用的话,训练语料是个问题,毕竟语料需要包含q与d的 relevance level。另外,机器学习存在一些固有的问题。

2. 复杂度问题。

3. 大部分研究建立在特征相同的前提下,唯一关注的是如何学习出一个排序函数,那么实际应用时到底是合理的特征更重要还是学习排序函数更重要,在特征固定的前提下,通过好的排序函数,总体效果会有很大提高吗?

4. 传统的Retrieval model 是考虑在建立model时如何更好的更充分合理的利用q与d的概率信息,现在把所有的q与d的信息和link信息等等,都转化成向量形式,而将全部的精力放在学习函数上,是否使路越走越窄呢?

MSRA的LETOR小组最近一年也没有提出任何新的方法,他们最新的方法是ICML08的ListMLE了,近年的论文都是些理论证明了。

其实,learning to rank 将ML用在IR上,是个很好的思路,我们不应该只局限于某个任务或语料,Ranking是大部分IR任务的核心,我们可以通过ML的思想来解决某个实际问题。如MSRA 在sigir 09有一篇应用Ranking SVM 做关键词提取任务的文章。

我认为应该把更多的精力放在learning to rank的实际应用,而不只是理论研究。毕竟可以应用的研究才有价值。

如何理解 Learning to rank的更多相关文章

  1. [Machine Learning] Learning to rank算法简介

    声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型 排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...

  2. learning to rank

    Learning to Rank入门小结 + 漫谈 Learning to Rank入门小结 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 特征抽取 3.1 人工 ...

  3. [笔记]Learning to Rank算法介绍:RankNet,LambdaRank,LambdaMart

    之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...

  4. Learning to Rank算法介绍:GBRank

    之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...

  5. 芝麻HTTP: Learning to Rank概述

    Learning to Rank,即排序学习,简称为 L2R,它是构建排序模型的机器学习方法,在信息检索.自然语言处理.数据挖掘等场景中具有重要的作用.其达到的效果是:给定一组文档,对任意查询请求给出 ...

  6. Learning to Rank(转)

    https://blog.csdn.net/kunlong0909/article/details/16805889 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 ...

  7. Learning to Rank算法介绍:RankNet,LambdaRank,LambdaMart

    之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...

  8. Learning to Rank算法介绍:RankSVM 和 IR SVM

    之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...

  9. Learning to rank基本算法

    搜索排序相关的方法,包括 Learning to rank 基本方法 Learning to rank 指标介绍 LambdaMART 模型原理 FTRL 模型原理 Learning to rank ...

随机推荐

  1. MySql的备份还原

    备份数据是数据库管理最常用的操作.为了保证数据库中数据的安全,数据管理员需要定期进行数据备份.一旦数据库遭到破坏,便可通过备份的文件来还原数据库.因此,数据备份是一项很重要的工作. 数据备份 使用my ...

  2. javah找不到类文件

    这样即可,在src目录下寻找类,类要写全,即包名.类名

  3. NPOI 设置导出的excel内容样式

    导出excel时,有时要根据需要加上一些样式,以上几种样式是我在项目中用到的 一.给单元格加背景色只需两步:一是创建单元格背景景色对象:二是给单元格绑定样式 //创建单元格背景颜色对象 HSSFPal ...

  4. jquery 使用整理

    1. 如何创建嵌套的过滤器 //允许你减少集合中的匹配元素的过滤器, //只剩下那些与给定的选择器匹配的部分.在这种情况下, //查询删除了任何没(:not)有(:has) //包含class为“se ...

  5. PHP学习7——文件系统

    主要内容: 打开和关闭文件 文件类型 文件处理 目录处理 访问远程文件 文件锁定 文件上传 数据除了可以存储在数据库中,我们主要的还是存储在文件中,而且存储在文件中更加的方便直接. 打开和关闭文件 打 ...

  6. Java基础(五)面对对象

    一.面向对象 面向对象 : 就是一种编程思想 1.类和对象 类是指描述一类事物,或者看成是一个分类,可以把类看作构造对象的模板. 对象是指具体的个体(也叫实例-instance).创建对象使用 new ...

  7. redis的安全问题

    1.修改redis.conf配置文件 2.重启redis服务,使其生效 3.成功登陆以后,使用auth+密码 或者在登录的时候使用-a 密码的授权方式

  8. 关于sql优化整理一下

    1.where 子句中可以对字段进行 null 值判断吗?        可以,比如 select id from t where num is null 这样的 sql 也是可以的.但是最好不要给数 ...

  9. Discuz x3 UCenter实现同步登陆原理

    1.Discuz x3 的登录页面URL是:/member.php?mod=logging&action=login 2.这个登录页面,登录提交的地址是: <form method=&q ...

  10. zoj 3524(拓扑排序+多重背包)(好题)

    http://blog.csdn.net/woshi250hua/article/details/7824773 题目大意:从前有n座山,山里都有一座庙,庙里都有一个老和尚,老和尚专送纪念品,每个纪念 ...