排序一直是信息检索的核心问题之一, Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWise. RankNet是一种Pairwise方法, 由微软研究院的Chris Burges等人在2005年ICML上的一篇论文Learning to Rank Using Gradient Descent中提出，并被应用在微软的搜索引擎Bing当中。

1. 损失函数

损失函数一直是各种Learning to Rank算法的核心, RankNet亦然.

RankNet是一种Pairwise方法, 定义了文档对<A, B>的概率(假设文档A, B的特征分别为x_i,x_j):

其中o_ij=o_i-o_j, o_i=f(x_i), RankNet使用神经网络来训练模型, 所以f(x_i)是神经网络的输出。

如果文档A比文档B和查询q更加相关, 则目标概率:=1, 如果文档B比文档A更相关, 目标函数=0, 如果A和B同样相关, 则=0.5.

有了模型输出的概率Pij和目标概率, 我们使用交叉熵来作为训练的损失函数:

在三种不同的目标概率下, 损失函数和oij之间的关系如下图所示:

可以看到, 在=1时, o_ij越大损失函数越小, =0时, 越小损失函数越小, =0.5时, =0.5时损失函数最小。

本身也有一些非常好的特性, 给定和, 得到:

令==P, 得到P和的关系如下图所示:

可以看到, 当P>0.5时, 亦即i>j, j>k时, 有>0.5, 亦即i>k, 这说明概率P具有一致性(consistency).

2. RankNet算法

RankNet使用神经网络来训练模型, 使用梯度下降来优化损失函数。特别的, Chris Burges等人在论文中证明, 对于m个文档{d₁,d₂,...,d_m}, 需要且只需要知道相邻文档之间的概率Pij,就可以算出任意两个文档之间的后验概率. 可以实现对m个文档做任意排列, 然后以排列后的相邻文档之间的概率P_ij作为训练数据, 然后训练模型, 时间复杂度为O(N), 优于Ranking SVM的O(N²)。

在使用神经网络进行训练时, 将排好序的文档逐个的放入神经网络进行训练, 然后通过前后两个文档之间的o_ij=o_i-o_j来训练模型, 每一次迭代, 前向传播m次, 后向反馈m-1次。

RankLib中有RankNet等Learning to Rank算法的开源Java实现。

参考文献:

[1]. Chris Burges, et al. Learning to Rank using Gradient Descent, ICML, 2005.

[2]. Tie-yan Liu. Learning to Rank for Information Retrieval.

[3]. Learning to Rank简介

[4]. RankLib

Learning to Rank之RankNet算法简介的更多相关文章

【机器学习】Learning to Rank之Ranking SVM 简介
Learning to Rank之Ranking SVM 简介排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning t ...
Learning to Rank之Ranking SVM 简介
排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简 ...
[Machine Learning] Learning to rank算法简介
声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...
[笔记]Learning to Rank算法介绍：RankNet，LambdaRank，LambdaMart
之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...
Learning to Rank算法介绍：RankNet，LambdaRank，LambdaMart
之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...
Learning to Rank 简介
转自:http://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html,感谢分享! 本文将对L2R做一个比较深入的介绍,主要参考了刘铁岩 ...
【机器学习】Learning to Rank 简介
Learning to Rank 简介去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值.L2R将机器学习的技术很好的应用到了排 ...
Learning to Rank简介
Learning to Rank是采用机器学习算法,通过训练模型来解决排序问题,在Information Retrieval,Natural Language Processing,Data Mini ...
Learning to rank基本算法
搜索排序相关的方法,包括 Learning to rank 基本方法 Learning to rank 指标介绍 LambdaMART 模型原理 FTRL 模型原理 Learning to rank ...

随机推荐

【RF库Collections测试】Get Slice From List
Name:Get Slice From ListSource:Collections <test library>Arguments:[ list_ | start=0 | end=Non ...
docker学习-docker安装
win10之外的系统:https://www.docker.com/products/docker-toolbox win10系统: https://www.docker.com/pro ...
Python3 requests 库
requests 安装使用 requests 发送 GET 请求使用 requests 发送 POST 请求使用 requests 维持会话使用 requests 访问 HTTPS 使用 re ...
oracle常用管理命令
启动数据库和监听 lsnrctl start sqlplus /nolog conn sys/as sysdba startup 查看当前的实例名 show parameter instance_n ...
spring AOP底层原理实现——jdk动态代理
spring AOP底层原理实现——jdk动态代理
LeetCode——Maximum Subarray
Description: Find the contiguous subarray within an array (containing at least one number) which has ...
sencha touch 入门系列（七）sencha touch 类系统讲解（上）
在mvc结构的基础上,sencha touch又使用了sencha公司为extjs4开发出来的类系统,在面向对象的编程语言中,类是对对象的定义,它描述了对象所包含的大量属性和方法. 跟面向对象语言类似 ...
mysql导出csv文件excel打开后数字用科学计数法显示且低位变0的解决方法
Excel显示数字时,如果数字大于12位,它会自动转化为科学计数法:如果数字大于15位,它不仅用于科学技术费表示,还会只保留高15位,其他位都变0. Excel打开csv文件时,只要字段值都是数字,它 ...
js嵌套轮播图
$(function(){ var navLi = $(".top_nav").find("li"), conDiv = $(".top_con&qu ...
C#IIS网站应用程序池启动回收停止 .
//添加应用程序池空间引用using System.DirectoryServices;using System.Text; using System.Text.RegularExpressions; ...

Learning to Rank之RankNet算法简介

1. 损失函数

2. RankNet算法

Learning to Rank之RankNet算法简介的更多相关文章

随机推荐

热门专题