转载：https://blog.csdn.net/lipengcn/article/details/80373744

Ranking 是信息检索领域的基本问题，也是搜索引擎背后的重要组成模块。

本文将对结合机器学习的 ranking 技术——learning2rank——做个系统整理，包括 pointwise、pairwise、listwise 三大类型，它们的经典模型，解决了什么问题，仍存在什么缺陷。

Pointwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是单个 doc（和对应 query）构成的特征向量；
输出空间中样本是单个 doc（和对应 query）的相关度；
假设空间中样本是打分函数；
损失函数评估单个 doc 的预测得分和真实得分之间差异。

Pairwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是（同一 query 对应的）两个 doc（和对应 query）构成的两个特征向量；
输出空间中样本是 pairwise preference；
假设空间中样本是二变量函数；
损失函数评估 doc pair 的预测 preference 和真实 preference 之间差异。

Listwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是（同一 query 对应的）所有 doc（与对应的 query）构成的多个特征向量（列表）；
输出空间中样本是这些 doc（和对应 query）的相关度排序列表或者排列；
假设空间中样本是多变量函数，对于 docs 得到其排列，实践中，通常是一个打分函数，根据打分函数对所有 docs 的打分进行排序得到 docs 相关度的排列；
损失函数分成两类，一类是直接和评价指标相关的，还有一类不是直接相关的。具体后面介绍。

本文主要参考刘铁岩老师的《Learning to Rank for Information Retrieval》和李航老师的《Learning to rank for information retrieval and natural language processing》。

1、概述

1.1 Ranking

Ranking 模型可以粗略分为基于相关度和基于重要性进行排序的两大类。

基于相关度的模型，通常利用 query 和 doc 之间的词共现特性（如布尔模型）、VSM向量空间模型（如 TFIDF、LSI 等）、概率排序思想（BM25、LMIR 等）等方式。
基于重要性的模型，利用的是 doc 本身的重要性，如 PageRank、TrustRank 等。

这里我们关注基于相关度的 ranking。

评估指标

即评估 query 与 docs 之间的真实排序与预测排序的差异。
大部分评估指标都是针对每组 query-docs 进行定义，然后再在所有组上进行平均。常用的基于度量的 ranking 错误率如下

MAP
    首先，suppose we have binary judgment for the documents, i.e., the label is one for relevant documents and zero for irrelevant documents，定义docs 排序列表 π 中位置 k 的 precision 为

    其次，令 m 为该 query 对应的 docs 数量，m_1 为该 query 对应的标签为1的 docs 数量，则有 average precision（AP）为

    最后，对所有 query 求得 AP 进行平均，即得到 MAP。

NDCG
    首先，Discounted cumulative gain （DCG）考量了 relevance judgment in terms of multiple ordered categories，以及对位置信息进行了折扣考量。定义 docs 排序列表 π 中位置 k 的 DCG 为

    其中，函数 G 是对应 doc 的 rating 值，通常采用指数函数，如 G(x)=2^x-1，函数 η 即位置折扣因子，通常采用 η(j)=1/log(j+1)。
    其次，对 DCG@k 进行归一化，规整到0-1，Z_k 表示 DCG@k 的可能最大值，从而有 NDCG

可以发现，这些评估指标具备两大特性：

基于 query ，即不管一个 query 对应的 docs 排序有多糟糕，也不会严重影响整体的评价过程，因为每组 query-docs 对平均指标都是相同的贡献。
基于 position ，即显式的利用了排序列表中的位置信息，这个特性的副作用就是上述指标是离散不可微的。

一方面，这些指标离散不可微，从而没法应用到某些学习算法模型上；另一方面，这些评估指标较为权威，通常用来评估基于各类方式训练出来的 ranking 模型。因此，即使某些模型提出新颖的损失函数构造方式，也要受这些指标启发，符合上述两个特性才可以。这些细节在后面会慢慢体会到。

1.2 Learning to Rank

Learning2Rank 即将 ML 技术应用到 ranking 问题，训练 ranking 模型。通常这里应用的是判别式监督 ML 算法。经典 L2R 框架如下

特征向量 x 反映的是某 query 及其对应的某 doc 之间的相关性，通常前面提到的传统 ranking 相关度模型都可以用来作为一个维度使用。
L2R 中使用的监督机器学习方法主要是判别式类。

推荐排序---Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点的更多相关文章

Learning to Rank：Point-wise、Pair-wise 和 List-wise区别
机器学习的 ranking 技术——learning2rank,包括 pointwise.pairwise.listwise 三大类型. [Ref-1]给出的: <Point wise rank ...
Learning to Rank：pointwise, pairwise, listwise 总结
值得看: 刘铁岩老师的<Learning to Rank for Information Retrieval>和李航老师的<Learning to rank for informat ...
搜索排序-learning to Rank简介
Learning to Rank pointwise \[ L\left(f ; x_{j}, y_{j}\right)=\left(y_{j}-f\left(x_{j}\right)\right)^ ...
Learning to rank相关的pointwise,pairwise,listwise
论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach 学习排序 Learning to Rank 小结 [ ...
Learning to rank 介绍
PS:文章主要转载自CSDN大神hguisu的文章"机器学习排序": http://blog.csdn.net/hguisu/article/details/79 ...
Learning to rank基本算法
搜索排序相关的方法,包括 Learning to rank 基本方法 Learning to rank 指标介绍 LambdaMART 模型原理 FTRL 模型原理 Learning to rank ...
[Machine Learning] Learning to rank算法简介
声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...
learning to rank
Learning to Rank入门小结 + 漫谈 Learning to Rank入门小结 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 特征抽取 3.1 人工 ...
Learning to Rank 简介
转自:http://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html,感谢分享! 本文将对L2R做一个比较深入的介绍,主要参考了刘铁岩 ...

随机推荐

talking data 集成
talking data 集成需要手动添加libz.td
【web 安全测试Tools】BurpSuite 1.7.32及注册机【无后门版】
BurpSuite 1.7.32 原版+注册机下载链接:https://pan.baidu.com/s/1LFpXn2ulTLlcYZHG5jEjyw 密码:mie3 注意无后门版文件完整性: b ...
【转载】利用Amazon ECR和ECS部署容器应用
众所周知现在容器的技术越来越火,很多企业已经将整个业务架构容器化,利用容器的灵活性.可移植性.轻量等优势为企业开发和运维带来很大的优势,目前整个容器编排服务中最吃香的当然是Kubernetes (简称 ...
最新中钢网java校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿.中钢网等10家互联网公司的校招Offer,因为某些自身原因最终选择了中钢网.6.7月主要是做系统复习.项目复盘.LeetCo ...
windows服务器入门 php的安装
下载PHP安装包(下载地址: http://windows.php.net/download/ ),本文档以5.3版本为例,选择如下图对应的安装包: 下载完成后进行安装PHP,需要选择Web服务时,选 ...
Win10下 jdk的安装
jdk 的下载地址 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 在 D 盘 ...
redis实战---读书笔记
第一章初识redis redis 是一个远程内存数据库,性能强劲,具有复制特性以及为解决问题而生的独一无二的数据模型. 1. redis 简介 redis 是一种非关系型数据库(NOSQL) r ...
缓存利器之Ehcache
EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点.是一种广泛使用的开源Java分布式缓存.主要面向通用缓存,Java EE和轻量级容器.另外Spring 提供了对缓存功能的抽象: ...
（四）Resquest 知识点总结（来自那些年的笔记）
目录 URL和URI的区别获取URL.URI 什么是HttpServletResquest 获取请求头中字段的内容获取请求信息的数据将客户机的请求变为一个流返回常用的方法 request乱码问 ...
BZOJ2555 SubString（后缀自动机+LCT）
询问串放在SAM上不跳fail跑到的节点的|right|即为答案.用LCT维护parent树即可.可以直接维护子树信息,也可以转化为路径加.注意强制在线所使用的mask是作为参数传进去的. #incl ...

推荐排序---Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点