转载：https://blog.csdn.net/lipengcn/article/details/80373744

Ranking 是信息检索领域的基本问题，也是搜索引擎背后的重要组成模块。

本文将对结合机器学习的 ranking 技术——learning2rank——做个系统整理，包括 pointwise、pairwise、listwise 三大类型，它们的经典模型，解决了什么问题，仍存在什么缺陷。

Pointwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是单个 doc（和对应 query）构成的特征向量；
输出空间中样本是单个 doc（和对应 query）的相关度；
假设空间中样本是打分函数；
损失函数评估单个 doc 的预测得分和真实得分之间差异。

Pairwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是（同一 query 对应的）两个 doc（和对应 query）构成的两个特征向量；
输出空间中样本是 pairwise preference；
假设空间中样本是二变量函数；
损失函数评估 doc pair 的预测 preference 和真实 preference 之间差异。

Listwise 类方法，其 L2R 框架具有以下特征：

输入空间中样本是（同一 query 对应的）所有 doc（与对应的 query）构成的多个特征向量（列表）；
输出空间中样本是这些 doc（和对应 query）的相关度排序列表或者排列；
假设空间中样本是多变量函数，对于 docs 得到其排列，实践中，通常是一个打分函数，根据打分函数对所有 docs 的打分进行排序得到 docs 相关度的排列；
损失函数分成两类，一类是直接和评价指标相关的，还有一类不是直接相关的。具体后面介绍。

本文主要参考刘铁岩老师的《Learning to Rank for Information Retrieval》和李航老师的《Learning to rank for information retrieval and natural language processing》。

1、概述

1.1 Ranking

Ranking 模型可以粗略分为基于相关度和基于重要性进行排序的两大类。

基于相关度的模型，通常利用 query 和 doc 之间的词共现特性（如布尔模型）、VSM向量空间模型（如 TFIDF、LSI 等）、概率排序思想（BM25、LMIR 等）等方式。
基于重要性的模型，利用的是 doc 本身的重要性，如 PageRank、TrustRank 等。

这里我们关注基于相关度的 ranking。

评估指标

即评估 query 与 docs 之间的真实排序与预测排序的差异。
大部分评估指标都是针对每组 query-docs 进行定义，然后再在所有组上进行平均。常用的基于度量的 ranking 错误率如下

MAP
    首先，suppose we have binary judgment for the documents, i.e., the label is one for relevant documents and zero for irrelevant documents，定义docs 排序列表 π 中位置 k 的 precision 为

    其次，令 m 为该 query 对应的 docs 数量，m_1 为该 query 对应的标签为1的 docs 数量，则有 average precision（AP）为

    最后，对所有 query 求得 AP 进行平均，即得到 MAP。

NDCG
    首先，Discounted cumulative gain （DCG）考量了 relevance judgment in terms of multiple ordered categories，以及对位置信息进行了折扣考量。定义 docs 排序列表 π 中位置 k 的 DCG 为

    其中，函数 G 是对应 doc 的 rating 值，通常采用指数函数，如 G(x)=2^x-1，函数 η 即位置折扣因子，通常采用 η(j)=1/log(j+1)。
    其次，对 DCG@k 进行归一化，规整到0-1，Z_k 表示 DCG@k 的可能最大值，从而有 NDCG

可以发现，这些评估指标具备两大特性：

基于 query ，即不管一个 query 对应的 docs 排序有多糟糕，也不会严重影响整体的评价过程，因为每组 query-docs 对平均指标都是相同的贡献。
基于 position ，即显式的利用了排序列表中的位置信息，这个特性的副作用就是上述指标是离散不可微的。

一方面，这些指标离散不可微，从而没法应用到某些学习算法模型上；另一方面，这些评估指标较为权威，通常用来评估基于各类方式训练出来的 ranking 模型。因此，即使某些模型提出新颖的损失函数构造方式，也要受这些指标启发，符合上述两个特性才可以。这些细节在后面会慢慢体会到。

1.2 Learning to Rank

Learning2Rank 即将 ML 技术应用到 ranking 问题，训练 ranking 模型。通常这里应用的是判别式监督 ML 算法。经典 L2R 框架如下

特征向量 x 反映的是某 query 及其对应的某 doc 之间的相关性，通常前面提到的传统 ranking 相关度模型都可以用来作为一个维度使用。
L2R 中使用的监督机器学习方法主要是判别式类。

推荐排序---Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点的更多相关文章

Learning to Rank：Point-wise、Pair-wise 和 List-wise区别
机器学习的 ranking 技术——learning2rank,包括 pointwise.pairwise.listwise 三大类型. [Ref-1]给出的: <Point wise rank ...
Learning to Rank：pointwise, pairwise, listwise 总结
值得看: 刘铁岩老师的<Learning to Rank for Information Retrieval>和李航老师的<Learning to rank for informat ...
搜索排序-learning to Rank简介
Learning to Rank pointwise \[ L\left(f ; x_{j}, y_{j}\right)=\left(y_{j}-f\left(x_{j}\right)\right)^ ...
Learning to rank相关的pointwise,pairwise,listwise
论文分享--- >Learning to Rank: From Pairwise Approach to Listwise Approach 学习排序 Learning to Rank 小结 [ ...
Learning to rank 介绍
PS:文章主要转载自CSDN大神hguisu的文章"机器学习排序": http://blog.csdn.net/hguisu/article/details/79 ...
Learning to rank基本算法
搜索排序相关的方法,包括 Learning to rank 基本方法 Learning to rank 指标介绍 LambdaMART 模型原理 FTRL 模型原理 Learning to rank ...
[Machine Learning] Learning to rank算法简介
声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...
learning to rank
Learning to Rank入门小结 + 漫谈 Learning to Rank入门小结 Table of Contents 1 前言 2 LTR流程 3 训练数据的获取4 特征抽取 3.1 人工 ...
Learning to Rank 简介
转自:http://www.cnblogs.com/kemaswill/archive/2013/06/01/3109497.html,感谢分享! 本文将对L2R做一个比较深入的介绍,主要参考了刘铁岩 ...

随机推荐

《C语言程序设计教程》学习笔记
<C语言程序设计教程>--朱鸣华.刘旭麟等第一章 C语言概述 1.C语言的特点: 1)兼具高级.低级语言的双重能力(C语言允许直接访问物理地址,能够进行位操作,能实现汇编语言的大部分功能 ...
《剑指offer》数学题及其它 (牛客11.05)
比较多的思维题,涉及位运算.快速幂.二进制.约瑟夫问题.队列.贪心.dp等等. 难度题目知识点 ☆ 12.数值的整数次方细节,快速幂 ☆☆ 47.求1+2+3+···+n 思维发散 ☆☆ 48. ...
【VS开发】网络SOCKET编程INADDR_ANY选项
INADDR_ANY选项网络编程中常用到bind函数,需要绑定IP地址,这时可以设置INADDR_ANY INADDR_ANY就是指定地址为0.0.0.0的地址,这个地址事实上表示不确定地址,或&q ...
Andrew Ng机器学习课程17(1)
Andrew Ng机器学习课程17(1) 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 说明:主要介绍了强化学习与监督学习的设定上的区别,以及强化学习的框架 ...
战术设计DDD
可落地的DDD(5)-战术设计摘要本篇是DDD的战术篇,也就是关于领域事件.领域对象.聚合根.实体.值对象的讨论.也是DDD系列的完结篇.这一部分在我们团队争论最多的,也有很多月经贴,比如对资 ...
（十三）自定义JSTL标签
前面的博客,我们讲过了自定义 el函数 : 讲一个自定义标签技术 : 目录自定义标签快速入门:使用标签输出客户机IP 关于标签处理器类的方法自定义标签功能扩展传统标签简单标签配置简单标 ...
通过vs2015给QT添加模块
Qt VS Tools->Qt Project Settings->Qt Modules
Essential C++ Reading Notes
Chapter1 P6, 1.2 Why //#include<string> we still can use "string user_name"? -->c ...
第6章：LeetCode--数组（冒泡排序、快速排序）
11. Container With Most Water class Solution { public: int maxArea(vector<int>& height) { ...
PHP中类成员的访问控制
类成员访问控制: 1.public 默认的,任何地方都可以访问,类内,类外,子类中 2.protected 受保护的,对外是封闭的,但是类内部和子类可以访问 3.private 私有的,仅限于本类中 ...

推荐排序---Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点