Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分。对于Ranking Relevance的计算，过去的技术往往分为两个大的方向：Click Behavior和Text Match。

1. Click Behavior类的feature

主要是利用用户的点击行为来计算query-doc relevance，直观上，点击越多的query-doc pair，relevance也越高，当然Click Behavior类的feature还包括：是否是首次点击，是否是最后一次点击，是否是唯一点击，等等。

但是Click Behavior类的feature的缺点也显而易见：

1）Sparsity。只有“有过点击”的query-doc pair，我们才可以计算它们的relevance，而对那些历史上根本没有过点击的query-doc pair，往往束手无策。

2）Noisy。另外一个更常见的问题是，对于长尾的query-doc pair，展现数和点击数过少，所以得到的query-doc的展现CTR等数据噪音较大，虽然也可以通过贝叶斯平滑的方式来缓解（详见博客：http://www.cnblogs.com/bentuwuying/p/6389222.html，和http://www.cnblogs.com/bentuwuying/p/6498370.html）。

总结来看，Click Behavior类的feature，对于Top的query-doc pair（即展现次数&点击次数较多）比较可靠，对于长尾的，甚至是没出现过的query-doc pair，则不太可靠。

2. Text Match类的feature

包括Term Match（term级别的匹配），和Topic Match（语义级别的匹配）。Text Match并不受到query-doc的展现次数和点击次数的多少的影响，即当query和doc确定后，这类feature的值就确定了（当然前提是采用相同的模型计算的），并不会随着时间的推移而改变，是一种静态的relevance关系。

2-1. Term Match

包括：直接根据query和doc的term进行各种匹配，各种计算得到，比如，词频（term frequency），TF-IDF，布尔模型，空间向量模型（将query和doc各自分词后的term组成一个共享的词典vector，然后各自表示成相同维度的vector，计算相似度），BM25，query与doc各个field的term级别重叠比例（重叠term个数占query term个数的比例，重叠term个数占doc各个field的term个数的比例，query-doc的N-gram重叠比例，query能覆盖doc的N-gram prefix的比例，query-doc是否perfect match）等。

Term Match的缺点在于：

1) 无法解决近义词的问题，由于是term级别的匹配，那么近义词虽然表达的意思近似，但是却无法匹配，或者说在向量空间上距离很远，即无法表达近义词。

2）query和doc上的term的语法表达的区别，例如query中的“how much”与doc中的“price”，意思虽然近似，但是存在语法语义上的区别。

2-2. Topic Match

包括：一般是将query和doc都映射到一个隐含层空间向量上（隐语义空间），然后基于这个隐含层空间上的vector计算相似度，一般可以用pLSA，或者LDA等NLP模型来处理）

Topic Match的缺点在于，解释性较差，不同于Term Match中我们把query和doc切分到term级别，解释性较强，而在Topic Match中，映射到隐语义空间上时，vector每个维度表达的意思并不知道，不利于验证和debug。

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 }
span.s1 { font: 12.0px "Helvetica Neue" }

Ranking Relevance小结的更多相关文章

Ranking relevance in yahoo search (2016)论文阅读
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题基础相关性三大技 ...
【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
【阅读笔记】Ranking Relevance in Yahoo Search （一）—— introduction & background
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...
【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting
5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...
【阅读笔记】Ranking Relevance in Yahoo Search （二）—— maching learned ranking
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...
Facebook Architecture
Facebook Architecture Quora article a relatively old presentation on facebook architecture another I ...
使用点击二分图计算query-document的相关性
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...
使用点击二分图传导计算query-document的相关性
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...
KDD2016,Accepted Papers
RESEARCH TRACK PAPERS - ORAL Title & Authors NetCycle: Collective Evolution Inference in Heterog ...

随机推荐

iOS热更新技术被苹果官方警告？涉及到RN、Weex、JSPatch！！！
今天一早,不少iOS开发群都炸窝了,原因是部分iOS开发者收到了苹果的警告邮件: 有开发者质疑可能是项目中使用了JSPatch.weex以及ReactNative等热更新技术.对于修复bug提交审核的 ...
.NET的SqlHelper应用代码
首先需要引用命名空间 ,同时也需要右击'引用' --> '添加引用' --> '程序集' --> '框架' --> 'System.Configuration',SqlHelp ...
js小动画算法
function step(A,B,rate,callback){ A = A + (B - A) / (rate || 2); if(Math.abs(A-B) < 1){ callback( ...
Adapter基本用法
使用流程 graph LR A(新建适配器) -->B(绑定数据源) B-->C(设置适配器) 1. ArrayAdapter new ArrayAdapter<?>(cont ...
Implement Stack using Queues leetcode
Implement the following operations of a stack using queues. push(x) -- Push element x onto stack. po ...
click和onclick本质的区别
原生javascript的click在w3c里边的阐述是DOM button对象,也是html DOM click() 方法,可模拟在按钮上的一次鼠标单击. button 对象代表 HTML 文档中的 ...
C++基础——C面向过程与C++面向对象编程01_圆面积求解
#include "iostream";//包含C++的头文件using namespace std;//使用命名空间std标准的命名空间(在这个命名空间中定义了很多标准定义)vo ...
echarts柱图自定义为硬币堆叠的形式
看这标题,可能会有一些人不太明白,那么直接上图,就是柱图展示形式如下图(兼容IE8) 要想实现这样展示效果.我们想用echarts直接实现不行的,即使是纹理填充也不可行的,但是我们可以借助echart ...
000 Python之禅
The Zen of Python, by Tim Peters Beautiful is better than ugly.Explicit is better than implicit.Simp ...
Eclipse中的快捷键快速生成常用代码（例如无参、带参构造，set、get方法），以及Java中重要的内存分析（栈、堆、方法区、常量池）
(一)Eclipse中的快捷键: ctrl+shift+f自动整理选择的java代码 alt+/ 生成无参构造器或者提升信息 alt+shift+s+o 生成带参构造 ctrl+shift+o快速导 ...