Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分。对于Ranking Relevance的计算，过去的技术往往分为两个大的方向：Click Behavior和Text Match。

1. Click Behavior类的feature

主要是利用用户的点击行为来计算query-doc relevance，直观上，点击越多的query-doc pair，relevance也越高，当然Click Behavior类的feature还包括：是否是首次点击，是否是最后一次点击，是否是唯一点击，等等。

但是Click Behavior类的feature的缺点也显而易见：

1）Sparsity。只有“有过点击”的query-doc pair，我们才可以计算它们的relevance，而对那些历史上根本没有过点击的query-doc pair，往往束手无策。

2）Noisy。另外一个更常见的问题是，对于长尾的query-doc pair，展现数和点击数过少，所以得到的query-doc的展现CTR等数据噪音较大，虽然也可以通过贝叶斯平滑的方式来缓解（详见博客：http://www.cnblogs.com/bentuwuying/p/6389222.html，和http://www.cnblogs.com/bentuwuying/p/6498370.html）。

总结来看，Click Behavior类的feature，对于Top的query-doc pair（即展现次数&点击次数较多）比较可靠，对于长尾的，甚至是没出现过的query-doc pair，则不太可靠。

2. Text Match类的feature

包括Term Match（term级别的匹配），和Topic Match（语义级别的匹配）。Text Match并不受到query-doc的展现次数和点击次数的多少的影响，即当query和doc确定后，这类feature的值就确定了（当然前提是采用相同的模型计算的），并不会随着时间的推移而改变，是一种静态的relevance关系。

2-1. Term Match

包括：直接根据query和doc的term进行各种匹配，各种计算得到，比如，词频（term frequency），TF-IDF，布尔模型，空间向量模型（将query和doc各自分词后的term组成一个共享的词典vector，然后各自表示成相同维度的vector，计算相似度），BM25，query与doc各个field的term级别重叠比例（重叠term个数占query term个数的比例，重叠term个数占doc各个field的term个数的比例，query-doc的N-gram重叠比例，query能覆盖doc的N-gram prefix的比例，query-doc是否perfect match）等。

Term Match的缺点在于：

1) 无法解决近义词的问题，由于是term级别的匹配，那么近义词虽然表达的意思近似，但是却无法匹配，或者说在向量空间上距离很远，即无法表达近义词。

2）query和doc上的term的语法表达的区别，例如query中的“how much”与doc中的“price”，意思虽然近似，但是存在语法语义上的区别。

2-2. Topic Match

包括：一般是将query和doc都映射到一个隐含层空间向量上（隐语义空间），然后基于这个隐含层空间上的vector计算相似度，一般可以用pLSA，或者LDA等NLP模型来处理）

Topic Match的缺点在于，解释性较差，不同于Term Match中我们把query和doc切分到term级别，解释性较强，而在Topic Match中，映射到隐语义空间上时，vector每个维度表达的意思并不知道，不利于验证和debug。

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 }
span.s1 { font: 12.0px "Helvetica Neue" }

Ranking Relevance小结的更多相关文章

Ranking relevance in yahoo search (2016)论文阅读
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题基础相关性三大技 ...
【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
【阅读笔记】Ranking Relevance in Yahoo Search （一）—— introduction & background
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...
【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting
5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...
【阅读笔记】Ranking Relevance in Yahoo Search （二）—— maching learned ranking
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...
Facebook Architecture
Facebook Architecture Quora article a relatively old presentation on facebook architecture another I ...
使用点击二分图计算query-document的相关性
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...
使用点击二分图传导计算query-document的相关性
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...
KDD2016,Accepted Papers
RESEARCH TRACK PAPERS - ORAL Title & Authors NetCycle: Collective Evolution Inference in Heterog ...

随机推荐

[微信小程序-开发工具]快捷键
1.进入快捷键 > > 2.快捷键 1.元素面板 ↑↓:导航元素 →←:展开/折叠 Enter:编辑属性 H:隐藏元素 F2:切换编辑HTML 2.样式窗口 Tab/Shift + T ...
CSS中@import与link的具体区别
我们知道在网页中引用外部CSS有两种方式:@import和link 我们也经常听到有人说要使用link来引入CSS更好,但是你知道为什么吗? 继续往下看 link:link就是把外部CSS与网页连接起 ...
类中的两大类（string类、math类）的应用
类是我们在学习C#的过程中很关键也是特别容易让人蒙逼得地方,类的应用直接可以调用它的属性和方法来进行判断和验证 string类(也叫字符串类) C#中的String类很有用,下面是一些它的常用方法的总 ...
使用SSM框架搭建属于自己的APP二维码合成、解析、下载
最近公司的app上线了,在推广APP的时候出现了一个问题,因为Android和IOS的下载地址不一样,那么在推广的时候就要推广两个二维码,这样比较麻烦,如何简化我们的推广,让IOS用户扫描二维码的时候 ...
Junit使用教程
Junit是Java的单元测试工具,同时也是极限编程的好帮手.Junit4借助于Java5的Annotation(标注类)和静态导入的新特性,与Junit3有很大的区别,所以建议初学者直接使用Juni ...
js实现浏览器添加收藏功能
今天搞项目的时候为了实现浏览者实现添加收藏的功能,特地了解了一下相关的API. 也看到了网上各种版本的代码.整理了一下,代码如下.简单易懂. <script> function _addF ...
WebApi接口请求失败，找不到资源。
WebApi开发接口,实现同步数据库的数据给安卓. public class UserInfoController : ApiControllerBase { private UserBLL user ...
关于label和input对齐的那些是秦
input文本和label对齐默认状态下,也就是下面这样, 文字和input是居中的. <div> <label>我是中国人</label> <input ...
Bulls and Cows leetcode
You are playing the following Bulls and Cows game with your friend: You write down a number and ask ...
你真的了解volatile吗，关于volatile的那些事
很早就接触了volatile,但是并没有特别深入的去研究她,只有一个朦胧的概念,就是觉得用她来解决可见性的,但可见性又是什么呢? 最近经过查阅各种资料,并结合自己的思考和实践,对volatile有了 ...