Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分。对于Ranking Relevance的计算,过去的技术往往分为两个大的方向:Click BehaviorText Match

1. Click Behavior类的feature

主要是利用用户的点击行为来计算query-doc relevance,直观上,点击越多的query-doc pair,relevance也越高,当然Click Behavior类的feature还包括:是否是首次点击,是否是最后一次点击,是否是唯一点击,等等。

但是Click Behavior类的feature的缺点也显而易见:

1)Sparsity。只有“有过点击”的query-doc pair,我们才可以计算它们的relevance,而对那些历史上根本没有过点击的query-doc pair,往往束手无策。

2)Noisy。另外一个更常见的问题是,对于长尾的query-doc pair,展现数和点击数过少,所以得到的query-doc的展现CTR等数据噪音较大,虽然也可以通过贝叶斯平滑的方式来缓解(详见博客:http://www.cnblogs.com/bentuwuying/p/6389222.html,和http://www.cnblogs.com/bentuwuying/p/6498370.html)。

总结来看,Click Behavior类的feature,对于Top的query-doc pair(即展现次数&点击次数较多)比较可靠,对于长尾的,甚至是没出现过的query-doc pair,则不太可靠。

2. Text Match类的feature

包括Term Match(term级别的匹配),和Topic Match(语义级别的匹配)。Text Match并不受到query-doc的展现次数和点击次数的多少的影响,即当query和doc确定后,这类feature的值就确定了(当然前提是采用相同的模型计算的),并不会随着时间的推移而改变,是一种静态的relevance关系。

2-1. Term Match

包括:直接根据query和doc的term进行各种匹配,各种计算得到,比如,词频(term frequency),TF-IDF,布尔模型,空间向量模型(将query和doc各自分词后的term组成一个共享的词典vector,然后各自表示成相同维度的vector,计算相似度),BM25,query与doc各个field的term级别重叠比例(重叠term个数占query term个数的比例,重叠term个数占doc各个field的term个数的比例,query-doc的N-gram重叠比例,query能覆盖doc的N-gram prefix的比例,query-doc是否perfect match)等。

Term Match的缺点在于:

1) 无法解决近义词的问题,由于是term级别的匹配,那么近义词虽然表达的意思近似,但是却无法匹配,或者说在向量空间上距离很远,即无法表达近义词。

2)query和doc上的term的语法表达的区别,例如query中的“how much”与doc中的“price”,意思虽然近似,但是存在语法语义上的区别。

2-2. Topic Match

包括:一般是将query和doc都映射到一个隐含层空间向量上(隐语义空间),然后基于这个隐含层空间上的vector计算相似度,一般可以用pLSA,或者LDA等NLP模型来处理)

Topic Match的缺点在于,解释性较差,不同于Term Match中我们把query和doc切分到term级别,解释性较强,而在Topic Match中,映射到隐语义空间上时,vector每个维度表达的意思并不知道,不利于验证和debug。

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 }
span.s1 { font: 12.0px "Helvetica Neue" }

Ranking Relevance小结的更多相关文章

  1. Ranking relevance in yahoo search (2016)论文阅读

    文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技 ...

  2. 【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking

    7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...

  3. 【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

    ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...

  4. 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

    5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...

  5. 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

    3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...

  6. Facebook Architecture

    Facebook Architecture Quora article a relatively old presentation on facebook architecture another I ...

  7. 使用点击二分图计算query-document的相关性

    之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...

  8. 使用点击二分图传导计算query-document的相关性

    之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...

  9. KDD2016,Accepted Papers

    RESEARCH TRACK PAPERS - ORAL Title & Authors NetCycle: Collective Evolution Inference in Heterog ...

随机推荐

  1. WPF DataGrid Drag

    自己实现的功能.代码比较简单的DataGrid的Drag处理,着重处理DataGrid里的拖动排序. using System; using System.Collections.Generic; u ...

  2. angularjs+ionic注册页面表单验证(手机号、确认密码、60s后重发验证码)

    在已建立tabs和路由的注册页面html: 功能: 进行了手机号.密码格式验证,两次密码输入是否相同的判断,都正确且复选框勾选后才可点击注册,进入tabs.mypage页面. 未进行验证码真正发送.获 ...

  3. MySQL优化-一 、缓存优化

    body { font-family: Helvetica, arial, sans-serif; font-size: 14px; line-height: 1.6; padding-top: 10 ...

  4. 细谈position属性:static、fixed、relative与absolute

    学习WEB有些时日了,对DOM中的定位概念有些模糊,特地花了一个下午的时间搜资料.整理写下这篇随笔. 首先,我们要清楚一个概念:文档流. 简单的讲,就是窗体自上而下分成一行一行,并在每行中按照从左到右 ...

  5. Docker笔记二:Lumen & Redis

    Lumen 基于 Laravel 打造,专为构建微服务和 APIs 而生:Redis 与 Memcached 均为常用的 key-value 内存对象缓存服务(系统),免费开源,Redis 支持持久化 ...

  6. html 框架 2017-03-11

    1. 框架frameset   (不在body中编写) Eg: 显示如下框架 第一步: <frameset rows="100,100,*" frmameborder=&qu ...

  7. nodejs学习第一天之模块

    1.运行js文件 2.node 与 js 的区别 相同:数据类型,语法结构,对象  等基本一致 不同:在js中的顶层对象window 在node中没有在node中 顶层对象为global对象 其不对外 ...

  8. app 评分

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px Menlo; color: #822e0e } p.p2 { margin: 0.0px 0. ...

  9. 关于极光推送在手机系统低于iOS10的手机上闪退的问题。

    最近项目中用到了极光推送,升级到了最新的SDK 2.1.9版本,发现只能在iOS10 上运行,其他测试的时候真机闪退.贴上一个可能的原因:

  10. 自动化测试工具Appium环境搭建

    Appium是一个开源.跨平台的测试框架,可以用来测试原生及混合的移动端应用.Appium支持IOS.Android及FirefoxOS平台.Appium使用WebDriver的json wire协议 ...