Ranking Relevance是搜索排序算法的各个影响因子中相当重要的一个部分。对于Ranking Relevance的计算,过去的技术往往分为两个大的方向:Click BehaviorText Match

1. Click Behavior类的feature

主要是利用用户的点击行为来计算query-doc relevance,直观上,点击越多的query-doc pair,relevance也越高,当然Click Behavior类的feature还包括:是否是首次点击,是否是最后一次点击,是否是唯一点击,等等。

但是Click Behavior类的feature的缺点也显而易见:

1)Sparsity。只有“有过点击”的query-doc pair,我们才可以计算它们的relevance,而对那些历史上根本没有过点击的query-doc pair,往往束手无策。

2)Noisy。另外一个更常见的问题是,对于长尾的query-doc pair,展现数和点击数过少,所以得到的query-doc的展现CTR等数据噪音较大,虽然也可以通过贝叶斯平滑的方式来缓解(详见博客:http://www.cnblogs.com/bentuwuying/p/6389222.html,和http://www.cnblogs.com/bentuwuying/p/6498370.html)。

总结来看,Click Behavior类的feature,对于Top的query-doc pair(即展现次数&点击次数较多)比较可靠,对于长尾的,甚至是没出现过的query-doc pair,则不太可靠。

2. Text Match类的feature

包括Term Match(term级别的匹配),和Topic Match(语义级别的匹配)。Text Match并不受到query-doc的展现次数和点击次数的多少的影响,即当query和doc确定后,这类feature的值就确定了(当然前提是采用相同的模型计算的),并不会随着时间的推移而改变,是一种静态的relevance关系。

2-1. Term Match

包括:直接根据query和doc的term进行各种匹配,各种计算得到,比如,词频(term frequency),TF-IDF,布尔模型,空间向量模型(将query和doc各自分词后的term组成一个共享的词典vector,然后各自表示成相同维度的vector,计算相似度),BM25,query与doc各个field的term级别重叠比例(重叠term个数占query term个数的比例,重叠term个数占doc各个field的term个数的比例,query-doc的N-gram重叠比例,query能覆盖doc的N-gram prefix的比例,query-doc是否perfect match)等。

Term Match的缺点在于:

1) 无法解决近义词的问题,由于是term级别的匹配,那么近义词虽然表达的意思近似,但是却无法匹配,或者说在向量空间上距离很远,即无法表达近义词。

2)query和doc上的term的语法表达的区别,例如query中的“how much”与doc中的“price”,意思虽然近似,但是存在语法语义上的区别。

2-2. Topic Match

包括:一般是将query和doc都映射到一个隐含层空间向量上(隐语义空间),然后基于这个隐含层空间上的vector计算相似度,一般可以用pLSA,或者LDA等NLP模型来处理)

Topic Match的缺点在于,解释性较差,不同于Term Match中我们把query和doc切分到term级别,解释性较强,而在Topic Match中,映射到隐语义空间上时,vector每个维度表达的意思并不知道,不利于验证和debug。

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC"; color: #454545 }
span.s1 { font: 12.0px "Helvetica Neue" }

Ranking Relevance小结的更多相关文章

  1. Ranking relevance in yahoo search (2016)论文阅读

    文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技 ...

  2. 【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking

    7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...

  3. 【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

    ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...

  4. 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

    5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...

  5. 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

    3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...

  6. Facebook Architecture

    Facebook Architecture Quora article a relatively old presentation on facebook architecture another I ...

  7. 使用点击二分图计算query-document的相关性

    之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...

  8. 使用点击二分图传导计算query-document的相关性

    之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p ...

  9. KDD2016,Accepted Papers

    RESEARCH TRACK PAPERS - ORAL Title & Authors NetCycle: Collective Evolution Inference in Heterog ...

随机推荐

  1. jquery的ajax提交后,会跳转页面

    今天在写代码的时候,遇到一个很奇怪的问题,一个form表单,用的是ajax的方式提交.结果,在服务器端php中,使用exit(),函数后都不能停止,并且继续跳转到本页.请求如下: 第一个请求中,其实我 ...

  2. Asp.Net 常用工具类之加密——对称加密DES算法(2)

    又到周末,下午博客园看了两篇文章,关于老跳和老赵的程序员生涯,不禁感叹漫漫程序路,何去何从兮! 转眼毕业的第三个年头,去过苏州,跑过上海,从一开始的凌云壮志,去年背起行囊默默回到了长沙准备买房,也想有 ...

  3. 【mac版】前端开发工具整理

    整理了一些日常工作中涉及到的工具,下载链接:https://pan.baidu.com/s/1kUD60a7#list/path=%2F 编辑器 Webstorm 软件下载及常用操作 webstorm ...

  4. Android性能测试工具Emmagee

    下面介绍一个简单实用的Android性能软件 ~~欢迎加入测试群574875837一起讨论研究 一.Emmagee 简介 Emmagee主要用于监控单个App的CPU,内存,流量,启动耗时,电量,电流 ...

  5. Linux服务器下Java环境搭建

    前言: 在centOS下,像阿里云等都预先设置了jdk,不过不是SUN的java JDK,一般情况要重新装jdk,而且一般情况下自己装的Jdk相对来说易控制版本,稳定性更高.所以以下是我卸载预装jdk ...

  6. PHP解耦的三重境界(浅谈服务容器)

    阅读本文之前你需要掌握:PHP语法,面向对象 在完成整个软件项目开发的过程中,有时需要多人合作,有时也可以自己独立完成,不管是哪一种,随着代码量上升,写着写着就"失控"了,渐渐&q ...

  7. Android Crash 全局捕获

    Android Crash 全局捕获 首先应该明白的一点是,Android在崩溃后会重新启动崩溃时的那个Activity,如果你的Activity在初始化的时候就直接崩溃,那么你将连续得到 Crash ...

  8. [SQL] SQL 基础知识梳理(七)- 集合运算

    SQL 基础知识梳理(七)- 集合运算 目录 表的加减法 联结(以列为单位) 一.表的加减法 1.集合:记录的集合(表.视图和查询的执行结果). 2.UNION(并集):表的加法 -- DDL:创建表 ...

  9. 【转】Objective-C Runtime

    之前在找Runtime资料,这篇条理是相对比较清晰,对我最有启发的一篇,转载以作记录. 对于iOS小白,值得多看几遍,会有不少收获. --------------------------------- ...

  10. 适用MySQL Migration Toolkit 1.0 将oracle迁移到mysql中遇到的问题

    这里主要说一下我在适用中碰到的问题,主要过程参考 http://www.cnblogs.com/duwenlei/p/3520759.html. 首先启动MySQLMigrationTool.exe ...