【阅读笔记】Ranking Relevance in Yahoo Search （三）—

5. QUERY REWRITING

作用：

query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve the recall problem.
can treat it as a machine translation problem: language of user queries(S) <=> language of web documents(T)

5.1 Methodology

两个阶段：

learning phase: learns phrase-level translations from queries to documents;
decoding phase: generates candidates for a given query;

Learning Phase =>

此阶段存在的困难：获取大量query - 可以提高相关度的rewritten query训练数据；

困难原因：1）好的翻译模型需要超大量的双语文本；2）编辑不能很好的选择什么样的query可以提高相关性；

解决方案：

使用click graphs（加权无向图：queries和doc是nodes，edges代表queries和document的点击，权重是点击数）
使用文章title作为对应的rewritten query（因为相对于文章body，文章title与query更加相似）
根据得到的query-title配对，we follow the common steps for a typical phrase-based matching translation framework to learn phrase-level translations；

Decoding Phase =>

作用：

每个query（q）都有很多分词的方法得到多个phrase，而且每个phrase都有很多translation，这导致将出现成百上千的候选rewritten_query；

=》decoding phase将在这些候选词中挑出最可靠的rewritten_query（q_w）；

公式：（待添加）

h_i(q_c,q)代表第i个feature function；λ_i指定该function的权重，λ_i可以被人工指定或者通过loss function学习得到；

特征函数：

对于每对(q_c,q)，本论文包含3种类型的feature function：Query feature functions, Rewrite query feature functions, Pair feature functions；

（Query feature functions）

h₁ - number of words in q；h₂ - number of stop words in q；h₃ - language model score of the query q；h₄ - query frequency of q；h₅ - average length of words in q；

（Rewrite query feature functions）

h₆ - number of words in q_c；h₇ - number of stop words in q_c；h₈ - language model score of the query q_c；h₉ - query frequency of q_c；h₁₀ - average length of words in q_c；

（Pair feature functions）

h₁₁ - Jaccard similarity of URLs shared by q and q_c in the query-URL graph；

h₁₂ - difference between the frequencies of q and q_c；

h₁₃ - word-level cosine“余弦” similarity between q and q_c；

h₁₄ - difference between the number of words between q and q_c；

h₁₅ - number of common words in q and q_c；

h₁₆ - difference of language model scores between q and q_c；

h₁₇ - difference of the number of stop words between q and q_c；

h₁₈ - difference of the average length of words between q and q_c；

=》经实验，发现h_11,h_12, h13是最重要的三个feature functions；

5.2 Ranking Strategy

根据original query和rewritten query，有两种排序策略：

Replace the original query with the rewritten query （未采用）=>

评估：直接采用replace的方式很冒险，一些低质量的rewrites会对相关度造成负面影响；

Blending mode（采用） =>

方法：

1）分别使用original query（q）和rewritten query（q_c）从搜索引擎中获取top-N个文档，并记录下两次获得的文档的序列和分值（O， R）；

2）从O和R中取交集：若文档D同时出现在O和R中，D的最终分数未max(O, R)；

3）在此基础上根据各文档的分值进行排序，选择top-N作为original query搜索的最终结果；

两种排序策略的评估：

两种方法都能对tail query的搜索相关度进行显著的提高；

但是由于rewritten query可能改变original query的目的，Replace策略的结果不如Blending Mode的好；

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting的更多相关文章

【阅读笔记】Ranking Relevance in Yahoo Search （一）—— introduction & background
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...
【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
Ranking relevance in yahoo search (2016)论文阅读
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题基础相关性三大技 ...
【阅读笔记】Ranking Relevance in Yahoo Search （二）—— maching learned ranking
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...
Hadoop阅读笔记（三）——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
【unix网络编程第三版】阅读笔记（五）：I/O复用：select和poll函数
本博文主要针对UNP一书中的第六章内容来聊聊I/O复用技术以及其在网络编程中的实现 1. I/O复用技术 I/O多路复用是指内核一旦发现进程指定的一个或者多个I/O条件准备就绪,它就通知该进程.I/O ...
【unix网络编程第三版】阅读笔记（二）：套接字编程简介
unp第二章主要将了TCP和UDP的简介,这些在<TCP/IP详解>和<计算机网络>等书中有很多细致的讲解,可以参考本人的这篇博客[计算机网络第五版]阅读笔记之五:运输层,这 ...
《大象Think in UML》阅读笔记（三）
Think in UML 阅读笔记(三) 把从现实世界中记录下来的原始需求信息,再换成一种可以知道开发的表达方式.UML通过被称为之概念化的过程来建立适合计算机理解和实现的模型,这个模型被称为分析模型 ...
Kafka 权威指南阅读笔记（第三章，第四章）
Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks ...

随机推荐

python--内建属性、集合、常见模块、调试
一.常用内建属性常用专有属性说明触发方式 __init__ 构造初始化函数创建实例后,赋值时使用,在__new__后 __new__ 生成实例所需属性创建实例时 __class__ 实例所在 ...
abp(net core)+easyui+efcore实现仓储管理系统——入库管理之八(四十四)
abp(net core)+easyui+efcore实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统——ABP总体介绍(一) abp(net core)+ ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...
Python操作rabbitmq系列（四）:根据类型订阅消息
在上一章中,所有的接收端获取的所有的消息.这一章,我们将讨论,一些消息,仍然发送给所有接收端.其中,某个接收端,只对其中某些消息感兴趣,它只想接收这一部分消息.如下图:C1,只对error感兴趣,C2 ...
Java相同id的数据集合，合并数据为一条，并将几个字段内容合并为一个
Java实现,当然也可以数据库实现; /** * Created by shaozhiqi on 2019/7/31. */ public class TestUnion { @Test public ...
在Sping的配置文件中，关于dataSource的配置，就我们常用的方法大致可以有三种：
在Sping的配置文件中,关于dataSource的配置,就我们常用的方法大致可以有三种: 1.一般的配置方法,直接在配置中指定其值.具体的例子我们参照Mysql的配置如下: <bean id= ...
web.page.regexp用法（全网唯一）
前言因为这个东西“web.page.regexp”,差点把自己杀了.一点都不夸张,这将近30度的天气,办公室不开空调,又要闷,还要带着口罩,躁动的很.加上这个鬼东西“web.page.regexp” ...
stand up meeting 1/8/2016 & weekend 1/9/2016~1/10/2016 && sprint2扫尾
part 组员工作工作耗时/h 明日计划工作耗时/h UI 冯晓云跑通打印机功能,尝试与pdf读取部分结合 6 查漏补缺, ...
2019CCPC-江西省赛（重现赛）- 感谢南昌大学
A题: 题意: 给你两棵树,然后用一条边将这两棵树连接起来,然后计算每两点之间的距离,然后求和,问这个和的最小值. 思路:根据重心的性质,树上的所有点到重心的距离最短,因此我们找到两棵树的重心,然后 ...
数据类型、运算符、Scanner的使用
一.常见的基本数据类型数值型 byte(最小,2字节) short(4字节) int (默认 8字节) long(16字节) 浮点型 f ...

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting的更多相关文章

随机推荐

热门专题