【阅读笔记】Ranking Relevance in Yahoo Search （三）—

5. QUERY REWRITING

作用：

query rewriting is the task of altering a given query so that it will get better results and, more importantly, to help solve the recall problem.
can treat it as a machine translation problem: language of user queries(S) <=> language of web documents(T)

5.1 Methodology

两个阶段：

learning phase: learns phrase-level translations from queries to documents;
decoding phase: generates candidates for a given query;

Learning Phase =>

此阶段存在的困难：获取大量query - 可以提高相关度的rewritten query训练数据；

困难原因：1）好的翻译模型需要超大量的双语文本；2）编辑不能很好的选择什么样的query可以提高相关性；

解决方案：

使用click graphs（加权无向图：queries和doc是nodes，edges代表queries和document的点击，权重是点击数）
使用文章title作为对应的rewritten query（因为相对于文章body，文章title与query更加相似）
根据得到的query-title配对，we follow the common steps for a typical phrase-based matching translation framework to learn phrase-level translations；

Decoding Phase =>

作用：

每个query（q）都有很多分词的方法得到多个phrase，而且每个phrase都有很多translation，这导致将出现成百上千的候选rewritten_query；

=》decoding phase将在这些候选词中挑出最可靠的rewritten_query（q_w）；

公式：（待添加）

h_i(q_c,q)代表第i个feature function；λ_i指定该function的权重，λ_i可以被人工指定或者通过loss function学习得到；

特征函数：

对于每对(q_c,q)，本论文包含3种类型的feature function：Query feature functions, Rewrite query feature functions, Pair feature functions；

（Query feature functions）

h₁ - number of words in q；h₂ - number of stop words in q；h₃ - language model score of the query q；h₄ - query frequency of q；h₅ - average length of words in q；

（Rewrite query feature functions）

h₆ - number of words in q_c；h₇ - number of stop words in q_c；h₈ - language model score of the query q_c；h₉ - query frequency of q_c；h₁₀ - average length of words in q_c；

（Pair feature functions）

h₁₁ - Jaccard similarity of URLs shared by q and q_c in the query-URL graph；

h₁₂ - difference between the frequencies of q and q_c；

h₁₃ - word-level cosine“余弦” similarity between q and q_c；

h₁₄ - difference between the number of words between q and q_c；

h₁₅ - number of common words in q and q_c；

h₁₆ - difference of language model scores between q and q_c；

h₁₇ - difference of the number of stop words between q and q_c；

h₁₈ - difference of the average length of words between q and q_c；

=》经实验，发现h_11,h_12, h13是最重要的三个feature functions；

5.2 Ranking Strategy

根据original query和rewritten query，有两种排序策略：

Replace the original query with the rewritten query （未采用）=>

评估：直接采用replace的方式很冒险，一些低质量的rewrites会对相关度造成负面影响；

Blending mode（采用） =>

方法：

1）分别使用original query（q）和rewritten query（q_c）从搜索引擎中获取top-N个文档，并记录下两次获得的文档的序列和分值（O， R）；

2）从O和R中取交集：若文档D同时出现在O和R中，D的最终分数未max(O, R)；

3）在此基础上根据各文档的分值进行排序，选择top-N作为original query搜索的最终结果；

两种排序策略的评估：

两种方法都能对tail query的搜索相关度进行显著的提高；

但是由于rewritten query可能改变original query的目的，Replace策略的结果不如Blending Mode的好；

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting的更多相关文章

【阅读笔记】Ranking Relevance in Yahoo Search （一）—— introduction & background
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...
【阅读笔记】Ranking Relevance in Yahoo Search （四 / 完结篇）—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
Ranking relevance in yahoo search (2016)论文阅读
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题基础相关性三大技 ...
【阅读笔记】Ranking Relevance in Yahoo Search （二）—— maching learned ranking
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...
Hadoop阅读笔记（三）——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
【unix网络编程第三版】阅读笔记（五）：I/O复用：select和poll函数
本博文主要针对UNP一书中的第六章内容来聊聊I/O复用技术以及其在网络编程中的实现 1. I/O复用技术 I/O多路复用是指内核一旦发现进程指定的一个或者多个I/O条件准备就绪,它就通知该进程.I/O ...
【unix网络编程第三版】阅读笔记（二）：套接字编程简介
unp第二章主要将了TCP和UDP的简介,这些在<TCP/IP详解>和<计算机网络>等书中有很多细致的讲解,可以参考本人的这篇博客[计算机网络第五版]阅读笔记之五:运输层,这 ...
《大象Think in UML》阅读笔记（三）
Think in UML 阅读笔记(三) 把从现实世界中记录下来的原始需求信息,再换成一种可以知道开发的表达方式.UML通过被称为之概念化的过程来建立适合计算机理解和实现的模型,这个模型被称为分析模型 ...
Kafka 权威指南阅读笔记（第三章，第四章）
Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks ...

随机推荐

微信小程序动态修改页面标题setNavigationBarTitle
微信小程序是可以动态修改页面标题的. 首先我们来看看静态是怎么实现的在对应页面的json文件里面加入下面代码就可以实现了 { "navigationBarTitleText": ...
C++值多态：传统多态与类型擦除之间
引言我有一个显示屏模块: 模块上有一个128*64的单色显示屏,一个单片机(B)控制它显示的内容.单片机的I²C总线通过四边上的排针排母连接到其他单片机(A)上,A给B发送指令,B绘图. B可以向屏 ...
Array（数组）对象-->数组值的修改
1.修改数组值: 数组对象名[下标] = 新值: 举例:原数组如下: var arr = [1,2,3,4,5] 需求:将arr数组第二个元素的值改为10,代码如下: arr[1] = 10; con ...
"文本"组件:<text> —— 快应用原生组件
<template> <div class="container"> <text>H-UI</text> </div> ...
一个lock锁就可以分出低中高水平的程序员对问题的处置方式
说到lock锁,我相信在座的各位没有不会用的,而且还知道怎么用不会出错,但让他们聊一聊为什么可以锁住,都说人以群分,大概就有了下面低中高水平的三类人吧. 第一类人将lock对象定义成static,这 ...
Python 中如何查看进行反汇编
dis模块 Python 反汇编是通过 dis 这个模块来查看的,一般有两种方式可以用来查看方式一: 在命令行中使用 dis 查看 >>> def test ...
MD5中使用16进制
MD5中使用16进制消息摘要分类: java_secruity2012-12-28 13:11 719人阅读评论(0) 收藏举报消息摘要由于数据在计算机中的表示,最终以二进制的形式存在,所以 ...
python画图——雪花（科赫曲线）
科赫曲线是一种分形,其形态非常像雪花,因此又被称作科赫雪花.雪花曲线. 下面是用python的turtle包让我们来实时画一个 import turtledef koch(t,n): #定义一个函数 ...
Daily Scrum 1/5/2015
Process: Zhaoyang: Fix some crash bugs and increase the program stability. Yangdong: Complete some b ...
[php代码审计]bluecms v1.6 sp1
一.环境搭建 bluecms v1.6 sp1源码 windows 7 phpstudy2016(php 5.4.45) seay源代码审计系统源码在网上很容易下载,很多教程说访问地址 http:/ ...

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting

【阅读笔记】Ranking Relevance in Yahoo Search （三）—— query rewriting的更多相关文章

随机推荐

热门专题