文章链接

https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf

  • abstract

点击特征在长尾query上的稀疏性问题

  基础相关性三大技术:排序函数,语义匹配特征,query改写

  • introduction

  问题:

  1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’;

  2)大量的长尾query使得点击模型失效;

  3)用户视搜索引擎为智能问答系统,希望一键找到答案。

综合相关性:

时效性query:‘safest cars’

地域性query:‘walmart’,‘restaurant’

本文重点:

1)排序函数设计:learning to rank,考虑上下文的rerank

2)三种语义匹配特征,将头部query的点击特征迁移至长尾query:点击相似度(click similarity),深度语义匹配(deep semantic matching),转译文本匹配(translated text matching)

3)query改写:针对长尾query

4)时效性,地域性排序

  • background

  ——overview of architecture

按doc分片索引,并行召回,打分,去重,基础排序(core ranking)

  ——ranking features

网络拓扑(web graph):通过网页拓扑连接关系决定doc质量或热度。pagerank;与已知优劣网页的距离

doc statistics:网页各域(field)的词数

doc classifier:spam/adult/langrage/main topic/quality/type(navigational,informational)

query features:包含词数;query频次;各词词频(tf);有点比(ctr)

text match:各域文本匹配特征(title, body, abstract, keywords, anchor text, url),可以是计数或更复杂(例如BM25);query各词邻近度(proximity),在doc正文中词之间越近越好

topical matching:主题相似度

click:click,first click,last click,long dwell time click,only click

time:新鲜度(freshness);inlink和outlink的新鲜度

  ——evaluation of search relevance

dcg@1,3,5;置信度:wilcoxon t-test方法给出p-value

三个query集合:高频(top),低频(torso),长尾(tail)。本文重点关注低频和长尾query的效果。

  • machine learned ranking

基础排序(core ranking)使用GBDT model,logistic loss:LogisticRank

使用perfect,excellent,good信息放大梯度信息有更大提升

  ——core ranking

perfect/excellent/good对应scale:3/2/1

LogisticRank >> GBRank, LambdaMart尤其在高频query上

GBRank(混合了pairwise loss和pointwise loss) > LambdaMart(listwise loss,只学习doc的相对顺序)

长尾query上:GBRank接近LogisticRank,LogisticRank在去除bad结果效果明显

在LTR challenge data set上DCG@5:LambdaMart > GBRank > LogisticRank,原因是商用搜索引擎数据中有明显更多的bad query-doc pair

定义基线为‘background’部分所述特征+LogisticRank。

  ——contextual reranking

在少量数十个top results上提取上下文特征:

rank:对url的rank增序排列,实际中使用rank值效果比直接使用core ranking的分数好,因为索引更新时分数会漂移

mean:top30 url的特征值均值

variance:top30 url的特征值方差

normalized feature:使用均值和方差将特征归一化

topic model feature:聚合top30 url的主题向量作为query的主题向量,分别算query-url的主题相似度

rerank的目的在于区分perfect/excellent/good,core ranking目的在于去除bad results

  ——implementation and deployment

core ranking部署在index节点上,rerank在汇集节点上

  • semantic matching features

长尾query上有点击稀疏性问题,相关doc的锚文本也稀少,另外有query-doc在词汇上的不匹配(比如‘how much’和‘price’),所以从点击日志中提取三种重要的语义匹配特征:点击相似度(click similarity),深度语义匹配(deep semantic matching),转译文本匹配(translated text matching)

  ——click similarity,CS

VSM具有词汇不匹配的问题。因此从点击二部图(bipartite click graph)中提取query和doc的向量表示,都使用query的词典为各维度含义。具体方法:

使用点击数作为点击二部图中边的权重,提取doc的co-click query作为doc的表示,参考query的co-click doc向量表示将doc vector中的terms传递给query,轮流迭代。

每轮迭代只保留top-k个term,在数轮迭代后qv(query vector)和dv(doc vector)可收敛。

用qv和dv的內积作为click similarity。

每月更新,qv保存在汇集节点,dv保存在正排索引中。

  ——translated text matching,TTM

click similarity不能计算点击日志之外的query和doc。统计机器翻译(statistical machine translation,SMT)将query和doc互译可作为启发,用户解决词汇差异。

使用clicked query-title pair做一个翻译模型(translation model)。用此模型将q翻译成k个alternate q,在title词典上表示。对于每个alternate q,都和d算一个cosine similarity值,最后将k个值取max/avg/median作为最终query-doc的相似度。

试验取k=10,将k个值max是实测中最好的,即EXT_Q_TLM1特征;另外有一个AGG_Q_TLM特征,使用title LM下的rewritten queries和query LM下的rewritten titles计算。

为了控制延时实际服务中使用cache,对于cache miss的使用裁剪过的translation model进行在线计算

  ——deep semantic matching,DSM

CS和TTM都在word级别,deep model可以提取语义和上下文信息,泛化到低频和长尾query上。

使用DSSM模型。使用一年的数据,用简单规则去除spamming queries,拼session后去掉abandon(即无任何点击)的session。使用10-slot窗口从上往下滑动,first slot作为d+,其余9个是d-。doc的输入特征除了title还要考虑site名称(比如wiki, weather, imdb),按照DSSM的做法,3-letter shingling BOW,将embedding的內积作为特征。

实际部署中,正排中存储预算好的title和site的embedding,在线预估query的embedding,然后算相似度。

  • query rewriting

为了性能,大型搜索引擎会在recall阶段将包含所有query terms的doc预筛选出来。词汇差异导致相关doc不通过筛选。rewriting可用来改善这一问题。

  ——methodology

分两个阶段learning phase和decoding phase。

learning phase,从query-doc中学习phrase级别的翻译:

co-click query-title pairs作为平行语料,按照典型的SMT过程:词对齐(word alignment),phrase提取,phrase打分。由于title长于query,需要控制null-word alignment

decoding phase,为query生成候选:

为每个feature function算出candidate q(即qc)和q的打分,然后对所有feature functions打分加权求和(权重可拍可学),找出分最高的qc作为rewritten query(即qw)。

常用的feature function:

1)learning phase学到的:q的LM分数, word panalty,phrase penalty, distortion

2)query/rewrite query feature functions:词数,停用词数,LM分数,query频次,包含词的平均长度,分别作用在query/rewrite query上

3)pair feature functions:二部图上q和qc共现url的Jaccard similarity,q和qc频次上的差异,词级别q和qc的cosine similarity,q和qc词数上的差异,q和qc共有的词,q和qc在LM分数上的差异,q和qc在停用词数上的差异,q和qc在包含词的平均长度的差异

  ——ranking strategy

将q和qw召回的docs合并,重复的doc取两者的最高分。使用线上搜索效果评估。

  • comprehensive experiments

baseline,+3features,+rewrite

  • recency-sensitive ranking

结合大量无时效性标注数据和少量时效性标注数据训练。用一个分类器判定query-doc pair时效性高低,如果是,训练数据标注增加时效性得分。训练GBDT ranker时先训练相关性,补充更多树学习时效性分数。

  • location-sensitive ranking

【TODO】

  • conclusion

高效、实用,对垂直搜索引擎也合适。

Ranking relevance in yahoo search (2016)论文阅读的更多相关文章

  1. 【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking

    7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...

  2. 【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

    ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...

  3. 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

    5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...

  4. 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

    3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...

  5. 【论文阅读】Motion Planning through policy search

    想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔 ...

  6. 论文阅读笔记 Improved Word Representation Learning with Sememes

    论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...

  7. 【医学图像】3D Deep Leaky Noisy-or Network 论文阅读(转)

    文章来源:https://blog.csdn.net/u013058162/article/details/80470426 3D Deep Leaky Noisy-or Network 论文阅读 原 ...

  8. Event StoryLine Corpus 论文阅读

    Event StoryLine Corpus 论文阅读 本文是对 Caselli T, Vossen P. The event storyline corpus: A new benchmark fo ...

  9. [论文阅读]阿里DIN深度兴趣网络之总体解读

    [论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...

随机推荐

  1. 使用Eclipse创建Maven javaweb项目

    其实是我自己不会创建Maven JavaWeb项目,就自己瞎蒙了一下,竟然成功了. 这里有个条件就是你的Maven已经在电脑上配好了. 第一步就是File->New->Maven Proj ...

  2. Notepad++一键编译运行(Python、Java、C++)

    Python 需要事先安装Python配置好环境变量.建议使用Anaconda,方便. 在Notepad按F5,输入如下 cmd /k chdir /d $(CURRENT_DIRECTORY) &a ...

  3. 使用Elasticsearch-jdbc为MySQL数据库建立索引

    elasticsearch-jdbc 环境 Ubuntu 14.04 JDK 1.8.0_66 Elasticsearch 2.3.1 Elasticsearch-jdbc 2.3.1.0 Elast ...

  4. RobotFramework教程使用笔记——robotframwork中文乱码显示问题

    转自:https://www.cnblogs.com/dreamyu/p/6878795.html 接口.数据库返回信息有中文的时候会显示unicode的样式,前面带个U这样的显示,如果我们想让它正常 ...

  5. 【Linux】-Ubuntu下配置JDK1.8

    前言 这次实在是不想写前言了,好吧,那咱就不写了. 内容 怀着复杂的心情来整理这个小小的操作,其实我的内心是拒绝的,因为太简单了,但是我却花费了很长的时间,有效时间花费了将近两个小时去整理这个小玩意儿 ...

  6. windows-bat配置环境变量的几个坑点

    今天因为学校机房问题,想自动化安装vim,不料在编bat的时候不熟练,搞了很久. 坑点1.%path%访问到的是用户的path,而不是系统的path.所以增加环境变量的时候只能增加用户的path.我就 ...

  7. ObjectARXWizards & AutoCAD .NET Wizards 下载地址

    Autodesk Developer Network ObjectARX Wizards The ObjectARX Wizards for AutoCAD 2016 for  Visual Stud ...

  8. 2019.2.26考试T2 矩阵快速幂加速DP

    \(\color{#0066ff}{题解 }\) 可以发现, 数据范围中的n特别小,容易想到状压 可以想到类似于状压DP的思路,按列进行转移 那么应该有3维,\(f[i][j][k]\)代表到第i列, ...

  9. 插头DP学习笔记

    插头DP(我也不知道该怎么定义...)是一种类似于洛谷题目([模板]插头DP)的题目 题目特征为: 在棋盘上 某一维的数据范围很小 完全铺满 计数问题 直接看题吧. [模板]插头DP 给出n*m的方格 ...

  10. Mybatis学习笔记(五) —— Mapper.xml(输入映射和输出映射)

    一.parameterType(输入类型) 1.1 传递简单类型 <!-- 根据用户id查询用户 --> <select id="queryUserById" p ...