ABSTRACT:

此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting;

此文内容基于拥有百亿url索引的yahoo搜素引擎;

Keywords:

learning to rank; query rewriting; semantic matching; deep learning;

1. INTRODUCTION

1)搜索相关性的发展:

  • 早期 - concentrated on text matching between queries and web documents such as BM25, 概率模型,向量模型;
  • 近期 - 根据用户行为改进搜索相关性,such as 点击模型;

2)目前搜索引擎面临的挑战促使我们寻找文本匹配和点击模型之外的解决方案:

  • semantic gap - queries和网页文档之间的语义障碍;
  • tail query - 搜索的query大部分为tail query,这类query的出现概率很低,对于搜索引擎来说完全是新词;
  • Q&A systems - 用户习惯将搜索引擎看做Q&A系统;

3)在基础相关性上,相关性还包括temporal和spatial维度:

  • temporal:一些query需要的是最新的信息;
  • spatial:越来越多的query对地点需求强烈(旅馆等);

   4)此文提出的解决方案包括:

  • Designing a novel learning to rank algorithm for core ranking and a framework of contextual reranking algorithms;
  • Developing semantic matching features including click similarity, deep semantic matching, and translated text matching;
  • Building an innovative framework to understand user queries with query rewriting and its ranking strategy;
  • Proposing solutions to recency sensitive ranking and location sensitive ranking;

2. BACKGROUND

2.1 Overview of Architecture

略(与国搜差不多)

2.2 Ranking Features

The ranking functions are built on top of these features (斜体国搜已使用):

  • Web graph : the quality or the popularity of a document (eg:PageRank)
  • Document statistics : some basic statistics of the document (such as the number of words in various fields)
  • Document classifier : such as spam, adult, language, main topic...
  • Query Features : which help in characterizing the query type (such as number of terms, frequency of the query and of its terms, click-through rate of the query)
  • Text match : basic texting matching features are computed from different sections of the document (title, body, abstract, keywords) as well as from the anchor text and the URL
  • Topical matching : go beyond similarity at the word level and compute similarity at the topic level;
  • Click : try to incorporate user feedback
  • Time : the freshness of a page

2.3 Evaluation of Search Relevance

1)评估搜索引擎结果的方法有多种,其中包括human labeling(eg:根据专业编辑的判断)、用户行为度量(eg:点击率,query重写率,停留时间等);

2)此文章中为评估base relevance,将采用第一种方法:professional editor's judgement:

对于每个query-url对,分为5个等级:Perfect, Excellent, Good, Fair, Bad;

使用DCG公式度量搜索相关性:(公式待插入)

(for a ranked list of N documents, G represents the weight assigned to the label of the document at position i)

注:DCG公式仅仅在编辑人员对相关性评估相当靠谱的情况下方才使用;

3)此文章中对即将评估的query按照其出现频率分为三个等级:

top query - 有很强辨识性的query,很容易被检索到;

torso query - 信息有限,此类query一年只会被检索几次;

tail query - 一年被检索少于一次的query

=》本论文的重点在于搜索torso query和tail query;

【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background的更多相关文章

  1. 【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking

    7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...

  2. 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

    5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...

  3. 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

    3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...

  4. Ranking relevance in yahoo search (2016)论文阅读

    文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技 ...

  5. Mongodb Manual阅读笔记:CH7 索引

    7索引 Mongodb Manual阅读笔记:CH2 Mongodb CRUD 操作Mongodb Manual阅读笔记:CH3 数据模型(Data Models)Mongodb Manual阅读笔记 ...

  6. JavaScript高级程序设计 - 阅读笔记

    [本博客为原创:http://www.cnblogs.com/HeavenBin/] 前言: 大致花费了一个星期的时间把这本书认真看了半本,下面是我做的阅读笔记,希望能够让看这本书的人有个大致的参考. ...

  7. Js引擎解析执行 阅读笔记

    Js引擎解析执行 阅读笔记 一篇阅读笔记 http://km.oa.com/group/2178/articles/show/145691?kmref=search&from_page=1&a ...

  8. 关于 AlphaGo 论文的阅读笔记

    这是Deepmind 公司在2016年1月28日Nature 杂志发表论文 <Mastering the game of Go with deep neural networks and tre ...

  9. [论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding

    [论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...

随机推荐

  1. javascript 入门 select2

    要说这select2,还真是我......,也不是难,反正就对不了!!! 我博客看了一下牛,愣是对不了,后来硬着头看着官方文档,终于出来了. 注意: 1.调用的jquery库一定要能用,网上很多不能用 ...

  2. 听说你想要部署 Octopress?满足你

    Octopress 是一个面向开发者的博客系统,广受程序员的喜爱.既然大家有需求,那么 Octopress 也要安排上~ 云开发(CloudBase)是一款云端一体化的产品方案 ,采用 serverl ...

  3. STC15W串口通信的一些梳理

    由于控制串口1进行通信移植到串口3出现了阻力,因此很有必要对串口通信进行更进一步的梳理>>>> 一 STC15W串口对应引脚: 由此我们得到四个串口引脚分别为:串口1:P3 . ...

  4. AJ学IOS(19)UI之QQ好友列表

    AJ分享,必须精品 先看效果图 哈哈,这次猫猫给来个动态的图片,这个看起来带劲 实现思路 首先建立模型 这里用到的是一个双层的模型. cell的实现 这里一看其实就知道是一个tableView,我们自 ...

  5. 第一章:shell脚本初入门

    1.shell脚本中的source或者.空格再加上文件,表示加载文件中的命令及语句(困惑多时终于解开^-^) 2.脚本开头书写好作者版本等信息,方便维护:流程语句提前把格式写好,防止遗漏 3.定义字符 ...

  6. 用一个完整的案例讲解Python数据分析的整个流程和基础知识

    先来想一下数据分析的流程,第一步获取数据,因此本节内容就是获取数据以及对数据的基本操作. 1.数据导入 1.1 导入.xlsx文件 要导入一个.xlsx后缀的Excel文件,可以使用pd.read_e ...

  7. 弹幕有点逗比,用 Python 爬下来看看《民国奇探》的弹幕

    电视剧<民国奇探>是一部充斥着逗比风的探案剧,剧中主要角色:三土.四爷.白小姐,三土这个角色类似于<名侦探柯南>中的柯南但带有搞笑属性,四爷则类似于毛利小五郎但有大哥范且武功高 ...

  8. Bug Bash in Personal Photo Experience 1/11/2016

    In the process of our Personal Photo Experience Project, There are some bugs which hinder our forwar ...

  9. Serval and Parenthesis Sequence CodeForces - 1153C

    题目大意:一个字符串只含有? ( ),?可以变成 ) 或者 ( ,将字符串中所有的?变成) 或者 ( 使得字符串合法. 合法就是让括号配对,并且不可以提前结束比如:()()这样是不合法的. 题解:既然 ...

  10. 排序算法代码实现-Java

    前言 为了准备面试,从2月开始将排序算法认认真真得刷了一遍,通过看书看视频,实践打代码,还有一部分的leetcode题,自己感觉也有点进步,将笔记记录总结发出来. 冒泡排序 该排序就是一种像泡泡浮到水 ...