【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background
ABSTRACT:
此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting;
此文内容基于拥有百亿url索引的yahoo搜素引擎;
Keywords:
learning to rank; query rewriting; semantic matching; deep learning;
1. INTRODUCTION
1)搜索相关性的发展:
- 早期 - concentrated on text matching between queries and web documents such as BM25, 概率模型,向量模型;
- 近期 - 根据用户行为改进搜索相关性,such as 点击模型;
2)目前搜索引擎面临的挑战促使我们寻找文本匹配和点击模型之外的解决方案:
- semantic gap - queries和网页文档之间的语义障碍;
- tail query - 搜索的query大部分为tail query,这类query的出现概率很低,对于搜索引擎来说完全是新词;
- Q&A systems - 用户习惯将搜索引擎看做Q&A系统;
3)在基础相关性上,相关性还包括temporal和spatial维度:
- temporal:一些query需要的是最新的信息;
- spatial:越来越多的query对地点需求强烈(旅馆等);
4)此文提出的解决方案包括:
- Designing a novel learning to rank algorithm for core ranking and a framework of contextual reranking algorithms;
- Developing semantic matching features including click similarity, deep semantic matching, and translated text matching;
- Building an innovative framework to understand user queries with query rewriting and its ranking strategy;
- Proposing solutions to recency sensitive ranking and location sensitive ranking;
2. BACKGROUND
2.1 Overview of Architecture
略(与国搜差不多)
2.2 Ranking Features
The ranking functions are built on top of these features (斜体国搜已使用):
- Web graph : the quality or the popularity of a document (eg:PageRank)
- Document statistics : some basic statistics of the document (such as the number of words in various fields)
- Document classifier : such as spam, adult, language, main topic...
- Query Features : which help in characterizing the query type (such as number of terms, frequency of the query and of its terms, click-through rate of the query)
- Text match : basic texting matching features are computed from different sections of the document (title, body, abstract, keywords) as well as from the anchor text and the URL
- Topical matching : go beyond similarity at the word level and compute similarity at the topic level;
- Click : try to incorporate user feedback
- Time : the freshness of a page
2.3 Evaluation of Search Relevance
1)评估搜索引擎结果的方法有多种,其中包括human labeling(eg:根据专业编辑的判断)、用户行为度量(eg:点击率,query重写率,停留时间等);
2)此文章中为评估base relevance,将采用第一种方法:professional editor's judgement:
对于每个query-url对,分为5个等级:Perfect, Excellent, Good, Fair, Bad;
使用DCG公式度量搜索相关性:(公式待插入)
(for a ranked list of N documents, G represents the weight assigned to the label of the document at position i)
注:DCG公式仅仅在编辑人员对相关性评估相当靠谱的情况下方才使用;
3)此文章中对即将评估的query按照其出现频率分为三个等级:
top query - 有很强辨识性的query,很容易被检索到;
torso query - 信息有限,此类query一年只会被检索几次;
tail query - 一年被检索少于一次的query
=》本论文的重点在于搜索torso query和tail query;
【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background的更多相关文章
- 【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:rece ...
- 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting
5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...
- 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking
3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...
- Ranking relevance in yahoo search (2016)论文阅读
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技 ...
- Mongodb Manual阅读笔记:CH7 索引
7索引 Mongodb Manual阅读笔记:CH2 Mongodb CRUD 操作Mongodb Manual阅读笔记:CH3 数据模型(Data Models)Mongodb Manual阅读笔记 ...
- JavaScript高级程序设计 - 阅读笔记
[本博客为原创:http://www.cnblogs.com/HeavenBin/] 前言: 大致花费了一个星期的时间把这本书认真看了半本,下面是我做的阅读笔记,希望能够让看这本书的人有个大致的参考. ...
- Js引擎解析执行 阅读笔记
Js引擎解析执行 阅读笔记 一篇阅读笔记 http://km.oa.com/group/2178/articles/show/145691?kmref=search&from_page=1&a ...
- 关于 AlphaGo 论文的阅读笔记
这是Deepmind 公司在2016年1月28日Nature 杂志发表论文 <Mastering the game of Go with deep neural networks and tre ...
- [论文阅读笔记] LouvainNE Hierarchical Louvain Method for High Quality and Scalable Network Embedding
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 ...
随机推荐
- 创建堆(python)
创建最大(小)堆 二叉堆本质上是一种完全二叉树,存储方式并不是链式存储,而是顺序存储 堆操作:插入(叶子节点上调),删除(堆顶元素下沉) 堆创建:非叶子节点下沉(从最后一个非叶子节点开始) 最小堆: ...
- "文本加粗"组件:<b> —— 快应用组件库H-UI
 <import name="b" src="../Common/ui/h-ui/text/c_tag_b"></import> &l ...
- Git应用详解第七讲:Git refspec与远程分支的重要操作
前言 前情提要:Git应用详解第六讲:Git协作与Git pull常见问题 这一节来介绍本地仓库与远程仓库的分支映射关系:git refspec.彻底弄清楚本地仓库到底是如何与远程仓库进行联系的. 一 ...
- 如何提高你使用windows的逼格(windows用成Linux的赶脚)
一.准备工作 作为一个整洁而有内涵的人,电脑桌面一定要清洁 二.桌面整洁了,软件怎么打开呢? 方案一 方案二.敲重点 我们可以使用终端指令打开windows安装的任意软件: 打开Windo ...
- SPFA()判环
1 SPFA()判负环 SPFA()判负环的原理就是在求最短路的过程中,如果存在负环,比如说要求从A到a的最短距离,设为s,但是经过a->c->b->a可以更短,所以如果一直经过a- ...
- I NEED A OFFER! HDU - 1203
概率+0 1背包 要算成功的最大概率,那就是失败的最小概率,所以01背包直接让失败的概率最小就行了. 注意: 概率与概率之间是要相乘的,不是相加. #include<bits/stdc++.h& ...
- C. 无穷的小数
单点时限: 1.0 sec 内存限制: 512 MB 在十进制下,我们能够很轻易地判断一个小数的位数是有穷的或无穷的,但是把这个小数用二进制表示出的情况下其有穷性和无穷性就会发生改变,比如 十进制下的 ...
- string 中的getline
1 getline 读入string库中的字符串 string a; getline(cin,a); 这样的读入要比任何一种读入字符串都有要快 2 char a[N]; cin.getline(a, ...
- vue2.x学习笔记(二十)
接着前面的内容:https://www.cnblogs.com/yanggb/p/12631279.html. 循环引用 递归组件 组件是可以在它们自己的模板中调用自身的,不过它们只能通过[name] ...
- 【翻译】借助 NeoCPU 在 CPU 上进行 CNN 模型推理优化
本文翻译自 Yizhi Liu, Yao Wang, Ruofei Yu.. 的 "Optimizing CNN Model Inference on CPUs" 原文链接: h ...