7. RECENCY-SENSITIVE RANKING

作用:

为recency-sensitive的query提高排序质量;

对于这类query,用户不仅要相关的还需要最新的信息;

方法:recency-demoted relevance

1) 对每篇doc,按照它的freshness程度进行分级:very fresh, fresh, slightly out-dated, stale, 和 non-time-sensitive(与时间无关);

2) 在base relevance的基础上,根据freshness进一步调整relevance:

  VF F SO S NT
Perfect Perfect Perfect Excellent Good Perfect
Excellent Perfect Excellent Good Fair Excellent
Good Good Good Fair Bad Good
Fair Fair Fair Bad Bad Fair
Bad Bad Bad Bad Bad Bad

3)数据:“收集training data”

  • 寻找大量的近期标签是不太可能的事情,因为近期的标签总是很快就out of data;
  • 因此需要利用a large relevance dataset without recency labels and a small recency dataset for building the recency ranker;

4)公式:(待添加)

备注:

  • 其中freshness组件是基于recency dataset训练得到的:通过time-sensitive classifier来决定此component是否要被添加;
  • frel(x)代表基本的ranker;rfresh(x)代表freshness组件;cts代表time-sensitivity分类器;
  • 仅当Cts表明x为time-sensitive query-url对时,rfresh(x)才被添加;

重点:time-sensitive classifier的训练;freshness component;

1) time-sensitive classifier

use the recency dataset and transform the freshness labels into binary labels (eg:non-time-sensitive to negative and other labels to positive) and train a binary classfier;

2)build rfresh(x)

use the frel(x) as the base ranker, and add more trees to optimize the goal of recency-demoted relevance;

8. LOCATION-SENSITIVE RANKING

location-sensitive query:

一些query的搜索结果与location关系密切,此类query我们称之为location-sensitive queries, 分为:

explicit local query - queries with specific location names(eg:"restaurants Boston");

implicit local query - queries without location but with location-sensitive intention(eg:"restaurant");

方法:通过query和url直接的距离d(query, url)来计算;

但如果使用过去的learning-to-rank模型的话,d(query, url)特征的影响不大,所以新建以下模型用来计算 -

模型:location boosting rankin model

1)分别从query和web page中提取出location:

  • explicit local query - directly parse the location in explicit local query;
  • implicit local query - use use's location;
  • web pages - extracted based on the query-url click graph from search logs,or parse the locations from urls directly;

2)根据各自的location,计算query和web page之间的距离:

公式(待加)

以上logistic function考虑到base relevance和location之间的距离两个因素:

  • 当doc的url地址和用户很接近,而且doc的内容也和query匹配时,对该doc进行提权操作;
  • 若doc的url地址和用户很接近,但是doc的内容与query不相关,将不对该doc提权,ranking结果此时仅有base ranking function决定;
  • 若doc的内容与query相关度很高,但doc的url地址与用户相隔很远,将不对该doc提权,ranking结果此时仅有base ranking function决定;

备注:

d^(query,url)代表d(query,url)的归一化,范围为[0,1];

fb(x)表示基于base ranking function得到的query和url的相关度;

3)参数的确定:

参数w, α, β通过以下公式由成对的数据确定 -

公式(待加)

备注:

其中P={(pi, pj)| pi > pj}是对于同一个query的一系列url pairs,pi > pj表示pi的相关性好于pj

我们通过standard gradient descent approach来得到参数的最优化结果;

9. CONCLUSION

In this paper, we introduce the comprehensive relevance solutions of Yahoo search.

【阅读笔记】Ranking Relevance in Yahoo Search (四 / 完结篇)—— recency-sensitive ranking的更多相关文章

  1. 【阅读笔记】Ranking Relevance in Yahoo Search (二)—— maching learned ranking

    3. MACHINE LEARNED RANKING 1) 完全使用不好的数据去训练模型不可行,因为负面结果不可能覆盖到所有方面: 2) 搜索可以看做是个二分问题,在此实验中,我们使用gradient ...

  2. 【阅读笔记】Ranking Relevance in Yahoo Search (一)—— introduction & background

    ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百 ...

  3. 【阅读笔记】Ranking Relevance in Yahoo Search (三)—— query rewriting

    5. QUERY REWRITING 作用: query rewriting is the task of altering a given query so that it will get bet ...

  4. Ranking relevance in yahoo search (2016)论文阅读

    文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技 ...

  5. 短信发送接口被恶意访问的网络攻击事件(四)完结篇--搭建WAF清理战场

    前言 短信发送接口被恶意访问的网络攻击事件(一)紧张的遭遇战险胜 短信发送接口被恶意访问的网络攻击事件(二)肉搏战-阻止恶意请求 短信发送接口被恶意访问的网络攻击事件(三)定位恶意IP的日志分析脚本 ...

  6. Hadoop阅读笔记(四)——一幅图看透MapReduce机制

    时至今日,已然看到第十章,似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁,想想后面还有一半的行程没走,我觉得这样“有口无心”的学习方式是不奏效的,或者是收效甚微的.如果有幸能有大牛路过, ...

  7. Mina源码阅读笔记(四)—Mina的连接IoConnector2

    接着Mina源码阅读笔记(四)-Mina的连接IoConnector1,,我们继续: AbstractIoAcceptor: 001 package org.apache.mina.core.rewr ...

  8. Kafka 权威指南阅读笔记(第三章,第四章)

    Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks ...

  9. C++ Primer 第四版阅读笔记

    阅读笔记 初始化 变量定义指定了变量的类型和标识符,也可以为对象提供初始值.定义时指定了初始值的对象被称为是 已初始化的.C++ 支持两种初始化变量的形式:复制初始化和 直接初始化.复制初始化语法用等 ...

随机推荐

  1. linux下shell脚本中sed命令的用法

    先来给一个案例: #将old.sql文件中的符号“|”替换为“,”,并保存到test.sql文件中 sed "s/|/,/g" "old.sql"> te ...

  2. CentOS之crontab

    1.crontab介绍 功能说明:设置计时器. 语 法:crontab [-u <用户名称>][配置文件] 或 crontab [-u <用户名称>][-elr] 补充说明:c ...

  3. c++ 启发式搜索解决八数码问题

    本文对八数码问题 启发式搜索 (C++)做了一点点修改 //fn=gn+hn #include<iostream> #include<queue> #include<st ...

  4. svg整体缩放至指定大小

    一.问题 svg画面跑在分辨率低的电脑上,导致不能完全显示. 二.要求 svg要能够根据电脑的屏幕大小自动缩放至适配电脑的尺寸. 三.实现 1.获取本机窗口高度.宽度 let clientWidth ...

  5. 数据挖掘入门系列教程(九)之基于sklearn的SVM使用

    目录 介绍 基于SVM对MINIST数据集进行分类 使用SVM SVM分析垃圾邮件 加载数据集 分词 构建词云 构建数据集 进行训练 交叉验证 炼丹术 总结 参考 介绍 在上一篇博客:数据挖掘入门系列 ...

  6. Nginx知多少系列之(七)负载均衡策略

    目录 1.前言 2.安装 3.配置文件详解 4.工作原理 5.Linux下托管.NET Core项目 6.Linux下.NET Core项目负载均衡 7.负载均衡策略 8.加权轮询(round rob ...

  7. kafka高吞吐量之消息压缩

    背景 保证kafka高吞吐量的另外一大利器就是消息压缩.就像上图中的压缩饼干. 压缩即空间换时间,通过空间的压缩带来速度的提升,即通过少量的cpu消耗来减少磁盘和网络传输的io. 消息压缩模型 消息格 ...

  8. vim的常用指令

    vim的常用指令如下: 光标运动: h,j , k, l (上/下/左/右) 删除字符: x 删除行 : dd 模式退出 : Esc,Insert(或者i) 退出编辑器 : q 强制退出不保存: q! ...

  9. 一个老牌程序员推荐的JavaScript的书籍,看了真的不后悔!

    很多人问我怎么学前端?我的回答是:读书吧!相对于在网上学习,在项目中学习和跟着有经验的同事学习,书中有着相对完整的知识体系,每读一本好书都会带来一次全面的提高.而如果深一脚浅一脚的学习,写出代码的质量 ...

  10. Jetson AGX Xavier更换apt-get源

    使用apt-get安装时,会很慢,更换了国内的源后,就可以解决这个问题了. 1. 备份sources.list文件 sudo cp /etc/apt/sources.list /etc/apt/sou ...