trec 2019 fair ranking track


    最近实验室要求参加trec 2019新出的track:fair ranking track。这里整理一下该任务的思想和要求。这次track主要为学术论文数据的排序。

1 Protocol

    会给定一个query集合Q,其中$q\in Q$。对于每个请求,会有一个query q和一个文档集合$D_q$。你需要做的就是根据q来重排序(rerank)$D_q$,重排序结果是$\pi$。最后把每一个请求都处理完返回$\pi$的集合的$\Pi$。过程如下:

Algorithm 1 Evaluation protocol


$\Pi$←{}
for q,$D_q\in Q$ do
$\pi$←SYSTEM(q,$D_q$)
$\Pi$←$\Pi+[\pi]$
end for
return $\Pi$


2 Evaluation

    衡量指标主要分为两部分,相关性(revelance)和公平性(fairness)。
    所谓相关性就是document和query的相关性,公平性主要为Author Exposure即论文作者的曝光度。
    先介绍如何衡量作者的曝光度:

2.1 Measuring Fairness

2.1.1 Measuring Author Exposure for a Single Ranking

    先为单个请求的重排序结果$\pi$计算作者的曝光度,某个作者a,在结果$\pi$的曝光度计算如下:

$$e_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]I(\pi_i\in D_a)$$

    其中$\gamma$是一个给定的常数,$\gamma^{i-1}$用于表示排序后的document从上到下逐渐衰减的重要程度。$p(s|\pi_j)$表示用户看到排序的第j篇文档停下来的概率,该track假设用户停止的概率$p(s|\pi_j)$=$f(r_d)$,$f(r_d)$是用户被满足的概率,$r_d$是document和query的相关程度,f是一个单调函数。这代表着,document与query相关度越高,用户越容易被满足,所以停下来不再阅读。
    $I(\pi_i\in D_a)$是指示函数,当第i篇文档属于作者a,该函数值为1,否则为0。$e^\pi_a$是排序$\pi$中作者a的曝光度(exposure)。
    那么在所有结果中,作者a的曝光度如下:

$$e_a=\sum_{\pi\in \Pi}e^\pi_a$$

2.1.2 Measuring Author Relevance for a Single Ranking

    上一节是衡量对于作者的曝光度,这一节主要考虑作者的相关性。什么叫作者的相关性呢,它是衡量作者论文在排序中的相关性之和,也就是对作者论文重要性的考量。

$$r^\pi_a=\sum_{d\in D_a}p(s|d)$$

    $r_a^\pi$是排序$\pi$中作者a所有文章相关性的求和。

2.1.3 Measuring Group Fairness

    上面给出了单个作者的exposure和relevance,每个作者都有从属于的group,按group累加作者的fairness以及relevance就能分别得到group的exposure和relevance。

$$\epsilon_g=\frac{\sum_{a\in A_g}e_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}e_a}$$

$$R_g=\frac{\sum_{a\in A_g}r_a}{\sum_{g'\in G}\sum_{a\in A_{g'}}r_a}$$

    所谓公平,就是让不同group的$\epsilon_g$和$R_g$差距尽可能一致。

$$\Delta_g=|\epsilon_g-R_g|$$

   最后对所有group求一个Gini coefficient

$\Delta=\frac{\sum_{g,g'\in G}|\Delta_g-\Delta_{g'}|}{2|G|\sum_{g\in G}\Delta_g}$

2.2 Measuring Relevance

  前面按group计算了exposure,这一节给出相关性$u_a^\pi$的计算。和$e_a^\pi$的公式几乎一样,就是把指示函数换成$p(s|\pi_i)$。

$$u_a^\pi=\sum^n_{i=1}[\gamma^{i-1}\Pi^{i-1}_{j=1}(1-p(s|\pi_j))]p(s|\pi_i)$$

$$U=\frac{1}{\Pi}\sum_{\pi\in \Pi}u^\pi$$

2.3 Trading Off Fairness and Relevance

    按作者给的文档原话说,理论上fairness和relevance能够达到最优,但是实际操作上,可能往往提高fairness会降低relevance。所以最终要按一定比例寻求一个平衡。

trec 2019 fair ranking track的更多相关文章

  1. China International Industry Fair 2019

    Today i visit the CIIF 2019, as a "professional visitor"  since i have made an appointment ...

  2. 2019.02.14 codechef Chef at the Food Fair(线段树+泰勒展开)

    传送门 题意:现在有nnn个位置,每个位置上有一个值aia_iai​. 要求支持如下两种操作: 区间乘vvv 求区间的(1−ai)(1-a_i)(1−ai​)之积 思路: 考虑转换式子: Ans=∏i ...

  3. COSC2309/2347 Semester 1, 2019

    Mobile Application DevelopmentCOSC2309/2347 Semester 1, 2019Movie Night PlannerAssignment 1 (20 mark ...

  4. Fair Scheduler中的Delay Schedule分析

    延迟调度的主要目的是提高数据本地性(data locality),减少数据在网络中的传输.对于那些输入数据不在本地的MapTask,调度器将会延迟调度他们,而把slot分配给那些具备本地性的MapTa ...

  5. Making every developer more productive with Visual Studio 2019

    Today, in the Microsoft Connect(); 2018 keynote, Scott Guthrie announced the availability of Visual ...

  6. Ultimate Facebook Messenger for Business Guide (Feb 2019)

    Ultimate Facebook Messenger for Business Guide (Updated: Feb 2019) By Iaroslav Kudritskiy November 2 ...

  7. CSc 352 (Spring 2019): Assignment

    CSc 352 (Spring 2019): Assignment 11Due Date: 11:59PM Wed, May 1The purpose of this assignment is to ...

  8. 2019 AI CITY CHALLENGE

    官网:    https://www.aicitychallenge.org/ 基于来自交通,信号系统,基础设施和运输的传感器数据,存在使运输系统更智能的巨大机会.不幸的是,由于几个原因,进展受到限制 ...

  9. 12 Best Live Chat Software for Small Business Compared (2019) 最佳的wordpress在线聊天工具推荐插件 来帮你和潜在客户互动

    12 Best Live Chat Software for Small Business Compared (2019)     Did you know that more than 67% of ...

随机推荐

  1. 第三章.定制专属的kali

    1.更新升级 • apt-get update • apt-get upgrade • apt-get dis-upgrade   2.根据个人喜好需求安装软件包 • 库 • Apt-get命令 • ...

  2. py+selenium IE 用driver.close()却把两个窗口都关了【已解决】

    环境:py3  selenium  unittest 测试浏览器:IE10 目标:在单个文件中,有多个用例,执行完A用例,由于打开了新的窗口,必须关闭新的窗口,才不会影响下一条用例的执行. 问题:按例 ...

  3. app组件跳转到页面

    这段时间根据项目需求,开发一个app的一个页面,这里用到了从组件跳转到index文件下的.vue页面.第一次接触,参考了同事的文档,写出来了,这里记录一下. 文档链接: https://www.yuq ...

  4. Oracle 开发使用笔记一

    1 前段时间换了新公司,工作一直很忙,没什么时间做总结! 关于几个知识点简单做下总结: 1绑定变量的使用: 1)使用几次,在后面的using中要声明几次,使用的顺序要对应声明的顺序 2 存储过程中执行 ...

  5. C#3.0新增功能10 表达式树 07 翻译(转换)表达式

    连载目录    [已更新最新开发文章,点击查看详细] 本篇将介绍如何访问表达式树中的每个节点,同时生成该表达式树的已修改副本. 以下是在两个重要方案中将使用的技巧. 第一种是了解表达式树表示的算法,以 ...

  6. python课堂整理11---函数即变量

    一.前向引用 函数即是变量,在调用前要先定义好. def bar(): print('from bar') def foo(): print('from foo') bar() foo() def f ...

  7. VisualStudio中的单元测试

    1. VisualStuio中的测试资源管理器.CodeLens和ReSharper 上一篇文章重温了<单元测试的艺术>里提到的单元测试的技术及原则.这篇文章实践使用VisualStudi ...

  8. Web前端三大框架_angular.js 6.0(二)

    Web前端三大框架_angular.js 6.0(一) 需要视频教程,看头像昵称处 一.Angular 6.0  1.1样式 html中引入样式:内嵌式,外链式,行内式. ng6中组件引入样式的方式也 ...

  9. Ubuntu下Mongo的安装和笔记

    在linux下的安装 打开https://www.mongodb.com/download-center#community选择linux然后选择自己的Version复制DOWNLOAD旁边的链接 打 ...

  10. http协议(一):http协议基础知识

    1    协议类型 l  HTTP  超文本传输协议 通过浏览器和服务器进行数据交互,进行超文本(文本.图片.视频等)传输的规定 l  HTTPS 安全超文本传输协议 l  FTP 文本传输协议 l  ...