[IR] Evaluation
无序检索结果的评价方法:

Precision
P
=
tp/(tp
+
fp)
Recall
R
=
tp/(tp
+
fn)
Accuracy = (tp + tn) / ( tp + fp + fn + tn)

有序检索结果的评价方法:
A precison-recall curve

调式search engine目前只是针对一个Query的表现。
You need to average performance over a whole bunch of queries.
其实,就是在遵从precision降低,必然提高recall的原则下,画出趋势图。(也就是插值法 Interpolated Precision)

What is the interpolated precision of the system at 25% recall?
1.0, 0.67, 0.5, 0.4, 0.36, 0.36, 0.36

Mean average precision (MAP)
System: D1, D2, D4, D3
k = 1, R, 1/1
k = 2, NR, n/a
k = 3, NR, n/a
k = 4, R, 2/4
MAP = (1/1+2/4)/2 = 3/4
What is the largest possible mean average precision that this system could have?
If the last two relevant documents are in ranking 21 and 22. 尽量早出现
MAP = (1.0+1.0+0.33+0.36+0.33+0.3+0.33+0.36)/8 = 0.503
What is the smallest possible mean average precision that this system could have?
If the last two relevant documents are in ranking 9999 and 10000. 尽量晚出现
MAP = (1.0+1.0+0.33+0.36+0.33+0.3+0.0007+0.0008)/6 = 0.416
用已有的MAP去估计未来可能的MAP的error是多少?
MAP = (1.0 + 1.0 + 0.33 + 0.36 + 0.33 + 0.3)/6 = 0.555
The error could be 0.555 - (0.503 + 0.416)/2 = 0.095
Kappa Measure
P(A) = Accuracy
P(E) = [ (person1-yes + person2-yes)/(total*2) ]^2 + [ (person1-no + person2-no)/(total*2) ]
Kappa = [ P(A) – P(E) ] / [ 1 – P(E) ]
Kappa > 0.8 // good agreement
0.67 < Kappa < 0.8 // “tentative conclusions” (CarleSa ’96)
相关反馈:有点reinforcement learning的意思。


[IR] Evaluation的更多相关文章
- 数据挖掘方面重要会议的最佳paper集合
数据挖掘方面重要会议的最佳paper集合,兴许将陆续分析一下内容: 主要有KDD.SIGMOD.VLDB.ICML.SIGIR KDD (Data Mining) 2013 Simple and De ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- [笔记]RankSVM 和 IR SVM
之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...
- Learning to Rank算法介绍:RankSVM 和 IR SVM
之前的博客:http://www.cnblogs.com/bentuwuying/p/6681943.html中简单介绍了Learning to Rank的基本原理,也讲到了Learning to R ...
- Datasets and Evaluation Metrics used in Recommendation System
Movielens and Netflix remain the most-used datasets. Other datasets such as Amazon, Yelp and CiteUli ...
- Utility2:Appropriate Evaluation Policy
UCP收集所有Managed Instance的数据的机制,是通过启用各个Managed Instances上的Collection Set:Utility information(位于Managem ...
- SQL SERVER 2012 从Enterprise Evaluation Edtion 升级到 Standard Edtion SP1
案例背景:公司从意大利购买了一套中控系统,前期我也没有参与其中(包括安装.实施都是第三方),直到最近项目负责人告诉我:前期谈判以为是数据库的License费用包含在合同中,现在经过确认SQL Serv ...
- LLVM 笔记(五)—— LLVM IR
ilocker:关注 Android 安全(新手) QQ: 2597294287 LLVM 的 IR (Intermediate Representation) 是其设计中的最重要的部分.优化器在进行 ...
- word record about IR target detecting and tracking
1 is submerged in background clutter 淹没在背景杂波中 2 performe poorly for the dim small targets in sever c ...
随机推荐
- 负margin在布局中的运用
一.左右栏宽度固定,中间栏宽度自适应 <!DOCTYPE html> <html> <head lang="en"> <meta char ...
- 大家一起写mvc(三)_结束
上一篇介绍到要写mvc的所用的核心技术,这一篇我们就开始真正的开始写mvc,其实就是把昨天写过的代码进行一些组装就可以了. 我们用eclipse新建一个web项目.然后web.xml如下 <?x ...
- 微软BI 之SSIS 系列 - 利用 SSIS 模板快速开发 SSIS Package
开篇介绍 在做 ETL 项目的时候,往往很多 Package 的开发都是基于相同的模型和流程.比如在 Package 开始运行时需要向 Process Log 表中插入记录,在 Package 运行结 ...
- [推荐]DDOS攻击与防范知识介绍
[推荐]DDOS攻击与防范知识介绍 DDOS攻防体系建设v0.2(淘宝-林晓曦) http://wenku.baidu.com/view/39549a11a8114431b90dd866.ht ...
- C# 串口操作 ---- 系列文章
C# 串口操作系列(5)--通讯库雏形 通讯库雏形的建立. 串口通讯介绍的高级篇,介绍更高级的抽象,为扩展为通用的客户端通讯库做铺垫,扩展性的考虑,能支持任意类型的流设备. ... 2010-08-0 ...
- ASP.NET Web API模型验证以及异常处理方式
ASP.NET Web API的模型验证与ASP.NET MVC一样,都使用System.ComponentModel.DataAnnotations. 具体来说,比如有:[Required(Erro ...
- 磁盘阵列RAID原理、种类及性能优缺点对比
磁盘阵列(Redundant Arrays of Independent Disks,RAID) 1. 存储的数据一定分片: 2. 分基于软件的软RAID(如mdadm)和基于硬件的硬RAID(如RA ...
- std::bind和std::function
std::bind 用于绑定一个函数,返回另外一种调用方式的函数对象 ,可以改变参数顺序 和个数,特别是在多线程的程序中,经常用它将函数进行包装,然后打包发送给工作线程,让工作线程去执行我们的任务. ...
- 适合wordpress中文网站的seo优化插件 DX-Seo
DX-Seo是一款强大的多功能wordpress seo插件,主要功能及其使用方法如下 全局开关设置 启动插件后,进入"DX-Seo"栏目,你可以开启或者关闭其中的所有功能. 自动 ...
- android studio 翻译插件
插件下载地址 https://github.com/Skykai521/ECTranslation/releases 使用说明: http://gold.xitu.io/entry/573d8d92a ...