Information retrieval (IR class1)

1. 什么是IR？ IR与数据库的区别？

答：数据库是检索结构化的数据，例如关系数据库；而信息检索是检索非结构化/半结构化的数据，例如：一系列的文本。信息检索是属于NLP（自然语言处理）里面最实用的一个场景，应用之一。

2. 什么是term-document incidence matrix？

答：文档中，出现了某个词记做1，未出现记做0的矩阵。 e.g, 单词集合 W={w1, w2, w3, w4}，文章集合 D={d1, d2, d3, d4, d5}。 term-document incidence matrix 如下所示：

	d1	d2	d3	d4	d5
w1	0	1	1	1	1
w2	1	1	0	1	1
w3	1	0	1	1	1
w4	0	0	0	0	1

查询语句：w1 ∩ w2 ∩ w3 ∩ w4 (意思是：查找一篇文档，要求文档中出现了单词w1, w2, w3, w4)

答：做字节与运算：

　　　　　　　　01111

　　　　　　　 + 11011

　　　　　　　 + 101111

　　　　　　　 + 00001

--------

　　　　　　　 00001

　结果表示，只有文档d5符合条件。也就是只有d5中同时出现了w1～w4这四个单词。

3. 什么是 “inverted index” ？

由2可知，我们得到了term与documents的相关矩阵。但是存在的问题是： 1. 费空间 2. 稀疏矩阵 sparse matrix。

所以，我们需要用到inverted index。也就是以链表的形式，表示文档。

例如：

仍然用2中的例子：可以表示如下：

w1 ： 2 -〉3 -〉4 -〉5

w2: 1-〉2-〉4-〉5

w3： 1-〉3-〉4-〉5

w4： 5

可以使用链表linked list，也可以使用连续的list，continuous list. 前者访问快，后者省空间。具体权衡视情况而定。

此时，w_1 - w_n 称为“字典部分”（dictionary），而后面的索引的数字称为“posting”。每一个word都有一个“posting list”

4. 如何使用“inverted index”求 AND OR NOT运算

　答： w1 的inverted index 是：w1_postingList={ 1,2,3,4,10}

　　　　同理，　　　　　　　　 w2_postingList={1,2,5,6,8}

　　　　　　　　　　　　　　　w3_postingList={7,8}

　　w1 AND w2 OR w3 = w1_PL ∩ w2_PL ∪ w3_PL = {1,2,7,8}

5. inverted index 的构造流程

6. query optimization

1⃣️ 对于一个包含n的term的query， query q ： A AND B AND C

　　最优的策略是：按照升序的顺序

2⃣️ 同理，对于query q ： A OR B OR C

　　最有的策略是：按照升序的顺序

(参考：1. youtube的一个information retrieval course：https://www.youtube.com/watch?v=Hy78R3yuutg&list=PL0ZVw5-GryEkGAQT7lX7oIHqyDPeUyOMQ&index=4)

Information retrieval (IR class1)的更多相关文章

Information retrieval (IR class2)
1. 解析文档一般要分析哪些方面? - 首先分析文档的格式,是docx,html,xml,pdf... - 其次分析文档的语言,是英语,汉语,日语,德语... - 使用的什么字符集,ASCII编码, ...
Information retrieval信息检索
https://en.wikipedia.org/wiki/Information_retrieval 信息检索 (一种信息技术) 信息检索(Information Retrieval)是指信息按一定 ...
Deep Learning for Information Retrieval
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Dee ...
Information Retrieval 倒排索引学习笔记
一,问题描述在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia&quo ...
Information Retrieval
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用 ...
Music information retrieval
Music information retrieval - Wikipedia https://en.wikipedia.org/wiki/Music_information_retrieval Mu ...
Information Retrieval II
[Information Retrieval II] 搜索引擎分类: 1.目录式搜索引擎. 2.全文搜索引擎. 3.元搜索引擎(Meta-Search Engine). 搜索引擎的4个阶段:下载(cr ...
IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
https://arxiv.org/pdf/1705.10513.pdf 论文阅读笔记: https://www.cnblogs.com/liaohuiqiang/p/9694277.html htt ...
information retrieval (CMU 11642)
1. Heap's law. predict the number of new vocabulary. 参考:https://www.youtube.com/watch?v=JDp12gU-vEQ ...

随机推荐

欧几里得？x
可以去看dalao博客 orz 1.欧几里得算法带余除法定理:a,b∈Z,其中b>0,存在唯一q及r,使a=bq+r,其中0<=r<b; 辗转相除法(欧几里得算法)依据:(a,b) ...
qt5.6.1 +vs2015 自定义控件不在designer显示
qt designer 不显示自定义插件, qt5.6.1下在bin下点击designer.exe 打开qdesigner 点击帮助- 关于插件. 显示: 在vs2015 窗口中点击qt vs too ...
hdu6736（寻找最小环）
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=6736 题意: 在给定图中寻找所有最小环保证不存在一条边经过两个简单环数据范围: $1\leq n ...
JavaWeb_(Spring框架)Spring与JDBC
一.用Spring中的JdbcTemplate操作数据库在MySQL中准备一个user表,表中增加一条假数据用Spring中的JdbcTemplate操作数据库,在JdbcTemplate中实现增 ...
RuntimeException异常处理汇总
Java中所有异常的父类是Throwable类,在Throwable类下有两大子类: 一个是Error类,指系统错误异常,例如:VirtualMachineError 虚拟机错误,ThreadDeat ...
ICEM—非结构化周期网格
原视频下载地址:https://yunpan.cn/cPBnmsNheJ46q 访问密码 3441
jenkins创建工程
1.新建一个工程 2.添加工程名,点击创建一个自由分格的软件项目 3.配置源码管理 4.增加工程构建步骤,选中调用顶层maven目标
uiautomator2 wifi连接手机
[实施方法] 手机和电脑同时连接到同一个wifi上 1.开启远程adb #开启远端adb,这一步需要手机通过USB连接到电脑 adb tcpip 5555 #结果如下:restarting in TC ...
mysql —备份和恢复
备份的目的灾难恢复.硬件故障.软件故障.自然灾害.黑客攻击.误操作测试等数据丢失场景备份注意要点能容忍最多丢失多少数据恢复数据需要在多长时间内完成需要恢复哪些数据还原要点做还原测试,用 ...
如何构建自己的docker镜像
需求情况:springboot项目想要部署到docker里面,如何部署? 步骤如下: 1.将jar包上传linux服务器 /usr/local/dockerapp 目录,在jar包所在目录创建名为 D ...

Information retrieval (IR class1)

Information retrieval (IR class1)的更多相关文章

随机推荐

热门专题