Information retrieval (IR class2)

1. 解析文档一般要分析哪些方面？

　 - 首先分析文档的格式，是docx，html，xml，pdf...

　 - 其次分析文档的语言，是英语，汉语，日语，德语...

　 - 使用的什么字符集，ASCII编码，或者是UFT-8，或者....

2. 什么是Tokenization Process？

　　对于汉字，需要“分词”，比如把：“我们” -> “我” “们”

　　而英文中，这个操作很简单，仅仅是空格而已：we are student -> "we" "are" "student". 然而，有时也会出现问题，比如“don't" 该如何分词？？

3. 什么是stopword？

　　英文里，常出现的词语，类似 you, I, and, a, 之类的

4. 什么是Normalization ？　　

　　把所有词还原成一种形式。包括 stemming 和 lemmatization 。

　　stemming（词干）：去掉后缀（suffix），例如，police , policy , police 可以变成同一个 stem : polic

　　lemmatization（此行还原）例如，复数 -> 单数，动词过去式/单三式 -> 原形之类的。

5. Porter's algorithm ?

　　用来还原词干的一个算法，一个经典的规则：

　　　　- sses -> ss

　　　　 - ies -> i

　　　　 - ational -> ate

　　　　 - tional -> tion　

其实，正规化有很多方法，也有很多标准，stemming和 lemmatization也有很多不同的实现方法与规则。

6. 如何加速posting list的查找？

　　 skip pointer ，工作机制不太明白，继续学习中

8. 遇到词组的情况怎么解决？

　　答：目前主要有三种解决方法： 1⃣️二词法：就是把两个字组合作为一个词，例如，stanford university作为一个词，进行inverted index。如果是多个词的词组，就用AND连接biword。问题：列出所有的两分词，不太可能，耗费的存储空间太大。空间复杂度太高

　　　　　　　　　　　　　　　　2⃣️位置索引法：在inverted index的基础上，不仅记录文档，还另外记录该词出现在文档中的哪个位置。然后将starnford和university进行AND操作后，对比出现在同一个文档中的位置，是否相邻，如果是，则判断1，反之为0。缺点是匹配耗费的时间太多，时间复杂度太高

　　　　　　　　　　　　　　　　3⃣️ 二分-位置索引法：将两种方法结合起来。没有细究。

9. 遇到通配符(wild-card queries)的情况怎么解决？

　　　比如：用户想要输入 rotate，但是不知道怎么拼写，就输入了 rote* 或者 *tate

　　　三种方法：1⃣️。使用树的方法：对于后面省略的，使用B+树的查找，匹配后缀。对于前面省略的，使用树的翻顺序，匹配前缀

　　　　　　　　2⃣️。使用permuterm index(我称之为排列索引): 例子详见参考：https://people.eng.unimelb.edu.au/tcohn/comp90042/l3.pdf

　　　　　　　　　例如 ro*te -> te $ ro : $ 意思是以ro为开头，以te为结尾

　　　　　　　 3⃣️。使用n-gram index .

10. 什么是 POST （part of speech tage）

　　翻译成中文，简单来说就是，词性/词类标注。

　　例如， I played basketball in the park.

　　　　　noun : basketball, park.

　　　　 verb : play

在nlp处理时， I ， in， the 都可以直接归类于 “stop word”里面。

　以及，为了方便大家记住常用的英文缩写，我把参考链接粘贴到这里（参考: https://zhidao.baidu.com/question/170228690）。

　　　　Abbr (abbreviation) : 省略语

　　　　ie (which is to say) ：即

　　　　etc

　　　　prep 介词

　　　　conj 连接词

11. 另外，对于POST，有很多专业术语，可以参考https://cs.nyu.edu/grishman/jet/guide/PennPOS.html

CC(coordinating conjunction ): 衔接连词

　　 CD（cardinal number）：基数词

　　 PRP （personal pronoun）：代词

　　 VBZ（Verb，3drperson singular present）：动词单三式

　　 NNS （noun，plural）：名词复数

　　 IN （prepostion or subordinating conjunction）：介词或从属连词

　　 DT（determiner）：限定词

　　 NN（noun，singular or mass）：名词单数

Information retrieval (IR class2)的更多相关文章

Information retrieval (IR class1)
1. 什么是IR? IR与数据库的区别? 答:数据库是检索结构化的数据,例如关系数据库:而信息检索是检索非结构化/半结构化的数据,例如:一系列的文本.信息检索是属于NLP(自然语言处理)里面最实用的一 ...
Information retrieval信息检索
https://en.wikipedia.org/wiki/Information_retrieval 信息检索 (一种信息技术) 信息检索(Information Retrieval)是指信息按一定 ...
Deep Learning for Information Retrieval
最近关注了一些Deep Learning在Information Retrieval领域的应用,得益于Deep Model在对文本的表达上展现的优势(比如RNN和CNN),我相信在IR的领域引入Dee ...
Information Retrieval 倒排索引学习笔记
一,问题描述在Shakespeare文集(有很多文档Document)中,寻找哪个文档包含了单词“Brutus”和"Caesar",且不包含"Calpurnia&quo ...
Information Retrieval
[Information Retrieval] 1.信息检索/获取(Information Retrieval,简称IR) 是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用 ...
Music information retrieval
Music information retrieval - Wikipedia https://en.wikipedia.org/wiki/Music_information_retrieval Mu ...
Information Retrieval II
[Information Retrieval II] 搜索引擎分类: 1.目录式搜索引擎. 2.全文搜索引擎. 3.元搜索引擎(Meta-Search Engine). 搜索引擎的4个阶段:下载(cr ...
IRGAN：A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models
https://arxiv.org/pdf/1705.10513.pdf 论文阅读笔记: https://www.cnblogs.com/liaohuiqiang/p/9694277.html htt ...
information retrieval (CMU 11642)
1. Heap's law. predict the number of new vocabulary. 参考:https://www.youtube.com/watch?v=JDp12gU-vEQ ...

随机推荐

jQuery相关方法6----三大系列属性
一.获取和设置元素的宽和高------width( )方法和height()方法  <script src="ht ...
LibreOJ #6165. 一道水题
二次联通门 : LibreOJ #6165. 一道水题 /* LibreOJ #6165. 一道水题欧拉线性筛其实题意就是求区间[1, n]所有数的最小公倍数那么答案就是所有质因子最大幂次的乘积 ...
PHP 多维数组根据字段排序
这个太常用了,记录下.方便后面用 /** * @param $arr [要排序的数组] * @param $condition [要排序的条件, for array('id'=>SORT_DES ...
1820：【00NOIP提高组】进制转换
#include<bits/stdc++.h>//十分简单(滑稽)的一道模拟题 using namespace std; ]={'A','B','C','D','E','F','G','H ...
下载MAMP
下载https://www.mamp.info/en/downloads/ MAMP PRO will create copies of the MySQL databases located in ...
vue日常学习
1.$refs可以用来进行父子级间通信.ref被用于作为子组件的索引ID,用以方便的在js中直接访问子组件.用法如下parent.$refs.idname 使用方法: 在父级元素上加上ref属性 &l ...
MapReduce 基本优化相关参数
MapReduce优化优化(1)资源相关参数:以下参数是在自己的 MapReduce 应用程序中配置就可以生效 mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上 ...
运维管理SLA
主要三个概念: SLI 服务关键量化指标,即测试哪些指标,如何测等 SLO :服务等级目标,即要达到哪些目标,如设备正常率3个9.4个9等,即99.9% SLA: 服务等级协议,即如果未完成SLO中 ...
QQ 为什么以 UDP 协议为主，以 TCP 协议为辅？
QQ既有UDP也有TCP!不管UDP还是TCP,最终登陆成功之后,QQ都会有一个TCP连接来保持在线状态.这个TCP连接的远程端口一般是80,采用UDP方式登陆的时候,端口是8000. UDP协议是无 ...
GDB使用——pwn相关
目录寄存器内存 peda插件命令 x命令详解后续补充内容来源寄存器 1.查看寄存器 2.查看所有寄存器 3.查看某个寄存器 4.修改寄存器的值内存 1.修改内存值 2.搜索内存 peda插 ...

Information retrieval (IR class2)

Information retrieval (IR class2)的更多相关文章

随机推荐

热门专题