[IR] Information Extraction
阶段性总结
Boolean retrieval
单词搜索
【Qword1 and Qword2】 O(x+y)
【Qword1 and Qword2】- 改进: Galloping Search O(2a*log2(b/a))
【Qword1 and not Qword2】 O(m*log2n)
【Qword1 or not Qword2】 O(m+n)
【Qword1 and Qword2 and Qword3 and ...】 O(Total_Length * log2k)
句子搜索
1. Biword Indexes
2. Positional Index --> Proximity Queries
Index Construction
构建过程中的Sort的探索:
- 基于块的排序索引方法
- 内存式单遍扫描索引构建方法
- 动态索引 - Dynamic Indexing
Compression
Heaps’ law: M = kTb
Zipf’s law: cfi = K/i
- 压缩Dictionary
- 压缩Posting list
思路:基本查询,构建,然后压缩
Tolerant Retrieval & Spelling Correction & Language Model
WILD-CARD QUERIES
- prefix
- suffix
- "mon*ing"
- “Permuterm vocabulary"
- K-gram indexes
Spelling Correction
(1) Error detection
(2) Error correction
Language Model
查询似然模型 --> 混合模型:Jelinek-Mercer method
求Query在Md 中出现的概率,然后Ranking.
Probabilistic Model
- 二值独立模型 - Binary Independence Model
针对一个Query,某Term是否该出现在文档中呢?
一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。
Link Analysis
In degree i 正比于 1/iα , 例如: α = 2.1
1. Number of In Degree.
2. "Flow" Model
- small graphs.
- large graphs. (Markov渐进性质)
- Spider traps
- Dead Ends
Ranking - top k
精确方式:
Consine Similarity: tf-idf
精确加速:
使用Quick Select:n + k * log(k) : "find top k" + "sort top k"
Threshold Methods - MaxScore Method
模糊加速:
Index Elimination (heuristic function)
3 of 4 query terms
Champion List
Cluster Pruning Method
Evaluation
无序检索结果的评价方法
有序检索结果的评价方法
大目标 --> 小目标
• Text Categorization:
– Classify an entire document
• Information Extraction (IE):
– Identify and classify small units within documents
- segmentation: 提取Term (NE) 语法
- classification: 认识Term (type, Chunking) 语义
- association: 聚类Term
• Named Entity Extraction (NE):
– A subset of IE
– Identify and classify proper names: "People, locations, organizations"

Main tasks
• Named Entity Recognition
• Relation Extraction
Pattern-based Relation Extraction
– Relation extraction and its difficulties
- – Use of POS Tags
- – Use of Constituent Parse
- – Use of Dependency Parse
1.

2.

3.

[IR] Information Extraction的更多相关文章
- HDU 4868 Information Extraction(2014 多校联合第一场 H)
看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...
- spatial-temporal information extraction典型方法总结
==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...
- [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.
1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...
- Maximum Entropy Markov Models for Information Extraction and Segmentation
1.The use of state-observation transition functions rather than the separate transition and observat ...
- 本人AI知识体系导航 - AI menu
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯 徐亦达老板 Dirichlet Process 学习 ...
- ACM会议列表与介绍(2014/05/06)
Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...
- ### Paper about Event Detection
Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...
- 机器学习经典书籍&论文
原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...
- KDD2015,Accepted Papers
Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...
随机推荐
- android: 播放视频
播放视频文件其实并不比播放音频文件复杂,主要是使用 VideoView 类来实现的.这个 类将视频的显示和控制集于一身,使得我们仅仅借助它就可以完成一个简易的视频播放器. VideoView 的用法和 ...
- Transistor 晶体管 场效应 双极型 达林顿 CMOS PMOS BJT FET
Transistor Tutorial Summary Transistor Tutorial Summary Bipolar Junction Transistor Tutorial We can ...
- CoreOS实践(2)—在coreos上安装Kubernetes
下载kubernetes sudo mkdir -p /opt/bin sudo wget https://storage.googleapis.com/kubernetes/binaries.tar ...
- 转connect() to unix:/var/run/php-fpm.sock failed (11: Resource temporarily unavailable)
网站常出现502 bad gateway,程序没有问题. 根据nginx日志:connect() to unix:/var/run/php-fpm.sock failed (11: Resource ...
- JavaScript学习汇总
对于JavaScript,还是无法割舍,有心无力,时间总是匆匆,暂且都放在这里吧 javascript中this的使用 写的很不错的一偏文章,简单看了下,mark了吧 原文:http://davids ...
- Scala 深入浅出实战经典 第66讲:Scala并发编程实战初体验
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- ViewPager中使用PhotoView时出现pointerIndex out of range异常
问题描述: 当PhotoView 和 ViewPager 组合时 ,用双指进行放大时 是没有问题的,但是用双指进行缩小的时候,程序就会崩掉,并且抛出java.lang.IllegalArgumentE ...
- MT写的对URL操作的两个方法
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- 百度地图API 关键字模糊搜索
http://api.map.baidu.com/place/v2/search?q=广场®ion=汕头&output=json&ak=5E56A48675a5cd09a ...
- Cocos2dx 把 glview 渲染到 Qt 控件上(Mac 环境)
本文原链接:http://www.cnblogs.com/zouzf/p/4423256.html 环境:Mac 10.9.2 Xcode5.1.1 Qt5.3 cocos2dx-2.2.4 ...