阶段性总结

Boolean retrieval

单词搜索

【Qword1 and Qword2】               O(x+y)

【Qword1 and Qword2】- 改进: Galloping Search   O(2a*log2(b/a))

【Qword1 and not Qword2】        O(m*log2n) 

【Qword1 or not Qword2】           O(m+n)

【Qword1 and Qword2 and Qword3 and ...】     O(Total_Length * log2k)

句子搜索

1. Biword Indexes

2. Positional Index --> Proximity Queries

Index Construction

构建过程中的Sort的探索:

  1. 基于块的排序索引方法
  2. 内存式单遍扫描索引构建方法
  3. 动态索引 - Dynamic Indexing

Compression

Heaps’ law: M = kTb

Zipf’s law: cfi = K/i

  • 压缩Dictionary 
  • 压缩Posting list

思路:基本查询,构建,然后压缩

Tolerant Retrieval & Spelling Correction & Language Model

WILD-CARD QUERIES

  • prefix 
  • suffix
  • "mon*ing"
  • “Permuterm vocabulary"
  • K-gram indexes

Spelling Correction

(1) Error detection

(2) Error correction

Language Model

查询似然模型 --> 混合模型:Jelinek-Mercer method

求Query在Md 中出现的概率,然后Ranking.

Probabilistic Model

  • 二值独立模型 - Binary Independence Model

针对一个Query,某Term是否该出现在文档中呢?

一篇New doc出现,遂统计every Term与该doc的关系,得到Ci。

Link Analysis

In degree i 正比于 1/iα ,  例如: α = 2.1

1. Number of In Degree.

2. "Flow" Model

    • small graphs.
    • large graphs. (Markov渐进性质)
      • Spider traps
      • Dead Ends

Ranking - top k

精确方式:

Consine Similarity: tf-idf

精确加速:

使用Quick Select:n + k * log(k) : "find top k" + "sort top k"

Threshold Methods - MaxScore Method

模糊加速:

Index Elimination (heuristic function)

3 of 4 query terms

Champion List

Cluster Pruning Method

  

Evaluation

无序检索结果的评价方法
有序检索结果的评价方法


大目标 --> 小目标

• Text Categorization:
  – Classify an entire document

• Information Extraction (IE):
  – Identify and classify small units within documents

  1. segmentation: 提取Term (NE) 语法
  2. classification: 认识Term (type, Chunking) 语义
  3. association: 聚类Term

Named Entity Extraction (NE):
  – A subset of IE
  – Identify and classify proper names: "People, locations, organizations"


Main tasks
Named Entity Recognition
• Relation Extraction

Pattern-based Relation Extraction

– Relation extraction and its difficulties

  1. – Use of POS Tags
  2. – Use of Constituent Parse
  3. – Use of Dependency Parse

1.

2.

3.

[IR] Information Extraction的更多相关文章

  1. HDU 4868 Information Extraction(2014 多校联合第一场 H)

    看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...

  2. spatial-temporal information extraction典型方法总结

    ==================================== 咳咳咳 由于科研的直接对象就是video sequence,所以,如何更好地提取spatial-temporal inform ...

  3. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

  4. Maximum Entropy Markov Models for Information Extraction and Segmentation

    1.The use of state-observation transition functions rather than the separate transition and observat ...

  5. 本人AI知识体系导航 - AI menu

    Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习 ...

  6. ACM会议列表与介绍(2014/05/06)

    Conferences ACM SEACM Southeast Regional Conference ACM Southeast Regional Conference the oldest, co ...

  7. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  8. 机器学习经典书籍&论文

    原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...

  9. KDD2015,Accepted Papers

    Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Lev ...

随机推荐

  1. 《Windows核心编程》学习笔记(9)– 在win7或者vista系统下提升一个进程的运行权限

    win7或者vista默认运行程序是在受限制的环境下运行的,以减轻病毒对于系统的破坏.那么我们怎样才能提升一个进程的权限以至让它在 管理员模式下运行.当然CreateProcess函数没有提供这个功能 ...

  2. GO語言基礎教程:序章

    首先自我介紹一下我自己,我是一個coder,目前主要從事B/S程序開發工作,懂點PHP;ASP;JSP;JS;VB;C;DELPHI;JAVA,另外知道幾個數據庫,除此之外別無所長,那麼我為何會選擇學 ...

  3. LPC43xx SGPIO Pattern Match Mode

    模式匹配 所有位串均具有模式匹配功能. 该功能可用于检测启动代码等.要使用该功能,则必须用需匹配的模式来对REG_SS 编程 (请注意, POS 达到零时 REG_SS 不会与 REG  交换!) M ...

  4. Jquery easyui开启行编辑模式增删改操作

    Jquery easyui开启行编辑模式增删改操作 Jquery easyui开启行编辑模式增删改操作先上图 Html代码: <table id="dd"> </ ...

  5. HBase、Redis、MongoDB、Couchbase、LevelDB主流 NoSQL 数据库的对比

    最近小组准备启动一个 node 开源项目,从前端亲和力.大数据下的IO性能.可扩展性几点入手挑选了 NoSql 数据库,但具体使用哪一款产品还需要做一次选型. 我们最终把选项范围缩窄在 HBase.R ...

  6. css强制换行和超出隐藏实现

        一.强制换行1 word-break: break-all; 只对英文起作用,以字母作为换行依据. 2 word-wrap: break-word; 只对英文起作用,以单词作为换行依据. 3 ...

  7. Centos 7防火墙firewalld开放80端口

    开启80端口 1.firewall-cmd --zone=public --add-port=80/tcp --permanent  出现success表明添加成功 命令含义: --zone #作用域 ...

  8. BSTestRunner——一个丑在路上的python unnitest HTML报告生成Runner

    今天忽然看到HTMLTestRunner的样式,第一眼的感觉是样式有点过时了,稍微看了下源码,果然最后更新时间是几年前,由于实现比较简单,所以顺手将样式改一下. 效果图 设计思想 既然有UI,那么如果 ...

  9. PL-SQL 存储函数和存储过程

     PL-SQL 存储函数和存储过程 ORACLE 提供能够把PL/SQL 程序存储在数据库中,并能够在不论什么地方来执行它.这样就叫存储过程或函数. 过程和函数统称为PL/SQL子程序.他们是被命 ...

  10. MyEclipse设置编码方式

    1.windows->Preferences……打开"首选项"对话框,左侧导航树,导航到general->Workspace, 右侧Text file encoding ...