介绍

Indri和Terrier都是开源的搜索引擎，当中Indri作为Lemur项目的一个重要部分，具有强大的查询接口，易建索引，可扩展，高效率等长处。能够在SourceForge Lemur Project Page中下载。Terrier也是IR领域很有影响力的开源搜索引擎，Terrier是Glasgow大学用Java语言编写的，具有高效灵活及易于部署等特点，眼下最新的版本号为Terrier
4.0。可在Terrier官网下载。

不管Indri还是Terrier整个过程，须要先建立索引，然后依据自己定义的query phrases（查询短语。当然也能够是句子），在已建立的索引上查询，并返回一个结果。类似例如以下（后面会详细解说每一列的含义）：

两个搜索引擎的使用关键在于它们的配置文件，接下来解说怎样配置

文本格式

<DOC>

<DOCNO>2011-12-05-20_1323118648-7cfd066125ff1daf479748f81346895d</DOCNO>

<date>12/05/2011 (MM/DD/YYYY)</date>

<SOURCE>arxiv</SOURCE>

<TEXT> S and Î› production in pp interactions at âˆšs = 0.9 and 7 TeV measured with the....</TEXT>

</DOC>

1、Indri

Indri建索引

<parameters>

<memory>16G<memory>

<index>path/to/index</index> //建完索引后，这些索引结果文件存放的位置，如/home/tempUser/myindex

<stemmer>

<name>krovetz</name> //词干化工具，也即分词，这个是默认的，能够选择其它的

</stemmer>

<corpus>

<path>path/to/original/file/directory</path> //原始须要建立索引的文件文件夹

<class>trectext</class>  //须要建立什么格式的索引，有xml, txt, trectext, web

</corpus>

<field>

<name>DOCNO</name>  //文本ID号

</field>

<field>        //假设须要用到时间信息，需加此field。

<name>date</name>

<numeric>true</numeric>

<parserName>DateFieldAnnotator</parserName>

</field>

</parameters>

Indri查询

配置文件

<span style="font-size:14px;"><parameters>

<index>path1/to/index</index>

<index>path2/to/index</index>

<rule>method:dirichlet,mu:1000</rule>  //内置方法，用狄利克雷，參数值1000

<count>1000</count> //每一个查询值返回1000条记录，能够自己设置

<query> //第一个查询

<number>001</number>  //编号自定义

//假设文本的公布日期在两个时间段之间的，则在其文本中查询“Abbotsford Arts Centre”，依据其内置算法。计算query phrases与文本的相关度值

<text>#scoreif(#datebetween(10/05/2011 01/26/2012) #1(Abbotsford Arts Centre))</text>

</query>

<query> //第二个查询

<number>003</number>

<text>#scoreif(#datebetween(10/05/2011 08/08/2012) #1(Andy Billig))</text>

</query>

<trecFormat>true</trecFormat>

<queryOffset>1</queryOffset>

<runID>query_id</runID>  //自定义queryID

</parameters></span>

Indri查询语言

1、Combining Beliefs

#combine,#weight, #not, #max, #or, #band(boolean and)

#wsum, #wand(weighted and)

#weight( 1 #1(Abbotsford Arts Centre) 0.5 #1(office) 0.5 #1(band))

2、Filter Operators

scoreif(#datebetween(10/05/2011 01/26/2012) #1(Abbotsford Arts Centre))

3、Numeric Field Operator

#less( F N ) matches numeric field extents of type Fif value < N

#greater( F N ), #between(F N_low N_high ) , #equals(F N )

4、Date Field Operator

#dateafter( D ),

#datebefore( D ),

#datebetween( D_low D_high ),

#dateequals( D )

查询结果文件：

当中：

第一列：表示第003query

第二列：不用理会

第三列：DOCNO

第四列：排名

第五列：详细排序值

第六列：query_id

2、Terrier

Terrier是还有一个开源的搜索引擎，能够从官网下载terrier-4.0，下载terrier-4.0.gz后。

解压：tar -xvzf terrier-4.0.gz

得到例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd3pnYW5nMTIz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

（Terrier是用java开发的，能够去上面图片的src文件夹下查看源代码）

以下分别说说这些文件夹都是些什么:

bin: 在建索引，检索的时候要用到，在linux系统下用.sh，在windows下用相应的.bat

doc：一些帮助文档集

etc: 存放建立索引和检索时的配置文件

lib：包括terrier能执行所依赖的jar包，如terrier-4.0-core.jar，junit-4.8.1.jar等

licenses: 包括各种依赖包的licenses

src: 搜索引擎源代码

var: 默认的索引。检索结果的存放位置（你能够通过改动etc文件夹下的terrier.properties配置文件，自定义到别的文件夹）

build.xml：各种依赖关系进行build

在执行terrier之前。首先要确定是否已经安装了jdk。

能够通过：echo $JAVA_HOME，若有值，则表示已经安装。否则须要自己去安装，然后

export JAVA_HOME="Absolute_Path_of_Java_Installation"

建索引：

1）定位到terrier文件夹
cd terrier
2）收集须要建索引的文档
./bin/trec_setup.sh "Absolute_Path_To_Collection_Files"
这里须要指定绝对路径。比方须要建索引的文件集在/home/hadoop/kba/kba2014/trecdata/2011-10文件夹下（该文件夹下都为文件。不是文件夹，Files已经是最后一层文件夹了），
则上面的
Absolute_Path_To_Collection_Files即为 /home/hadoop/kba/kba2014/trecdata/2011-10

执行后在etc文件夹下生成例如以下图：




watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd3pnYW5nMTIz/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

collection.spec里面的内容例如以下：

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-01.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-03.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-05.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-07.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-08.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-11.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-12.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-13.trectext

/home/hadoop/kba/kba2014/trecdata/2011-10/2011-10-05-14.trectext

terrier.properties配置文件的内容例如以下：

#default controls for query expansion

querying.postprocesses.order=QueryExpansion

querying.postprocesses.controls=qe:QueryExpansion

#default controls for the web-based interface. SimpleDecorate

#is the simplest metadata decorator. For more control, see Decorate.

querying.postfilters.order=SimpleDecorate,SiteFilter,Scope

querying.postfilters.controls=decorate:SimpleDecorate,site:SiteFilter,scope:Scope

#default and allowed controls

querying.default.controls=

querying.allowed.controls=scope,qe,qemodel,start,end,site,scope

#document tags specification

#for processing the contents of

#the documents, ignoring DOCHDR

TrecDocTags.doctag=DOC

TrecDocTags.idtag=DOCNO

TrecDocTags.skip=DOCHDR

#set to true if the tags can be of various case

TrecDocTags.casesensitive=false

#query tags specification

TrecQueryTags.doctag=TOP

TrecQueryTags.idtag=NUM

TrecQueryTags.process=TOP,NUM,TITLE

TrecQueryTags.skip=DESC,NARR

#stop-words file

stopwords.filename=stopword-list.txt

#the processing stages a term goes through

termpipelines=Stopwords,PorterStemmer

terrier.properties里面的#行表示凝视，建立索引时须要注意标签

TrecDocTags表示要建索引的文件的配置

TrecDocTags.idtag：表示须要处理的标签，TrecDocTags.skip=DOCHDR表示要忽略DOCHDR标签。能够有多个，用逗号隔开就可以。

文件格式例如以下：

<DOC>

<DOCNO>id</DOCNO>

<TEXT>text content</TEXT>

</DOC>

TrecQueryTags表示检索的query文件的配置

TrecQueryTags.process表示要处理哪些标签。

文件格式例如以下：

<TOP>

<NUM>003</NUM>  //这个相当于你自己给这个query定一个id。所以能够随便写

<TITLE>"Abbotsford Arts Centre" office band "Abbotsford Arts Centre May" company "Abbotsford Arts Centre"  </TITLE>  //Query Phrases

</TOP>

3）建索引：

./bin/trec_terrier.sh -i

建索引的时候假设DOCNO里面的id长度大于默认的20个字符，那就会报错，例如以下：

这时须要我们再次配置terrier.properties配置文件，增加一行

indexer.meta.forward.keylens=120 //你能够自己定义长度

再次执行建索引命令就不会报错了

你还能够例如以下配置：

collection.spec=/absolute/path/to/your.spec

terrier.index.path=/absolute/path/to/index/path      //你想把你的建好的index放在哪个文件夹

trec.results.file=/absolute/path/to/resultfile.res   //你想想把你的query结果放在哪个文件

ignore.low.idf.terms=false                           //假设某个词的逆文档频率idf非常低，还是要考虑，而不是丢弃

matching.retrieved_set_size=40000                    //query后结果有多少条，假设test.query文件写了非常多个query，那么这么多个query的返回的结果不大于40000，注意此时不是单个query的结果数

对于全部的properties的含义能够在官网terrier.properties中查看。

4）检索：

./bin/trec_terrier.sh -r -Dtrec.model=PL2 -c 10.99 -Dtrec.topics=/path/to/your.query

-r表示retrieve，

-Dtrec.model表示用什么model去检索，这里用到了PL2模型。详细可在 terrier weighting model中查看

-c表示參数，后面10.99表示參数值

-Dtrec.topics表示your.query文件的详细路径

假设有多个索引文件。多个不同的query。怎么办？

比方对5个文件集分别建立索引，有5个query分别要在相应的索引文件中面找怎么办，因为是共用terrier.properties配置文件的。

所以你能够通过写一个shell脚本。针对不同的文件集。配置相应的collection.spec, terrier.index.path, trec.results.file.

终于得到的结果和开头indri的结果类似。

3、Indri和Terrier注意点

两者在写query phrases时都须要注意不要有其它的字符出现，

indri：除了a-z,A-Z,0-9。空格，其余字符如#@￥%都是非法字符。会导致错误

terrier：除了a-z,A-Z,0-9。空格，在多个单词构成的词组时可用双引號（如"term1 term2 term3"）。在表示权重时可用^（如”term1 term2“^0.5）。还有某些情况下可用+和-，详细看官网 terrier query language

Indri和Terrier搜索引擎的使用的更多相关文章

01 Apache Solr:提升检索体验为什么是Solr
背景: 最近开发一个大型的仓储管理平台项目,项目的前身是无数个版本的历史悠久的基于CS模式的Windows桌面程序.然后对于每一个客户,我们可能需要为之定制比较个性化的特殊功能.于是,有一个 ...
[IR] Open Source Search Engines
From:http://blog.csdn.net/xum2008/article/details/8740063 本文档是对现有的开源的搜索引擎的一个简单介绍 1. Lucene Lucene ...
Indri中的动态文档索引技术
Indri中的动态文档索引技术戴维译摘要: Indri 动态文档索引的实现技术,支持在更新索引的同时处理用户在线查询请求. 文本搜索引擎曾被设计为针对固定的文档集合进行查询,对不少应用来说,这种 ...
Livecoding.tv2.5发布，增加“用户搜索引擎”功能，方便用户找到匹配的程序员
近日,在Livecoding.tv最新发布的博客中,介绍了该平台2.5版的一系列新功能,其中的User Discovery Engine(用户搜索引擎)受到大家的欢迎.使用该引擎,可以很方便地查找在L ...
Nutch搜索引擎（第1期）_ Nutch简介及安装
1.Nutch简介 Nutch是一个由Java实现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一 ...
HTML <meta> 标签，搜索引擎
关于Mate标签的详尽解释,请查看w3school 网址为:http://www.w3school.com.cn/tags/tag_meta.asp meta标签作用 META标签是HTML标记HEA ...
Java Web学习笔记---用GET实现搜索引擎
今天做了一个实验,关于Servlet的.使用GET实现搜索引擎.因自己没有搜索引擎数据库,所以使用了Yahoo提供的Search API. 浏览效果如下图: 现在雅虎推出了新的Search API-- ...
转载自lanceyan：一致性hash和solr千万级数据分布式搜索引擎中的应用
一致性hash和solr千万级数据分布式搜索引擎中的应用互联网创业中大部分人都是草根创业,这个时候没有强劲的服务器,也没有钱去买很昂贵的海量数据库.在这样严峻的条件下,一批又一批的创业者从创业中获得 ...
9个基于Java的搜索引擎框架
在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广 ...

随机推荐

【RAID】raid1 raid2 raid5 raid6 raid10的优缺点和做各自raid需要几块硬盘
Raid 0:一块硬盘或者以上就可做raid0优势:数据读取写入最快,最大优势提高硬盘容量,比如3快80G的硬盘做raid0 可用总容量为240G.速度是一样.缺点:无冗余能力,一块硬盘损坏,数据全无 ...
Python算法-二叉树深度优先遍历
二叉树组成: 1.根节点 BinaryTree:root 2.每一个节点,都有左子节点和右子节点(可以为空) TreeNode:value.left.right 二叉树的遍历: 遍历二叉树:深度 ...
selenium常见控件操作
下拉选择框第一种方法:from selenium.webdriver.support.select import Select# 实例化一个Select类的对象 selector = Select( ...
Wordpress无法上传图片
当在自己新搭建的个人网站添加文章的时候,我遇到了wordpress最普遍的第一个问题——无法上传图片. 每次图片上传完成之后跳出如上图无法建立目录的警告,根据提示首先确定是否有修改文件的权限通 ...
CodeForces 321C Ciel the Commander
Ciel the Commander Time Limit: 1000ms Memory Limit: 262144KB This problem will be judged on CodeForc ...
numpy array_split()
numpy.array_split(ary, indices_or_sections, axis=0)[source] Split an array into multiple sub-arrays. ...
php.ini配置参数详解
下面对php.ini中一些安全相关参数的配置进行说明 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2 ...
Terracotta
Terracotta 3.2.1简介 (一) 博客分类: 企业应用面临的问题 Java&Socket 开源组件的应用 hibernatejava集群服务器EhcacheQuartzTerrac ...
[luoguP2157] [SDOI2009]学校食堂Dining（状压DP）
传送门这种鬼畜的状压DP...第一次见看到 0 <= Bi <= 7 就应该想到状态压缩,然而此题实在太鬼畜,想到也没什么乱用 f[i][j][k]表示前i-1个人全部吃完,i~i+7 ...
【bzoj1710】[Usaco2007 Open]Cheappal 廉价回文
[bzoj1710][Usaco2007 Open]Cheappal 廉价回文 Description 为了跟踪所有的牛,农夫JOHN在农场上装了一套自动系统. 他给了每一个头牛一个电子牌号当牛走过 ...

Indri和Terrier搜索引擎的使用

介绍