使用Lucene.NET实现数据检索功能

引言

在软件系统中查询数据是再平常不过的事情了，那当数据量非常大，数据存储的媒介不是数据库，或者检索方式要求更为灵活的时候，我们该如何实现数据的检索呢？为数据建立索引吧，利用索引技术可以更灵活更快捷的实现检索功能。

以下我要介绍的是.NET版的Lucene在实际项目中是如何应用的。

案例概要

我以一个文件检索系统为例，主要功能就是为硬盘中大量文件建立一个统一的检索平台，并且不使用数据库。

思路

该系统主要分为两部分，第一部分是索引的管理，为文件建立或更新索引；第二部分是文件的检索，根据关键词与索引库进行匹配并获得相关信息。这两部分功能可以整合在一个项目中，也可以分开在不同的项目中。

分词

需要注意的是不论是索引的管理还是文件的检索都离不开一样东西，那就是分词，正是分词的力量将多个关键字可以按照分词规则精确的与庞大的索引库进行匹配。

因为Lucene是国外的技术，所以对中文分词支持度并不高，这里我推荐使用盘古分词。

索引的管理

索引的管理主要是建立索引、更新索引和删除索引。需要注意的是用做识别的ID字段不能使用带有特殊符号的字符串，尽量使用词或者编号等，不然索引可能无法删除，也无法正常更新。

 //指定索引库文件存放文件位置

 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir), new NativeFSLockFactory());

 //判断索引文件目录是否存在

 bool isExist = IndexReader.IndexExists(directory);

 if (isExist)

 {

     if (IndexWriter.IsLocked(directory))

     {

         IndexWriter.Unlock(directory);

     }

 }

 //盘古分词器

 PanGuAnalyzer analyzer = new PanGuAnalyzer();

 //索引写入类

 IndexWriter writer = new IndexWriter(directory, analyzer, !isExist, IndexWriter.MaxFieldLength.UNLIMITED);

 //循环队列执行操作

 while (IndexDataQueue.Count > )

 {

     Document document = new Document();

 //这是我为索引数据自定义的模型类，主要内容是文件的路径、名称、内容和索引管理的操作类型（新增、更新、删除）

     BaseDataMode mode = IndexDataQueue.Dequeue();

     switch (mode.Type)

     {

         case OperationType.Insert:

             {

                 foreach (KeyValuePair<string, string> kv in mode.Content)

                 {

                     //这里kv.Key是设置索引内字段的名称，kv.Value是这个字段内存储的内容。

                     document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

                 }

                 writer.AddDocument(document);

             }; break;

         case OperationType.Update:

         {

             //设置删除条件

             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);

             Query query = parser.Parse(mode.Content["id"]);

             writer.DeleteDocuments(query);

             foreach (KeyValuePair<string, string> kv in mode.Content)

             {

                 document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

             }

             writer.AddDocument(document);

         }; break;

         case OperationType.Delete:

         {

             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);

             Query query = parser.Parse(mode.Content["id"]);

             writer.DeleteDocuments(query);

         }; break;

         default: { }; break;

     }

 }

 //提交操作

 writer.Commit();

 //优化

 writer.Optimize();

 //关闭连接

 writer.Close();

 directory.Close();

文件检索

文件检索主要的过程是，先对查询的内容进行分词，将其分解为多个关键词，然后使用Lucene内置的搜索功能对已建好的索引库进行查询，最后将搜索结果显示出来。

 //指定索引库文件存放文件位置

 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDir), new NativeFSLockFactory());

 IndexReader reader = IndexReader.Open(directory, true);

 IndexSearcher searcher = new IndexSearcher(reader);

 //设置关键词在条件中为OR关系

 BooleanQuery queryOr = new BooleanQuery();

 foreach (string word in SplitContent.SplitByPanGu(keyword))

 {

     foreach (KeyValuePair<string, string> kv in Mode.Content)

     {

         TermQuery query = new TermQuery(new Term(kv.Key, word));

         //这里设置条件为Or关系

         queryOr.Add(query, BooleanClause.Occur.SHOULD);

     }

 }

 //获取搜索结果

 //1000为搜索文件的下标限制，设置这个可以控制检索的范围，也可以用于分页显示

 TopDocs tds = searcher.Search(queryOr, null, );

 ScoreDoc[] docs = tds.scoreDocs;

 for (int i = ; i < docs.Length; i++)

 {

     int docId = docs[i].doc;

     Document doc = searcher.Doc(docId);

 string content = doc.Get("索引内字段的名称");

 }

资源

　　DLL与词库：http://download.csdn.net/detail/aaakingwin/7208679

使用Lucene.NET实现数据检索功能的更多相关文章

【转载】使用Lucene.NET实现数据检索功能
1.索引的管理 //指定索引库文件存放文件位置 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir ...
Lucene最重要的功能是对一段话的分析
Lucene最重要的功能是对一段话的分析
BuguMongo是一个MongoDB Java开发框架，集成了DAO、Query、Lucene、GridFS等功能
http://code.google.com/p/bugumongo/ 简介 BuguMongo是一个MongoDB Java开发框架,它的主要功能包括: 基于注解的对象-文档映射(Object-Do ...
如何使用 Lucene 做网站高亮搜索功能？
现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr.Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景.Lucene 比较灵活,中小型项目中使用的比较多 ...
瞎折腾之 Lucene.Net + MVC 搜索功能（上）
前言首先,关于Lucene.Net 的文章已经很多了.我这次决定写出来只是为了练练手,虽然在别人看来没什么用,但是自己确实是手动实践了一把.我个人觉得还是有意义的.爱折腾.敢于实践.才能有所收获,才 ...
【Lucene】Apache Lucene全文检索引擎架构之搜索功能3
上一节主要总结了一下Lucene是如何构建索引的,这一节简单总结一下Lucene中的搜索功能.主要分为几个部分,对特定项的搜索:查询表达式QueryParser的使用:指定数字范围内搜索:指定字符串开 ...
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析使用搜索引擎计数构建快速.高效和可扩展的数据驱动应用程序 Apache Lucene™ 和 Solr™ 是强大的开源搜索技术, ...
lucene&solr-day1
全文检索课程 Lucene&Solr(1) 1. 计划第一天:Lucene的基础知识 1.案例分析:什么是全文检索,如何实现全文检索 2.Lucene实现全文检索的流程 a) ...
Lucene教程 -------（一、初始Lucene）
一.lucene的介绍 lucene是一个全文检索的框架,apache组织提供了一个用java实现的全文检索的开源项目.功能非常的强大,api非常简单,并且有了全文检索的功能支持可以非常方便的实现根据 ...

随机推荐

__new__
[__new__] object.__new__(cls[, ...]) Called to create a new instance of class cls. 用于创建类对象cls的实例. __ ...
POJ 1511 - Invitation Cards 邻接表 Dijkstra堆优化
昨天的题太水了,堆优化跑的不爽,今天换了一个题,1000000个点,1000000条边= = 试一试邻接表写的过程中遇到了一些问题,由于习惯于把数据结构封装在 struct 里,结果 int [10 ...
OC学习1
分类: 1 如果在分类中增加一个原有类同名的方法,新方法分覆盖原有类的方法 (哪怕没有导入这个分类) 2 多个分类中有相同的方法,会执行最后编译的方法: 3 分类中不可以添加成员变量: 4 @prop ...
java核心知识点学习----重点学习线程池ThreadPool
线程池是多线程学习中需要重点掌握的. 系统启动一个新线程的成本是比较高的,因为它涉及与操作系统交互.在这种情形下,使用线程池可以很好的提高性能,尤其是当程序中需要创建大量生存期很短暂的线程时,更应该考 ...
ASP.NET 创建网站地图
很多个人站长会使用工具来生成自己网站的站点地图,这样做的缺点在于网站的 sitemap 不能及时的得到更新.当我们发表了一篇新文章时,应该对网站的地图进行更新,并通知搜索引擎网站地图已经发生了改变! ...
AppcompatActivity闪退问题解决方案
apply plugin: 'com.android.application' android { compileSdkVersion 23 buildToolsVersion "23.0. ...
【golang】go语言，进行并发请求的wrap变参封装
package main import ( "fmt" "sync" "time" ) type WaitGroupWrapper stru ...
实现的一个ajax请求组件有加载效果
var zhanglei_Ajax = function(url,data,fn){ var str = '<div class="mask" style="pos ...
win7 解锁注册表
win7系统各种百度,各种尝试,发现只此一种可以解锁 [Version] Signature=“$CHICAGO$” [DefaultInstall] DelReg=del [del] HKCU,S ...
清空form表单下所有的input值-------------jquery
$(':input','#' + formid).not(':button, :submit, :reset').val('').removeAttr('checked').removeAttr('s ...

使用Lucene.NET实现数据检索功能

使用Lucene.NET实现数据检索功能的更多相关文章

随机推荐

热门专题