使用Lucene.NET实现数据检索功能

引言

在软件系统中查询数据是再平常不过的事情了，那当数据量非常大，数据存储的媒介不是数据库，或者检索方式要求更为灵活的时候，我们该如何实现数据的检索呢？为数据建立索引吧，利用索引技术可以更灵活更快捷的实现检索功能。

以下我要介绍的是.NET版的Lucene在实际项目中是如何应用的。

案例概要

我以一个文件检索系统为例，主要功能就是为硬盘中大量文件建立一个统一的检索平台，并且不使用数据库。

思路

该系统主要分为两部分，第一部分是索引的管理，为文件建立或更新索引；第二部分是文件的检索，根据关键词与索引库进行匹配并获得相关信息。这两部分功能可以整合在一个项目中，也可以分开在不同的项目中。

分词

需要注意的是不论是索引的管理还是文件的检索都离不开一样东西，那就是分词，正是分词的力量将多个关键字可以按照分词规则精确的与庞大的索引库进行匹配。

因为Lucene是国外的技术，所以对中文分词支持度并不高，这里我推荐使用盘古分词。

索引的管理

索引的管理主要是建立索引、更新索引和删除索引。需要注意的是用做识别的ID字段不能使用带有特殊符号的字符串，尽量使用词或者编号等，不然索引可能无法删除，也无法正常更新。

 //指定索引库文件存放文件位置

 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir), new NativeFSLockFactory());

 //判断索引文件目录是否存在

 bool isExist = IndexReader.IndexExists(directory);

 if (isExist)

 {

     if (IndexWriter.IsLocked(directory))

     {

         IndexWriter.Unlock(directory);

     }

 }

 //盘古分词器

 PanGuAnalyzer analyzer = new PanGuAnalyzer();

 //索引写入类

 IndexWriter writer = new IndexWriter(directory, analyzer, !isExist, IndexWriter.MaxFieldLength.UNLIMITED);

 //循环队列执行操作

 while (IndexDataQueue.Count > )

 {

     Document document = new Document();

 //这是我为索引数据自定义的模型类，主要内容是文件的路径、名称、内容和索引管理的操作类型（新增、更新、删除）

     BaseDataMode mode = IndexDataQueue.Dequeue();

     switch (mode.Type)

     {

         case OperationType.Insert:

             {

                 foreach (KeyValuePair<string, string> kv in mode.Content)

                 {

                     //这里kv.Key是设置索引内字段的名称，kv.Value是这个字段内存储的内容。

                     document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

                 }

                 writer.AddDocument(document);

             }; break;

         case OperationType.Update:

         {

             //设置删除条件

             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);

             Query query = parser.Parse(mode.Content["id"]);

             writer.DeleteDocuments(query);

             foreach (KeyValuePair<string, string> kv in mode.Content)

             {

                 document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

             }

             writer.AddDocument(document);

         }; break;

         case OperationType.Delete:

         {

             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);

             Query query = parser.Parse(mode.Content["id"]);

             writer.DeleteDocuments(query);

         }; break;

         default: { }; break;

     }

 }

 //提交操作

 writer.Commit();

 //优化

 writer.Optimize();

 //关闭连接

 writer.Close();

 directory.Close();

文件检索

文件检索主要的过程是，先对查询的内容进行分词，将其分解为多个关键词，然后使用Lucene内置的搜索功能对已建好的索引库进行查询，最后将搜索结果显示出来。

 //指定索引库文件存放文件位置

 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDir), new NativeFSLockFactory());

 IndexReader reader = IndexReader.Open(directory, true);

 IndexSearcher searcher = new IndexSearcher(reader);

 //设置关键词在条件中为OR关系

 BooleanQuery queryOr = new BooleanQuery();

 foreach (string word in SplitContent.SplitByPanGu(keyword))

 {

     foreach (KeyValuePair<string, string> kv in Mode.Content)

     {

         TermQuery query = new TermQuery(new Term(kv.Key, word));

         //这里设置条件为Or关系

         queryOr.Add(query, BooleanClause.Occur.SHOULD);

     }

 }

 //获取搜索结果

 //1000为搜索文件的下标限制，设置这个可以控制检索的范围，也可以用于分页显示

 TopDocs tds = searcher.Search(queryOr, null, );

 ScoreDoc[] docs = tds.scoreDocs;

 for (int i = ; i < docs.Length; i++)

 {

     int docId = docs[i].doc;

     Document doc = searcher.Doc(docId);

 string content = doc.Get("索引内字段的名称");

 }

资源

　　DLL与词库：http://download.csdn.net/detail/aaakingwin/7208679

使用Lucene.NET实现数据检索功能的更多相关文章

【转载】使用Lucene.NET实现数据检索功能
1.索引的管理 //指定索引库文件存放文件位置 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir ...
Lucene最重要的功能是对一段话的分析
Lucene最重要的功能是对一段话的分析
BuguMongo是一个MongoDB Java开发框架，集成了DAO、Query、Lucene、GridFS等功能
http://code.google.com/p/bugumongo/ 简介 BuguMongo是一个MongoDB Java开发框架,它的主要功能包括: 基于注解的对象-文档映射(Object-Do ...
如何使用 Lucene 做网站高亮搜索功能？
现在基本上所有网站都支持搜索功能,现在搜索的工具有很多,比如Solr.Elasticsearch,它们都是基于 Lucene 实现的,各有各的使用场景.Lucene 比较灵活,中小型项目中使用的比较多 ...
瞎折腾之 Lucene.Net + MVC 搜索功能（上）
前言首先,关于Lucene.Net 的文章已经很多了.我这次决定写出来只是为了练练手,虽然在别人看来没什么用,但是自己确实是手动实践了一把.我个人觉得还是有意义的.爱折腾.敢于实践.才能有所收获,才 ...
【Lucene】Apache Lucene全文检索引擎架构之搜索功能3
上一节主要总结了一下Lucene是如何构建索引的,这一节简单总结一下Lucene中的搜索功能.主要分为几个部分,对特定项的搜索:查询表达式QueryParser的使用:指定数字范围内搜索:指定字符串开 ...
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析
使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析使用搜索引擎计数构建快速.高效和可扩展的数据驱动应用程序 Apache Lucene™ 和 Solr™ 是强大的开源搜索技术, ...
lucene&solr-day1
全文检索课程 Lucene&Solr(1) 1. 计划第一天:Lucene的基础知识 1.案例分析:什么是全文检索,如何实现全文检索 2.Lucene实现全文检索的流程 a) ...
Lucene教程 -------（一、初始Lucene）
一.lucene的介绍 lucene是一个全文检索的框架,apache组织提供了一个用java实现的全文检索的开源项目.功能非常的强大,api非常简单,并且有了全文检索的功能支持可以非常方便的实现根据 ...

随机推荐

Python 黑魔法 --- 描述器（descriptor）
Python 黑魔法---描述器(descriptor) Python黑魔法,前面已经介绍了两个魔法,装饰器和迭代器,通常还有个生成器.生成器固然也是一个很优雅的魔法.生成器更像是函数的行为.而连接类 ...
lr_convert_string_encoding（）转码函数
例子:
在Linux中的文本模式下手动安装 Parallels Tools
1.启动虚拟机. 2.当看到提示 X Server 无法启动的消息时,使用 Ctrl+Option+F1(Ctrl+Alt+F1)切换到另一个虚拟控制台并输入登录信息. 3 从“虚拟机”菜单中选择“安 ...
Python学习笔记- Python threading模块
Python threading模块直接调用 # !/usr/bin/env python # -*- coding:utf-8 -*- import threading import time d ...
图解——VS发布网站详细步骤
1.打开你的VS2012网站项目,右键点击项目>菜单中重新生成一下网站项目:再次点击右键>发布: 2.弹出网站发布设置面板,点击<新建..>,创建新的发布配置文件: 输入你自 ...
andorid SQLite数据库的增删改查和事务操作
.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android ...
[转]初探 PhoneGap 框架在 Android 上的表现
原文地址:http://topmanopensource.iteye.com/blog/1486929 phonegap是由温哥华的一家小公司研发的多平台的移动开发框架,支持流行的大多数移动设备(iP ...
live555 直播arm-linux视频
live555例程testOnDemandRTSPServer.cpp启动一个流服务器首先启动使用环境, TaskScheduler* scheduler = BasicTaskScheduler: ...
iOS多线程编程指南（二）线程管理
当应用程序生成一个新的线程的时候,该线程变成应用程序进程空间内的一个实体.每个线程都拥有它自己的执行堆栈,由内核调度独立的运行时间片.一个线程可以和其他线程或其他进程通信,执行I/O操作,甚至执行任何 ...
Jade之Extends
Extends jade允许多个jade文件继承一个jade文件. jade: //- layout.jade doctype html html head block title title Def ...

使用Lucene.NET实现数据检索功能

使用Lucene.NET实现数据检索功能的更多相关文章

随机推荐

热门专题