【原创】Lucene.Net+盘古分词器(详细介绍)

本章阅读概要

Lucene.Net简介

　　Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。　　

　　Lucene.net是Apache软件基金会赞助的开源项目，基于Apache License协议。　　

　　Lucene.net并不是一个爬行搜索引擎，也不会自动地索引内容。我们得先将要索引的文档中的文本抽取出来，然后再将其加到Lucene.net索引中。标准的步骤是先初始化一个Analyzer、打开一个IndexWriter、然后再将文档一个接一个地加进去。一旦完成这些步骤，索引就可以在关闭前得到优化，同时所做的改变也会生效。这个过程可能比开发者习惯的方式更加手工化一些，但却在数据的索引上给予你更多的灵活性。

（来自百度百科）

盘古分词器

盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户。作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。主要有以下功能:

1、中文未登陆词识别

2、词频优先

3、一元分词，多元分词

4、中文人名分词

5、繁体中文分词

6、英文分词

7、用户自定义规则（字典管理，动态加载字典，关键词高亮）

……

由于盘古分词器不是本章的重点内容，就简单带过了。有兴趣的朋友可以自己网上找找相关资料。文章末尾会提供一个盘古分词器的应用程序供下载

Lucene.Net实例分析

先上一下Demo的图把，看下最后运行效果：

数据是临时随便创建的数据，表格和样式也是随便画的，不喜欢的朋友多包涵呐！

接下来就一步一步来讲解整个编码过程（主要对一些核心的类和细节作为讲解过程），Let's GO

第一步：创建索引

1、由于索引是存放在硬盘里的，所以先定义一个索引的目录

         /// <summary>

         /// 索引存放目录

         /// </summary>

         protected string IndexDic

         {

             get

             {

                 return Server.MapPath("/IndexDic");

             }

         }

2、创建索引器把要索引的内容写入到指定目录

1	`IndexWriter writer =` `new` `IndexWriter(IndexDic, PanGuAnalyzer, isCreate, Lucene.Net.Index.IndexWriter.MaxFieldLength.LIMITED);`

索引器的构造函数参数说明：

IndexDic是索引存放目录

PanGuAnalyzer是盘古解析器（由于默认的解析器解析能力不强，所以替换为这个）

IsCreate是索引创建方式（true：重新新建索引，false：从旧的索引执行追加）

Lucene.Net.Index.IndexWriter.MaxFieldLength.LIMITED是文件长度是否限制

3、创建索引Document和往文档写入索引内容

         private void AddIndex(IndexWriter writer, string title, string content,string date)

         {

             try

             {

                 Document doc = new Document();

                 doc.Add(new Field("Title", title, Field.Store.YES, Field.Index.ANALYZED));//存储且索引

                 doc.Add(new Field("Content", content, Field.Store.YES, Field.Index.ANALYZED));//存储且索引

                 doc.Add(new Field("AddTime", date, Field.Store.YES, Field.Index.NOT_ANALYZED));//存储且索引

                 writer.AddDocument(doc);

             }

             catch (FileNotFoundException fnfe)

             {

                 throw fnfe;

             }

             catch (Exception ex)

             {

                 throw ex;

             }

         }

Document是索引文档，可以理解成数据库里的记录

Field是索引文档里的字段，可以直接理解成数据库里的字段

Field构造函数说明：

第一个是字段名称（实例里是Title,Content,AddTime）。

第二个是字段的存储方式（Field.Store.YES：进行存储，Filed.Store.No：不进行存储）有些字段值比较大，可以选择No不存储，对字段进行存储是为了检索的时候对某些字段进行提取。

第三个是是否索引（Field.Index.ANALYZED：索引， Field.Index.NOT_ANALYZED：非索引）

4、到此为止索引就创建完成了，应该可以看到索引目录会产生几个文件，如下图：

第二步：搜索索引

lucene的搜索相当强大，它提供了很多辅助查询类，每个类都继承自Query类，各自完成一种特殊的查询，你可以像搭积木一样将它们任意组合使用，完成一些复杂操作；另外lucene还提供了Sort类对结果进行排序，提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较：“lucene能执行and、or、order by、where、like ‘%xx%’操作吗？”回答是：“当然没问题！”

         private void SearchIndex()

         {

             Dictionary<string, string> dic = new Dictionary<string, string>();

             BooleanQuery bQuery = new BooleanQuery();

             string title = string.Empty;

             string content = string.Empty;

             if (Request.Form["title"] != null && Request.Form["title"].ToString()!="")

             {

                 title =GetKeyWordsSplitBySpace( Request.Form["title"].ToString());

                 QueryParser parse = new QueryParser("Title", PanGuAnalyzer);

                 Query query = parse.Parse(title);

                 parse.SetDefaultOperator(QueryParser.Operator.AND);

                 bQuery.Add(query, BooleanClause.Occur.MUST);

                 dic.Add("title",Request.Form["title"].ToString());

                 txtTitle = Request.Form["title"].ToString();

             }

             if (Request.Form["content"] != null && Request.Form["content"].ToString() != "")

             {

                 content = GetKeyWordsSplitBySpace(Request.Form["content"].ToString());

                 QueryParser parse = new QueryParser("Content", PanGuAnalyzer);

                 Query query = parse.Parse(content);

                 parse.SetDefaultOperator(QueryParser.Operator.AND);

                 bQuery.Add(query, BooleanClause.Occur.MUST);

                 dic.Add("content",Request.Form["content"].ToString());

                 txtContent = Request.Form["content"].ToString();

             }

             if (bQuery != null && bQuery.GetClauses().Length>)

             {

                 GetSearchResult(bQuery, dic);

             }

         }

这段代码创建了一个索引查询器，对title和content这两个字段进行查询。

1、介绍各种Query

TermQuery：首先介绍最基本的查询，如果你想执行一个这样的查询：在content字段中查询包含‘刘备的document”，那么你可以用TermQuery：

             Term t = new Term("content", "刘备");

             Query query = new TermQuery(t);

BooleanQuery ：如果你想这么查询：在content字段中包含”刘备“并且在title字段包含”三国“的document”，那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来：

             TermQuery termQuery1 = new TermQuery(new Term("content", "刘备"));

             TermQuery termQuery2 = new TermQuery(new Term("title", "三国"));

             BooleanQuery booleanQuery = new BooleanQuery();

             booleanQuery.Add(termQuery1, BooleanClause.Occur.SHOULD);

             booleanQuery.Add(termQuery2, BooleanClause.Occur.SHOULD);

WildcardQuery ：如果你想对某单词进行通配符查询，你可以用WildcardQuery，通配符包括’?’匹配一个任意字符和’*’匹配零个或多个任意字符，例如你搜索’三国*’，你可能找到’三国演义’或者’三国志’：

             Query query = new WildcardQuery(new Term("content", "三国*"));

PhraseQuery ：你可能对中日关系比较感兴趣，想查找‘中’和‘日’挨得比较近（5个字的距离内）的文章，超过这个距离的不予考虑，你可以：

             PhraseQuery query = new PhraseQuery();

             query.SetSlop();

             query.Add(new Term("content ", "中"));

             query.Add(new Term("content", "日"));

那么它可能搜到“中日合作……”、“中方和日方……”，但是搜不到“中国某高层领导说日本欠扁”。

PrefixQuery ：如果你想搜以‘中’开头的词语，你可以用PrefixQuery：

             PrefixQuery query = new PrefixQuery(new Term("content ", "中"));

FuzzyQuery ：FuzzyQuery用来搜索相似的term，使用Levenshtein算法。假设你想搜索跟‘wuzza’相似的词语，你可以：

             Query query = new FuzzyQuery(new Term("content", "wuzza"));

你可能得到‘fuzzy’和‘wuzzy’。

RangeQuery：另一个常用的Query是RangeQuery，你也许想搜索时间域从20060101到20060130之间的document，你可以用RangeQuery：

             RangeQuery query = new RangeQuery(new Term("time",""), new Term("time",""), true);

最后的true表示用闭合区间。

第三步:返回索引结果

上面介绍完各种查询的Query，接下来看看LuceneNet返回的数据集如何处理，如何显示高亮，上代码：

 private void GetSearchResult(BooleanQuery bQuery,Dictionary<string,string> dicKeywords)

         {

             IndexSearcher search = new IndexSearcher(IndexDic,true);

             Stopwatch stopwatch = Stopwatch.StartNew();

             //SortField构造函数第三个字段true为降序,false为升序

             Sort sort = new Sort(new SortField("AddTime", SortField.DOC, true));

             TopDocs docs = search.Search(bQuery, (Filter)null, PageSize * PageIndex, sort);

             stopwatch.Stop();

             if (docs != null && docs.totalHits > )

             {

                 lSearchTime = stopwatch.ElapsedMilliseconds;

                 txtPageFoot = GetPageFoot(PageIndex, PageSize, docs.totalHits, "sabrosus");

                 for (int i = ; i < docs.totalHits; i++)

                 {

                     if (i >= (PageIndex - ) * PageSize && i < PageIndex * PageSize)

                     {

                         Document doc = search.Doc(docs.scoreDocs[i].doc);

                         Article model = new Article()

                         {

                             Title = doc.Get("Title").ToString(),

                             Content = doc.Get("Content").ToString(),

                             AddTime = doc.Get("AddTime").ToString()

                         };

                         list.Add(SetHighlighter(dicKeywords, model));

                     }

                 }

             }

         }

最后这段代码相对比较简单，我就说下几个关键的类和高亮提示把。

1、关键类说明：

IndexSearcher：索引查询器，它的构造函数有两个参数，一个是索引文件路径，一个是是否只读（一般都设置为true就可以）。这个东西可以理解为SqlServer里面的查询分析器。

Sort：看字眼可知道是索引排序类。主要说一下第三个参数，第三个参数是排序方式（true为降序，false为升序）。

TopDocs：这个是查询后返回的文档，可以理解为Sqlserver的表，search.Search可以当做是在查询分析器里按了一次F5查询。

2、设置关键字高亮：

         private Article SetHighlighter(Dictionary<string, string> dicKeywords, Article model)

         {

             SimpleHTMLFormatter simpleHTMLFormatter = new PanGu.HighLight.SimpleHTMLFormatter("<font color=\"green\">", "</font>");

             Highlighter highlighter = new PanGu.HighLight.Highlighter(simpleHTMLFormatter, new Segment());

             highlighter.FragmentSize = ;

             string strTitle = string.Empty;

             string strContent = string.Empty;

             dicKeywords.TryGetValue("title", out strTitle);

             dicKeywords.TryGetValue("content", out strContent);

             if (!string.IsNullOrEmpty(strTitle))

             {

                 model.Title = highlighter.GetBestFragment(strTitle, model.Title);

             }

             if (!string.IsNullOrEmpty(strContent))

             {

                 model.Content = highlighter.GetBestFragment(strContent, model.Content);

             }

             return model;

         }

这里用的也是盘古的高亮组件，设置高亮主要分两个步骤：

设置高亮的显示样式、设置高亮的查询关键字

SimpleHTMLFormatter：这个类是一个HTML的格式类，构造函数有两个，一个是开始标签，一个是结束标签。

Segment：添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。

参考文献：

http://www.cnblogs.com/jeffwongishandsome/archive/2011/01/02/1924107.html
http://space.itpub.net/12639172/viewspace-626546

Demo下载（Demo是visual studio 2010编写的，打不开请下载vs2010或者自己更改为vs2008或其他版本）

盘古分词器下载

转载自：http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8D%E5%99%A8%E5%AE%9E%E4%BE%8B%E5%88%86%E6%9E%90%E4%BB%8B%E7%BB%8D.html

【原创】Lucene.Net+盘古分词器(详细介绍)的更多相关文章

Lucene.Net+盘古分词器(详细介绍)(转)
出处:http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8 ...
Lucene.Net+盘古分词器(详细介绍)
本章阅读概要1.Lucenne.Net简介2.介绍盘古分词器3.Lucene.Net实例分析4.结束语(Demo下载)Lucene.Net简介 Lucene.net是Lucene的.net移植版本,是 ...
Lucene.Net3.0.3+盘古分词器学习使用
一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
【盘古分词】Lucene.Net 盘古分词实现公众号智能自动回复
盘古分词是一个基于 .net framework 的中英文分词组件.主要功能中文未登录词识别盘古分词可以对一些不在字典中的未登录词自动识别词频优先盘古分词可以根据词频来解决分词的歧义问题多元 ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://ww ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Net Core使用Lucene.Net和盘古分词器实现全文检索
Lucene.net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎, ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一.
在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置I ...

随机推荐

【C语言学习】《C Primer Plus》第2章 C语言的概述
学习总结 1.#include是C预处理命令之一,#include指向的是头文件,如#include <stdio.h>,这个stdio.h就是程序需要引用的C标准库之一.里面包含了pri ...
Aoite 系列目录
介绍本项目从2009年孵化(V->Sofire->Aoite),至今已度过5个年头.一直在优化,一直在重构,一直在商用.有十分完整的单元测试用例.可以放心使用. Aoite on 博客园 ...
jquery插件：仿百度首页可展开收起的消息提示控件
消息提示插件大伙并不陌生了,无论是个系统还是网站,基本都要有消息系统.但我认为,一个好的提示插件应当具备很好的独立性,不与页面其他元素发生任何关系,其次是能对外提供丰富的接口,因为你生来就是被别人来调 ...
虚拟化平台cloudstack（4）——几个异常
cloudstack主机添加不成功 CloudStack正常启动,添加区域.提供点和群集都正常,但是添加主机时提示添加不成功. 先添加主机: 然后出现提示: 在网上找了一圈,基本上没什么回复,没办法, ...
MYSQL 大文件无法导入的问题。
1. 设置maxpacket. 要在[mysqld]标签下.这个疏忽了,就会发现没效果. 基本网上的都没说清,要看stackoverflow. Change in the my.ini file. I ...
JavaBean和Map转换封装类
package com.ljq.util; import java.beans.BeanInfo; import java.beans.Introspector; import java.beans. ...
VS2015的一些资料
http://blog.csdn.net/hk_5788/article/details/48466295 主要看一下js支持方面的,另外今天复习了promise,刚入职的时候看得有些问题,今晚抽时间 ...
Java-数组练习4
16．按要求编写Java应用程序.编写一个名为Test的主类,类中只有一个主方法: 在主方法中定义一个大小为50的一维整型数组,数组名为x,数组中存放着{1, 3,5,…,99}输出这个数组中的所有元 ...
JQuery向导插件Step——第一个阉割版插件
如果使用过JQuery Steps的朋友一定会发现这个插件有一个缺点,就是页面在第一次进入的时候,会进行一次很明显的DOM重绘--页面会闪一下. 尤其是前端代码比较庞大的时候,效果更为明显. 为了解决 ...
from表单iframe原网页嵌入
今天是巩固的from表单跟嵌入其他页面,同样的,学习到了新的知识. 温故而知新: iframe--在原页面嵌入其他页面,以窗口的样式其中scrolling--滚动条 noresize--可调整大小 ...

【原创】Lucene.Net+盘古分词器(详细介绍)

【原创】Lucene.Net+盘古分词器(详细介绍)的更多相关文章

随机推荐

热门专题