Lucene.net入门学习(结合盘古分词)

 

Lucene简介

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

Lucene.net简介

Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

Lucene.net工作原理

Lucene.net提供的服务需要两部分:索引文件的写入和索引文件的读取。

1写入流程
源数据字符串经过analyzer处理,将源中需要搜索的信息加入Document的各个字段中,并把需要索引的字段起来并存储。
将索引写入存储器,存储器可以是内存或磁盘。

2读出流程
用户提供搜索关键词,经过analyzer处理。(我们下面代码采用的是盘古分词 ,其相关分词原理 可以再它的官网上可以看到 http://pangusegment.codeplex.com/
对处理后的关键词搜索索引找出对应的Document,用户根据需要从找到的Document中提取需要的Field。

Lucene.net安装

大家可以去官网看下:https://www.nuget.org/packages/Lucene.Net/3.0.3

盘古分词安装

盘古分词主页:http://pangusegment.codeplex.com/

下载:http://pangusegment.codeplex.com/downloads/get/144143

Lucene.net结合盘古分词使用

http://pangusegment.codeplex.com/downloads/get/144145

大家可以看到相关使用的案列

Lucene.net创建索引(结合盘古分词)

    /*code 释迦苦僧*/
class Program
{
static void Main(string[] args)
{
Stopwatch sw = new Stopwatch();//加入时间统计
//获取 数据列表
PostBll bll = new PostBll();
IList<PostInfo> posts = bll.GetAllPost();
Console.WriteLine(posts.Count);
//创建Lucene索引文件
string IndexDic = @"D:\Lucene\post\";
sw.Start();
IndexWriter writer = new IndexWriter(FSDirectory.Open(IndexDic), new PanGuAnalyzer(), true, IndexWriter.MaxFieldLength.LIMITED);
foreach (PostInfo item in posts)
{
Document doc = new Document();
Field postid = new Field("PostId", item.PostId.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);
Field title = new Field("Title", item.Title.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);
Field postscore = new Field("PostScore", item.PostScore.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO);
doc.Add(postid);
doc.Add(title);
doc.Add(postscore);
writer.AddDocument(doc);
}
writer.Optimize();
writer.Commit();
sw.Stop();
Console.Write("建立" + posts.Count + "索引,花费: " + sw.Elapsed);
Console.ReadLine();
}
}

如代码所示:
D:\Lucene\post\ 存储Lucene.net生成的索引文件,如下图

这些索引存储文件存储了PostInfo表中 PostId,Title,PostScore 三个字段信息。

需要注意的是:使用盘古分词操作时,需要将PanGu.xml和盘古分词自带的分词文件放入项目中,如下图:

Lucene.net执行搜索(结合盘古分词)

namespace LuceneNetStudy.Search
{
/*code 释迦苦僧*/
public partial class MainForm : Form
{
private string IndexDic = @"D:\Lucene\post\"; public MainForm()
{
InitializeComponent();
} private void btnSearch_Click(object sender, EventArgs e)
{
/*开启搜索用的后台线程*/
BackgroundWorker backWorker = new BackgroundWorker();
backWorker.DoWork += new DoWorkEventHandler(backWorker_DoWork);
backWorker.RunWorkerAsync(txtKey.Text.Trim());
} void backWorker_DoWork(object sender, DoWorkEventArgs e)
{
string key = e.Argument as string; List<PostInfo> result = new List<PostInfo>();
/*加入时间统计*/
Stopwatch sw = new Stopwatch();
sw.Start(); /*创建 Lucene.net 搜索实例*/
IndexSearcher search = new IndexSearcher(FSDirectory.Open(IndexDic), true); /*为搜索实例 加入搜索分词规则 来源 盘古分词*/
key = GetKeyWordsSplitBySpace(key, new PanGuTokenizer());
BooleanQuery bq = new BooleanQuery();
if (!string.IsNullOrEmpty(key))
{
/*如果搜索关键字不为空 知道关键字搜索列为Title*/
QueryParser queryParser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30, new string[] { "Title" }, new PanGuAnalyzer());
Query query = queryParser.Parse(key);
bq.Add(query, Occur.MUST);
} /*指定排序方式 按 PostScore 字段来排序*/
List<SortField> sorts = new List<SortField>();
SortField sf = new SortField("PostScore", SortField.DOUBLE, true);
sorts.Add(sf);
Sort sort = new Sort(sorts.ToArray());
TopFieldDocs docs = search.Search(bq, null, search.MaxDoc, sort);
int allCount = docs.TotalHits;
/*获取匹配的前10条*/
ScoreDoc[] hits = TopDocs(0, 10, docs);
foreach (ScoreDoc sd in hits)//遍历搜索到的结果
{
try
{
Document doc = search.Doc(sd.Doc);
var model = new PostInfo();
model.PostId = Guid.Parse(doc.Get("PostId"));
model.PostScore = double.Parse(doc.Get("PostScore"));
model.Title = doc.Get("Title");
result.Add(model);
}
catch
{ }
}
search.Close();
search.Dispose();
sw.Stop();
if (result != null)
{
Invoke(new MethodInvoker(delegate()
{
lblRunTime.Text = "花费: " + sw.Elapsed; txtResult.Text = "";
foreach (PostInfo info in result)//遍历搜索到的结果
{
txtResult.Text += info.PostScore + "\t" + info.Title + "\r\n";
}
}));
}
} public static ScoreDoc[] TopDocs(int start, int limit, TopFieldDocs docs)
{
int endIndex = 0;
int hc = docs.TotalHits;
if (hc - start > limit)
{
endIndex = start + limit;
}
else
{
endIndex = hc;
} List<ScoreDoc> dl = new List<ScoreDoc>();
var da = docs.ScoreDocs;
for (int i = start; i < endIndex; i++)
{
dl.Add(da[i]);
}
return dl.ToArray();
} static public string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer)
{
StringBuilder result = new StringBuilder();
/*执行分词操作 一个关键字可以拆分为多个次和单个字*/
ICollection<WordInfo> words = ktTokenizer.SegmentToWordInfos(keywords); foreach (WordInfo word in words)
{
if (word == null)
{
continue;
} result.AppendFormat("{0} ", word.Word);
} return result.ToString().Trim();
}
}
}

这是咱这两天的学习成果,研究还不是很透彻,希望能给大家带来些了解,点个赞吧。

作者:释迦苦僧  出处:http://www.cnblogs.com/woxpp/p/3972233.html  本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

Lucene.net入门学习的更多相关文章

  1. Lucene.net入门学习系列(2)

    Lucene.net入门学习系列(2) Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索 在使用Luce ...

  2. Lucene.net入门学习系列(1)

    Lucene.net入门学习系列(1)   Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索 这几天在公 ...

  3. Lucene.net入门学习(结合盘古分词)

    Lucene简介 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整 ...

  4. Lucene.net入门学习(结合盘古分词)(转载)

    作者:释迦苦僧  出处:http://www.cnblogs.com/woxpp/p/3972233.html  本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显 ...

  5. 【转载】Lucene.Net入门教程及示例

    本人看到这篇非常不错的Lucene.Net入门基础教程,就转载分享一下给大家来学习,希望大家在工作实践中可以用到. 一.简单的例子 //索引Private void Index(){    Index ...

  6. Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍

    原文:Elasticsearch7.X 入门学习第五课笔记---- - Mapping设定介绍 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本 ...

  7. Elasticsearch7.X 入门学习第一课笔记----基本概念

    原文:Elasticsearch7.X 入门学习第一课笔记----基本概念 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https: ...

  8. vue入门学习(基础篇)

    vue入门学习总结: vue的一个组件包括三部分:template.style.script. vue的数据在data中定义使用. 数据渲染指令:v-text.v-html.{{}}. 隐藏未编译的标 ...

  9. Hadoop入门学习笔记---part4

    紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...

随机推荐

  1. 熟人Dubbo 系列1-Dubbo什么

    Dubbo阿里巴巴内部SOA治理方案和服务的核心框架.每天2000+ 个服务提供3,000,000,000+ 次訪问量支持,并被广泛应用于阿里巴巴集团的各成员网站.Dubbo自2011年开源后,已被很 ...

  2. JavaScript的隐式转换

    原文:JavaScript的隐式转换 JavaScript的数据类型分为六种,分别为null,undefined,boolean,string,number,object.object是引用类型,其它 ...

  3. NSIS:判断程序是否运行并进行卸载

    原文NSIS:判断程序是否运行并进行卸载 今天在评论里看到网友说要一个这样的功能,就简单写了一个,本来想做360杀手来着,但遗憾的是我从来不用360的东西,所在电脑上也没有360相关的软件进行测试,所 ...

  4. u_boot启动过程中的具体分析(1)

    闭上眼睛,细致的回顾一下从NAND FLASH 启动的整个流程,首先,当我们打开板子的时候,先执行的就是嵌入在芯片上的iROM,它的作用就是为了把.NAND Flash 中的bootloader的一部 ...

  5. [wxWidgets]_[0基础]_[经常更新进度条程序]

    场景: 1. 非常根据程序的进展需要处理业务,以更新进度条,进度条的目的是为了让用户知道业务流程的进度.一个进度条程序更友好,让用户知道在程序执行.不是没有反应. 2. 现在更新见过这两种方法的进展. ...

  6. UVa 11790 - Murcia&#39;s Skyline

    称号:给你一个行长度的建设和高度,我们祈求最长的和下降的高度. 分析:dp,最大上升子. 说明:具有长度,不能直接优化队列单调. #include <iostream> #include ...

  7. Linux核心设计依据(七)系统调用

    我理解的系统调用,用户进程和内核是内核提供了一个接口进行交互.除了异常和下降外.内核系统调用是唯一合法入境.像/proc还通过系统调用访问. 系统调用的意义: 让用户进程受限地訪问硬件设备 为用户空间 ...

  8. 流动python - 写port扫描仪和各种并发尝试(多线程/多进程/gevent/futures)

    port扫描仪的原理非常easy.没有什么比操作更socket,能够connect它认为,port打开. import socket def scan(port): s = socket.socket ...

  9. cocos2dx 解释二具体的启动过程:内存管理和回调

    在上一篇的第二部分中.我们有一句代码待解释的: // Draw the Scene void CCDirector::drawScene(void) { -...     //tick before ...

  10. 使用 CodeIgniter 框架快速开发 PHP 应用(六)

    原文:使用 CodeIgniter 框架快速开发 PHP 应用(六) 简化使用 Session 和安全理论说得够多了! 现在让我们开始写我们自己的应用. 在这一章里,我们将会大致描述一下我们要建立的一 ...