Lucene.Net

Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。

Lucene.net是Apache软件基金会赞助的开源项目,基于Apache License协议。

Lucene.net并不是一个爬行搜索引擎,也不会自动地索引内容。我们得先将要索引的文档中的文本抽取出来,然后再将其加到Lucene.net索引中。标准的步骤是先初始化一个Analyzer、打开一个IndexWriter、然后再将文档一个接一个地加进去。一旦完成这些步骤,索引就可以在关闭前得到优化,同时所做的改变也会生效。这个过程可能比开发者习惯的方式更加手工化一些,但却在数据的索引上给予你更多的灵活性,而且其效率也很高。

官网:http://lucenenet.apache.org/

GitHub: https://github.com/apache/lucenenet

添加nuget包引用

首先我们要在项目中引用Lucene.Net的相关引用,不同的语言要使用的分析器(Analyzer)是不一样的,这里我们使用Lucene.Net.Analysis.SmartCn来做示例,用于分析中文。当前Lucene.Net.Analysis.SmartCn包还未发布正式版,所以搜索时要勾选“包括预发行版本”:

IndexWriter

IndexWriter用于将文档索引起来,它会使用对应的分析器(Analyzer)来将文档中的文字进行拆分索引并且将索引存到Index_Data目录:

static IndexWriter GetIndexWriter()
{
var dir = FSDirectory.Open("Index_Data");
Analyzer analyzer = new SmartChineseAnalyzer(LuceneVersion.LUCENE_48);
var indexConfig = new IndexWriterConfig(LuceneVersion.LUCENE_48, analyzer);
IndexWriter writer = new IndexWriter(dir, indexConfig);
return writer;
}

有了IndexWriter,我们就可以将文档索引进来了:

static void WriteDocument(string url, string title, string keywords, string description)
{
using (var writer = GetIndexWriter())
{
writer.DeleteDocuments(new Term("url", url)); Document doc = new Document();
doc.Add(new StringField("url", url, Field.Store.YES)); TextField titleField = new TextField("title", title, Field.Store.YES);
titleField.Boost = 3F; TextField keywordField = new TextField("keyword", keywords, Field.Store.YES);
keywordField.Boost = 2F; TextField descriptionField = new TextField("description", description, Field.Store.YES);
descriptionField.Boost = 1F; doc.Add(titleField);
doc.Add(keywordField);
doc.Add(descriptionField);
writer.AddDocument(doc);
writer.Flush(triggerMerge: true, applyAllDeletes: true);
writer.Commit();
}
}

对代码做一些简单的说明,在实例化一个Document后,需要在Document里面添加一些字段:

  • StringField:将该字段索引,但不会做语意拆分
  • TextField:索引器会对该字段进行拆分后再索引
  • Boost:即权重,比如标题(3F)和关键字(2F)都匹配的话,以标题为优先排在前面

现在我们已经可以将文档索引起来了,我们将索引一个页面:

WriteDocument("https://www.zkea.net/index",
"纸壳CMS开源免费可视化设计内容管理系统",
"纸壳CMS,ZKEACMS,可视化设计,可视化CMS",
"纸壳CMS(ZKEACMS)是开源的建站系统,您可以直接使用它来做为您的企业网站,门户网站或者个人网站,博客");

Index_Data目录将会生成一些索引文件:

有了索引,接下来要做的就是搜索了。

IndexSearcher

因为用户在搜索的时候并不单单只输入关键字,很可能输入的是词、句,所以在搜索之前,我们还要对搜索语句进行分析,拆解出里面的关键词后再进行搜索。

static List<string> GetKeyWords(string q)
{
List<string> keyworkds = new List<string>();
Analyzer analyzer = new SmartChineseAnalyzer(LuceneVersion.LUCENE_48);
using (var ts = analyzer.GetTokenStream(null, q))
{
ts.Reset();
var ct = ts.GetAttribute<Lucene.Net.Analysis.TokenAttributes.ICharTermAttribute>(); while (ts.IncrementToken())
{
StringBuilder keyword = new StringBuilder();
for (int i = ; i < ct.Length; i++)
{
keyword.Append(ct.Buffer[i]);
}
string item = keyword.ToString();
if (!keyworkds.Contains(item))
{
keyworkds.Add(item);
}
}
}
return keyworkds;
}

拆分好用户输入的词句后,接下来使用IndexSearcher并使用组合条件进行搜索:

static void Search(string q)
{
IndexReader reader = DirectoryReader.Open(FSDirectory.Open("Index_Data")); var searcher = new IndexSearcher(reader); var keyWordQuery = new BooleanQuery();
foreach (var item in GetKeyWords(q))
{
keyWordQuery.Add(new TermQuery(new Term("title", item)), Occur.SHOULD);
keyWordQuery.Add(new TermQuery(new Term("keyword", item)), Occur.SHOULD);
keyWordQuery.Add(new TermQuery(new Term("description", item)), Occur.SHOULD);
}
var hits = searcher.Search(keyWordQuery, ).ScoreDocs; foreach (var hit in hits)
{
var document = searcher.Doc(hit.Doc);
Console.WriteLine("Url:{0}", document.Get("url"));
Console.WriteLine("Title:{0}", document.Get("title"));
Console.WriteLine("Keyword:{0}", document.Get("keyword"));
Console.WriteLine("Description:{0}", document.Get("description"));
}
}

接下来我们来试着搜索一下:

完整代码

这里只是一个简单的示例,有关于更多,可以查看Lucene.Net的官方文档。

using Lucene.Net.Analysis;
using Lucene.Net.Analysis.Cn.Smart;
using Lucene.Net.Documents;
using Lucene.Net.Index;
using Lucene.Net.Search;
using Lucene.Net.Store;
using Lucene.Net.Util;
using System;
using System.Collections.Generic;
using System.Text; namespace ConsoleApp
{
class Program
{
static void Main(string[] args)
{
WriteDocument("https://www.zkea.net/index",
"纸壳CMS开源免费可视化设计内容管理系统",
"纸壳CMS,ZKEACMS,可视化设计,可视化CMS",
"纸壳CMS(ZKEACMS)是开源的建站系统,您可以直接使用它来做为您的企业网站,门户网站或者个人网站,博客"); Search("可视化CMS");
}
static void WriteDocument(string url, string title, string keywords, string description)
{
using (var writer = GetIndexWriter())
{
writer.DeleteDocuments(new Term("url", url)); Document doc = new Document();
doc.Add(new StringField("url", url, Field.Store.YES)); TextField titleField = new TextField("title", title, Field.Store.YES);
titleField.Boost = 3F; TextField keywordField = new TextField("keyword", keywords, Field.Store.YES);
keywordField.Boost = 2F; TextField descriptionField = new TextField("description", description, Field.Store.YES);
descriptionField.Boost = 1F; doc.Add(titleField);
doc.Add(keywordField);
doc.Add(descriptionField);
writer.AddDocument(doc);
writer.Flush(triggerMerge: true, applyAllDeletes: true);
writer.Commit();
}
}
static IndexWriter GetIndexWriter()
{
var dir = FSDirectory.Open("Index_Data");
Analyzer analyzer = new SmartChineseAnalyzer(LuceneVersion.LUCENE_48);
var indexConfig = new IndexWriterConfig(LuceneVersion.LUCENE_48, analyzer);
IndexWriter writer = new IndexWriter(dir, indexConfig);
return writer;
} static List<string> GetKeyWords(string q)
{
List<string> keyworkds = new List<string>();
Analyzer analyzer = new SmartChineseAnalyzer(LuceneVersion.LUCENE_48);
using (var ts = analyzer.GetTokenStream(null, q))
{
ts.Reset();
var ct = ts.GetAttribute<Lucene.Net.Analysis.TokenAttributes.ICharTermAttribute>(); while (ts.IncrementToken())
{
StringBuilder keyword = new StringBuilder();
for (int i = ; i < ct.Length; i++)
{
keyword.Append(ct.Buffer[i]);
}
string item = keyword.ToString();
if (!keyworkds.Contains(item))
{
keyworkds.Add(item);
}
}
}
return keyworkds;
}
static void Search(string q)
{
IndexReader reader = DirectoryReader.Open(FSDirectory.Open("Index_Data")); var searcher = new IndexSearcher(reader); var keyWordQuery = new BooleanQuery();
foreach (var item in GetKeyWords(q))
{
keyWordQuery.Add(new TermQuery(new Term("title", item)), Occur.SHOULD);
keyWordQuery.Add(new TermQuery(new Term("keyword", item)), Occur.SHOULD);
keyWordQuery.Add(new TermQuery(new Term("description", item)), Occur.SHOULD);
}
var hits = searcher.Search(keyWordQuery, ).ScoreDocs; foreach (var hit in hits)
{
var document = searcher.Doc(hit.Doc);
Console.WriteLine("Url:{0}", document.Get("url"));
Console.WriteLine("Title:{0}", document.Get("title"));
Console.WriteLine("Keyword:{0}", document.Get("keyword"));
Console.WriteLine("Description:{0}", document.Get("description"));
}
}
}
}

原文链接:http://www.zkea.net/codesnippet/detail/lucene-net.html

使用Lucene.Net做一个简单的搜索引擎-全文索引的更多相关文章

  1. 【Bugly干货分享】一起用 HTML5 Canvas 做一个简单又骚气的粒子引擎

    Bugly 技术干货系列内容主要涉及移动开发方向,是由Bugly邀请腾讯内部各位技术大咖,通过日常工作经验的总结以及感悟撰写而成,内容均属原创,转载请标明出处. 前言 好吧,说是“粒子引擎”还是大言不 ...

  2. 使用React并做一个简单的to-do-list

    1. 前言 说到React,我从一年之前就开始试着了解并且看了相关的入门教程,而且还买过一本<React:引领未来的用户界面开发框架 >拜读.React的轻量组件化的思想及其virtual ...

  3. 【 D3.js 入门系列 --- 3 】 做一个简单的图表!

    前面说了几节,都是对文字进行处理,这一节中将用 D3.js 做一个简单的柱形图. 做柱形图有很多种方法,比如用 HTML 的 div 标签,或用 svg . 推荐用 SVG 来做各种图形.SVG 意为 ...

  4. 一起用HTML5 canvas做一个简单又骚气的粒子引擎

    前言 好吧,说是"粒子引擎"还是大言不惭而标题党了,离真正的粒子引擎还有点远.废话少说,先看demo 本文将教会你做一个简单的canvas粒子制造器(下称引擎). 世界观 这个简单 ...

  5. Jmeter初步使用二--使用jmeter做一个简单的性能测试

    经过上一次的初步使用,我们懂得了Jmeter的安装与初步使用的方法.现在,我们使用Jmeter做一个简单的性能测试.该次测试,提交的参数不做参数化处理,Jmeter各元件使用将在介绍在下一博文开始介绍 ...

  6. 用EF DataBase First做一个简单的MVC3报名页面

    使用EF DataBase First做一个简单的MVC3报名网站 ORM(Object Relational Mapping)是面向对象语言中的一种数据访问技术,在ASP.NET中,可以通过ADO. ...

  7. 【 D3.js 入门系列 — 3 】 做一个简单的图表!

    图1. 柱形图 1. 柱形图 前几章的例子,都是对文字进行处理.本章中将用 D3 做一个简单的柱形图.制作柱形图有很多种方法,比如用 HTML 的 <div> 标签,或在 SVG 上绘制 ...

  8. Windows Phone开发(21):做一个简单的绘图板

    原文:Windows Phone开发(21):做一个简单的绘图板 其实我们今天要说的就是一个控件--InkPresenter,这个控件并不是十分强大,没办法和WPF中的InkCanvas相比,估计在实 ...

  9. 使用Multiplayer Networking做一个简单的多人游戏例子-3/3(Unity3D开发之二十七)

    使用Multiplayer Networking做一个简单的多人游戏例子-1/3 使用Multiplayer Networking做一个简单的多人游戏例子-2/3 使用Multiplayer Netw ...

随机推荐

  1. SpringBoot项目启动之前操作,启动之后操作

    1.在Bean对象初始化之前可以做的操作 @Component public class InitBean implements BeanDefinitionRegistryPostProcessor ...

  2. Spring Test+JUnit4整合使用测试ZZJ_淘淘商城项目:day01(RESTful Web Service)

    针对整合的Dao层与Service层,在做spring与通用Mapper和分页插件相关测试时比较麻烦.如果只用JUnit测试,需要每次Test方法里初始化一下applicationContext,效率 ...

  3. 一篇文章带你了解axios网络交互-Vue

    来源:滁州SEO 1 **什么是axios呢?**了解,并去使用它,对于axios发送请求的两种方式有何了解,以及涉及axios跨域问题如何解决. 对于axios网络交互,去使用axios的同时,首先 ...

  4. 把ngnix注册为linux服务 将Nginx设置为linux下的服务

    一.创建服务脚本 vim /etc/init.d/nginx 脚本内容如下 #! /bin/sh # chkconfig: - 85 15 PATH=/web/server/nginx/sbin DE ...

  5. c# winForm 将窗体状态栏StatusStrip 分成左中右三部分 右边显示当前时间

    实现效果:通过StatusStrip显示窗体状态栏同时将状态栏分成三部分居左边显示相关文字信息中间空白显示居右边显示时间信息 1.创建窗体及添加StatusStrip  默认StatusStrip名称 ...

  6. 牛客-Forsaken的数列(Treap)

    题目传送门 sol:第一次看题还真信了是用线段树来做,但是没什么想法,看了题解发现是我不会的Treap,然后花了几天时间学习了一下并补掉题目 无旋Treap #include <bits/std ...

  7. Select(快速选择顺序统计量)原理及C++代码实现

    SELECT算法利用快排中的partition思想来进行无序数组的快速选择. 寻找第i个顺序统计量可以简单理解为寻找第i小的元素. 该算法通过为partition选择一个好的主元,来保证Partiti ...

  8. 2)echo count(strlen("test")) 的输出为____

    结果是  1: 因为count测的是单元的数目,你的一个数组就是一个单元,所以 他的结果就是1 题目出处: https://www.nowcoder.com/test/question/done?ti ...

  9. vscode中的live-server配置https?

    json文件中使用绝对路径添加证书 "liveServer.settings.https": { "enable": true, "cert" ...

  10. Java Class Loader Retrospect