lucene.net的一个动态更新类
工作的需要,需要对于lucene.net索引即时的更新,毕竟lucene.net的索引重建的话比较慢,数据量大的时候建下要几天,所以就写个了缓冲类来解决即时的更新的问题,其实还是比较简单的。
大体上的原理就是创建的时候创建两组Directory 一组在内存中,一组在硬盘上,搜索的时候可以进行合并去搜索,后续的操作都直接暂放到内存中,定时的去同步到硬盘上,删除或者更新的时候内存中有一缓存Query,用来排除被更新或者删除的内容,当搜索的时候,自动忽略掉这部分的内容去集中,就解决了大多数的问题了。
OK.看代码的实现。
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using S = System.Timers;
using IO = System.IO;
using Lucene.Net.Documents;
using Lucene.Net.Store;
using Lucene.Net.Search;
using Lucene.Net.Index;
using Lucene.Net.Analysis;
using System.Collections;
using Lucene.Net.Analysis.MMSeg;
namespace SearchSample
{
public class BufferDirectory
{
private static readonly Analyzer _analysis;
private static readonly string _path;
private static RAMDirectory _ramIndex;
private static readonly IndexWriter _ramWrite;
private static BufferDirectory _directory;
private static object _lock = new object();
private static BooleanQuery _query = new BooleanQuery();
private static object _querylock = new object();
static BufferDirectory()
{
_path = IO.Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "Index");
_ramIndex = new RAMDirectory();
_ramWrite = new IndexWriter(_ramIndex, DefaultAnalyzer.Analyzer, true, IndexWriter.MaxFieldLength.LIMITED);
_analysis = DefaultAnalyzer.Analyzer;
var tmpFs = FSDirectory.Open(_path);
if (Lucene.Net.Index.IndexReader.IndexExists(tmpFs))
{
using (IndexWriter tmp = new IndexWriter(tmpFs, _analysis, false, IndexWriter.MaxFieldLength.LIMITED))
{
}
}
else
{
using (IndexWriter tmp = new IndexWriter(tmpFs, _analysis, true, IndexWriter.MaxFieldLength.LIMITED))
{
}
}
}
~BufferDirectory()
{
_ramIndex.Dispose();
_ramWrite.Dispose();
_query = null;
}
public static BufferDirectory InitConfig()
{
if (_directory == null)
{
lock (_lock)
{
if (_directory == null)
{
_directory = new BufferDirectory();
}
}
}
return _directory;
}
public static BufferDirectory Instance()
{
return _directory;
}
/// <summary>
/// 重启缓存区
/// </summary>
public static void Reset()
{
lock (_lock)
{
_directory = null;
InitConfig();
}
lock (_querylock)
{
_query = null;
_query = new BooleanQuery();
}
return;
}
/// <summary>
/// 初始化的时候注册,注册为全局生效
/// </summary>
/// <param name="before"></param>
public static void BeforeConfig(BeforeSetDocument before)
{
if (_directory == null)
{
throw new NullReferenceException("BufferDirectory为空");
}
_directory.BeforeSetDocumentHandler += before;
return;
}
/// <summary>
/// 初始化的时候注册,注册为全局生效
/// </summary>
/// <param name="after"></param>
public static void AfterConfig(AfterSetDocument after)
{
if (_directory == null)
{
throw new NullReferenceException("BufferDirectory为空");
}
_directory.AfterSetDocumentHandler += after;
return;
}
/// <summary>
/// 更新删除Query
/// </summary>
/// <param name="query"></param>
/// <returns></returns>
public static void IgnoreQuery(Query query, Occur occur)
{
lock (_querylock)
{
_query.Add(query, occur);
}
return;
}
public static Query IgnoreQuery()
{
return _query;
}
public delegate void BeforeSetDocument(Document document);
public event BeforeSetDocument BeforeSetDocumentHandler;
public delegate void AfterSetDocument(Document document);
public event AfterSetDocument AfterSetDocumentHandler;
private BufferDirectory()
{
}
//public void SetIndexWriter(Action<IndexWriter> action)
//{
// action(_index2);
// return;
//}
public void CreateDocument(Document documnet)
{
try
{
if (BeforeSetDocumentHandler != null)
BeforeSetDocumentHandler(documnet);
_ramWrite.AddDocument(documnet);
if (AfterSetDocumentHandler != null)
AfterSetDocumentHandler(documnet);
}
catch
{
}
finally
{
_ramWrite.Commit();
}
return;
}
public static void UpdateOrSaved()
{
_ramWrite.Optimize();
using (IndexWriter update = new IndexWriter(FSDirectory.Open(_path), _analysis, false, IndexWriter.MaxFieldLength.LIMITED))
{
try
{
update.AddIndexes(IndexReader.Open(_ramIndex, true));
update.DeleteDocuments(_query);
update.Commit();
update.Optimize();
}
catch
{
}
finally
{
_ramIndex.Dispose();
_ramIndex = null;
_ramIndex = new RAMDirectory();
using (IndexWriter tmp = new IndexWriter(_ramIndex, _analysis, true, IndexWriter.MaxFieldLength.LIMITED))
{
}
}
}
return;
}
public static IndexReader Reader()
{
return new MultiReader(IndexReader.Open(FSDirectory.Open(_path), false), IndexReader.Open(_ramIndex, false));
}
}
}
大体上也就这样逻辑,但是还有一个就是内存中的索引持久问题,毕竟如果不进行持久,在AppDomain重启会导致内存中的索引删除,而导致的索引不同步。
这样可以通过BeforeSetDocumentHandler 和AfterSetDocumentHandler事件来写入到持久的临时缓冲器,加载的时候自动优先加载这部分的临时缓存区,于是就算比较完整的实现lucene.net动态维护了。
当然这些是比较粗暴的方法,还有一些更好的维护策略,就以后再慢慢总结了。
lucene.net的一个动态更新类的更多相关文章
- vue+vuex+axios+echarts画一个动态更新的中国地图
一. 生成项目及安装插件 # 安装vue-cli npm install vue-cli -g # 初始化项目 vue init webpack china-map # 切到目录下 cd china- ...
- JAVA代码热部署,在线不停服动态更新
本地debug的时候,可以实时编译并更新代码,线上也可以不停服来动态更新类,即所说的java热部署. JDK代理的两种方式: 1.premain方式是Java SE5开始就提供的代理方式,但其必须 ...
- C++学习之动态数组类的封装
动态数组(Dynamic Array)是指动态分配的.可以根据需求动态增长占用内存的数组.为了实现一个动态数组类的封装,我们需要考虑几个问题:new/delete的使用.内存分配策略.类的四大函数(构 ...
- ajax动态更新下拉列表
前面做了一个ajax的小demo,今天看一个动态更新下拉列表,或者也叫级联更新下拉列表,这个也是利用ajax的异步调用去后台实现数据请求.然后回到前台完毕下拉列表数据的更新,以增强web应用的交互性. ...
- Unity热更新之C#反射动态获取类属性及方法
如果我们要为发布出去的游戏更新一些功能,但又不想让用户重新下载整个游戏包,只让他下载我们更新的资源包,用assetBundle打包资源的方式是可以的,但其中有个最大的例外,那就是脚本. 虽然asset ...
- Vue父组件向子组件传递一个动态的值,子组件如何保持实时更新实时更新?
原文:https://blog.csdn.net/zhouweixue_vivi/article/details/78550738 2017年11月16日 14:22:50 zhouweixue_vi ...
- C#编写了一个基于Lucene.Net的搜索引擎查询通用工具类:SearchEngineUtil
最近由于工作原因,一直忙于公司的各种项目(大部份都是基于spring cloud的微服务项目),故有一段时间没有与大家分享总结最近的技术研究成果的,其实最近我一直在不断的深入研究学习Spring.Sp ...
- java动态更新枚举类
工作中遇到需要对枚举类的值进行动态更新 手动改不现实也不方便 现记录下来方便以后学习使用 1.在工程utils包中添加动态更新枚举类得工具类(根据自己得项目,放到指定位置调用就可以) 2.一开始陷入了 ...
- 模仿.NET框架ArrayList写一个自己的动态数组类MyArrayList,揭示foreach实现原理
通过.NET反编译工具可以查看到ArrayList内部的代码,发现ArrayList并非由链表实现,而是由一个不断扩容的数组对象组成. 下面模仿ArrayList写一个自己的MyArrayList. ...
随机推荐
- ubuntu14.04中文楷体变默认字体
使用ubuntu以来,最让人头疼的事情就是在英文系统里面使用中文,一般中文字体都很难看,要么有锯齿,要么就是楷体.经过网上搜索找到一堆方法.一个个尝试之后觉得以下方式是最简单有效的. 1.安装font ...
- CSS Sticky Footer: 完美的CSS绝对底部
CSS的简单在于它易学,CSS的困难在于寻找更好的解决方案.在CSS的世界里,似乎没有完美这种说法.所以,现在介绍的CSS绝对底部,只是目前个人见过的方案中比较完美的吧. 先说我们为什么会使用到这个C ...
- paip.日期时间操作以及时间戳uapi php java python 总结
paip.日期时间操作以及时间戳uapi php java python 总结 ///uapi Date 函数 | Day 函数 | Hour 函数 | Minute 函数 | Month 函数 | ...
- HTML+CSS小实战案例
HTML+CSS小实战案例 登录界面的美化,综合最近所学进行练习 网页设计先布局,搭建好大框架,然后进行填充,完成页面布局 <html> <head> <meta htt ...
- bzoj 1191: [HNOI2006]超级英雄Hero
1191: [HNOI2006]超级英雄Hero Time Limit: 10 Sec Memory Limit: 162 MB 二分图匹配... Description 现在电视台有一种节目叫做超 ...
- arcgis server账号需要设置地图缓存的访问权限
如果gis服务起不来,那么可以看看arcgis server账号有没有设置地图缓存的访问权限,有可能arcgis server账号没有这个文件夹的访问权限. 本文用菊子曰发布
- 关于C++ const 的全面总结
http://blog.csdn.net/Eric_Jo/article/details/4138548 C++中的const关键字的用法非常灵活,而使用const将大大改善程序的健壮性,本人根据各方 ...
- android: 从相册中选择照片
虽然调用摄像头拍照既方便又快捷,但并不是每一次我们都需要去当场拍一张照片的. 因为每个人的手机相册里应该都会存有许许多多张照片,直接从相册里选取一张现有的照 片会比打开相机拍一张照片更加常用.一个优秀 ...
- 部分设备在微信内无法播放audio的解决方案
临时接到一个紧急的需求,一个活动页面,在某台iPhone 5S设备上无法播放音频,其它设备均正常.我接到这个任务时,也是一脸懵逼,试过在audio标签上添加controls属性来显示audio,结果发 ...
- django 注册、登录及第三方接口程序(4):扩展邮箱注册,登录,微博登录
1.邮箱注册 这里需要扩展User,两种解决办法,1,注册时将email字段内容赋给username,这种瞒天过海型的,另一种就是扩展user,这里介绍django1.5的扩展方法. 1.settin ...