基于 Lucene 的桌面文件搜索

开源2010年，自己在学习 Lucene 时开发的一款桌面文件搜索工具，这么多年过去了，代码一直静静存放在自己的硬盘上，与其让其沉睡，不如分享出来。

这款工具带有明显的模仿 Everything 的痕迹。事实上这是当时某项课程的作业，而那个时候刚好发现了 Eveything 这款神奇的工具，出于想探究其原理，就着手做了一款与其类似的工具，但是最后的结果却是令人不满意的，因为差距仍然是很大。

就比如 Everything 能够实时监测 NTFS 文件的变化（据说是监测 NTFS 的日志）并自动更新索引，而我却需要手动来更新。

虽然这不是一款另我十分满意的作品，但希望其中某些部分能够帮到有需要的人。这里还要感谢共同完成的杨一和江边串串香。

代码开源在 Github 上，地址在这里。

为什么选择 Lucene？

Lucene 是最著名的全文检索引擎的核心库，使用 Lucene 可以让搜索出来的结果按匹配程度排序。
Lucene 有很多版本的实现，Java，C#，Python。
用数据库的模糊搜索也可以实现，但是效果和速度跟 Lucene 还是有差距。

关于 Lucene 的一些资料可以参考车东的笔记。

功能

实现对桌面文件名、MP3 文件 Tag 信息（歌手，专辑，流派，...）的快速检索。

前提：需要先对文件建立索引。

分词

默认情况下使用中文的分词是对词进行切分，比如：

这是文件名 -> 这是|文件名

为了实现对文件名的模糊搜索，需要自定义一个自己的分词，分词效果是对所有的字都进行切分：

这是文件名 -> 这|是|文|件|名

特别指出，Lucene 可以自定义分词，这里就不展开介绍。

在 Lucene.Net.Analysis 中添加一个自己的 MyAnalyzer

//文件：Lucene/Net/Analysis/MyAnalyzer/MyAnalyzer.cs

using System;

using System.Collections.Generic;

using System.Text;

using Lucene.Net.Analysis;

using System.IO;

namespace Lucene.Net.Analysis.MyAnalyzer

{

    public class MyAnalyzer : Analyzer

    {

        public override TokenStream TokenStream(string fieldName, System.IO.TextReader reader)

        {

            TokenStream result = new MyTokenizer(reader);

            return result;

        }

        public override TokenStream ReusableTokenStream(System.String fieldName, System.IO.TextReader reader)

        {

            Tokenizer tokenizer = (Tokenizer)GetPreviousTokenStream();

            if (tokenizer == null)

            {

                tokenizer = new MyTokenizer(reader);

                SetPreviousTokenStream(tokenizer);

            }

            else

                tokenizer.Reset(reader);

            return tokenizer;

        }

    }

}

//文件：Lucene/Net/Analysis/MyAnalyzer/MyTokenizer.cs

using System;

using System.Collections.Generic;

using System.Text;

using System.IO;

using Lucene.Net.Analysis;

using Token = Lucene.Net.Analysis.Token;

using Tokenizer = Lucene.Net.Analysis.Tokenizer;

namespace Lucene.Net.Analysis.MyAnalyzer

{

    public class MyTokenizer : Tokenizer

    {

        public MyTokenizer(System.IO.TextReader input) : base(input)

        { }

        private int start = 0;

        private int length = 0;

        private const int IO_BUFFER_SIZE = 256;

        private char[] ioBuffer = new char[IO_BUFFER_SIZE];

        public override Token Next(Token token)

        {

            token.Clear();

            if (start == 0)

            {

                length = input.Read((System.Char[])ioBuffer, 0, ioBuffer.Length);

                if (length <= 0)

                    return null;

            }

            if (start == length)

                return null;

            token.SetTermBuffer(ioBuffer, start, 1);

            start++;

            token.termBuffer[0] = System.Char.ToLower(token.termBuffer[0]);

            return token;

        }

        public override void Reset(System.IO.TextReader input)

        {

            start = 0;

            length = 0;

        }

    }

}

基于 Lucene 的桌面文件搜索的更多相关文章

Apache Solr采用Java开发、基于Lucene的全文搜索服务器
http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Luc ...
一种安全云存储方案设计（下）——基于Lucene的云端搜索与密文基础上的模糊查询
一种安全的云存储方案设计(未完整理中) 一篇老文了,现在看看错漏颇多,提到的一些技术已经跟不上了.仅对部分内容重新做了一些修正,增加了一些机器学习的内容,然并卵. 这几年来,云产品层出不穷,但其安全性 ...
8 个基于 Lucene 的开源搜索引擎推荐
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出了8种基于Lucene的搜索引擎,你可以想象它们有多么强大. 1. Apache Solr Solr 是一个高性能,采用Java5开发,基于L ...
Lucene5.5.4入门以及基于Lucene实现博客搜索功能
前言一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客 ...
基于Solr的空间搜索
如果需要对带经纬度的数据进行检索,比如查找当前所在位置附近1000米的酒店,一种简单的方法就是:获取数据库中的所有酒店数据,按经纬度计算距离,返回距离小于1000米的数据. 这种方式在数据量小的时候比 ...
WebGIS中解决使用Lucene进行兴趣点搜索排序的两种思路
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.背景目前跟信息采集相关的一个项目提出了这样的一个需求:中国银行等 ...
WebGIS中兴趣点简单查询、基于Lucene分词查询的设计和实现
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.前言兴趣点查询是指:输入框中输入地名.人名等查询信息后,地图上可 ...
Apache Lucene(全文检索引擎)—搜索
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
基于lucene的案例开发：查询语句创建PackQuery
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44656141 http://www.llwjy.com/blogdetail/1 ...

随机推荐

PistgreSQL9.6手册（基础摘录）
学习目的:基础使用. 能够开发RoR就行. git: https://github.com/postgres-cn/pgdoc-cn 1.2. 架构基础 PostgreSQL使用一种客户端/服务器的模 ...
Luogu P4062 [CTSC2018]混合果汁 (主席树)
二分$d$, 转为判断判断是否能取到$Lj$升, 再可持久化一下就好了 #include <iostream> #include <algorithm> #include &l ...
UVA-1617 Laptop （贪心）
题目大意:有n条长度为1的线段,n个区间,第i条线段在第i个区间中,问线段之间的最少间隙有几个. 题目分析:先对区间排序,先按右端点排,再按左端点排.有重叠的区间(仅有交点重叠也视为重叠)之间一定可以 ...
canvas实现的时钟效果
最近在网上看到了一个css3实现的可爱时钟,觉得很nice,然后就想着用canvas试试实现这个时钟效果. 首先,要实现时钟需要先计算时钟上的数字应该占整个圆的大小. 因为一个圆是360度,所以数字之 ...
040——VUE中组件之组件间的数据参props的使用实例操作
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
『转』市售热门可穿戴式“活动追踪器 Tracker”导购指南
充足的运动对于幸福的生活来说是至关重要的,但很多人总是找不到足够的时间运动,所以远远达不到日常需要的运动标准.这就是为什么今天活动跟踪器成为了热门话题,尤其是对于注重健康的消费者来说.除BodyMed ...
PostgreSQL truncate table会释放索引的空间
apple=# create table test(id integer, info text); CREATE TABLE apple=# insert into test select gener ...
python切片取值和下标取值时,超出范围怎么办?
可迭代对象下标取值超出索引范围,会报错:IndexError 可迭代切片取值超出索引范围,不报错,而是返回对应的空值. a=[1,2,3,4] a[99] Traceback (most recent ...
python中多线程
多线程什么是多线程开启线程的两种方式进程和线程的区别 Thread对象的其他属性和方法守护线程死锁现象与递归锁信号量.Event定时器线程Queue 进程池和线程池什么是多线程在传统 ...
addpath
这个命令见得很多了,一直懒得理他,自己直接加绝对路径.但是,这个破命令出现太多,我改得都掉脾气,写写. 1. 添加路径:addpath('当前路径中的文件夹名1','当前路径下的文件夹名2','当前 ...

基于 Lucene 的桌面文件搜索

功能

分词

相关注意事项

基于 Lucene 的桌面文件搜索的更多相关文章

随机推荐

热门专题