Lucene.net 全文检索文件

using Lucene.Net.Analysis;

using Lucene.Net.Analysis.Tokenattributes;

using Lucene.Net.Documents;

using Lucene.Net.Index;

using Lucene.Net.QueryParsers;

using Lucene.Net.Search;

using Lucene.Net.Store;

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

namespace TestApp

{

    class Program

    {

        static void Main()

        {

            #region 查词

            StringBuilder sb = new StringBuilder();

            //索引库目录

            Lucene.Net.Store.Directory dir_search = FSDirectory.Open(new System.IO.DirectoryInfo("IndexDir"), new NoLockFactory());

            IndexReader reader = IndexReader.Open(dir_search, true);

            IndexSearcher search = null;

            try

            {

                search = new IndexSearcher(reader);

                QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_30, "body", new PanGuAnalyzer());

                Query query = parser.Parse(LuceneHelper.GetKeyWordSplid("文章"));

                //执行搜索，获取查询结果集对象

                TopDocs ts = search.Search(query, null, );

                ///获取命中的文档信息对象

                ScoreDoc[] docs = ts.ScoreDocs;

                for (int i = ; i < docs.Length; i++)

                {

                    int docId = docs[i].Doc;

                    Document doc = search.Doc(docId);

                    var t = doc.Get("number");

                    Console.WriteLine(t);

                    var b = doc.Get("body");

                    Console.WriteLine(b);

                }

            }

            catch (Exception ex)

            {

                throw;

            }

            finally

            {

                if (search != null)

                    search.Dispose();

                if (dir_search != null)

                    dir_search.Dispose();

            }

            #endregion

        }

        //帮助类，对搜索的关键词进行分词

        public static class LuceneHelper

        {

            public static string GetKeyWordSplid(string keywords)

            {

                StringBuilder sb = new StringBuilder();

                Analyzer analyzer = new PanGuAnalyzer();

                TokenStream stream = analyzer.TokenStream(keywords, new StringReader(keywords));

                ITermAttribute ita = null;

                bool hasNext = stream.IncrementToken();

                while (hasNext)

                {

                    ita = stream.GetAttribute<ITermAttribute>();

                    sb.Append(ita.Term + " ");

                    hasNext = stream.IncrementToken();

                }

                return sb.ToString();

            }

        }

        /// <summary>

        /// 创建索引文件

        /// </summary>

        private static void CreateIndex()

        {

            IndexWriter writer = null;

            Analyzer analyzer = new PanGuAnalyzer();

            Lucene.Net.Store.Directory dir = FSDirectory.Open(new System.IO.DirectoryInfo("../ItemIndexDir"));

            try

            {

                ////IndexReader:对索引进行读取的类。

                //该语句的作用：判断索引库文件夹是否存在以及索引特征文件是否存在。

                bool isCreate = !IndexReader.IndexExists(dir);

                writer = new IndexWriter(dir, analyzer, isCreate, IndexWriter.MaxFieldLength.UNLIMITED);

                //添加索引

                for (int i = ; i <= ; i++)

                {

                    Document doc = new Document();

                    string path = System.IO.Directory.GetParent(System.IO.Directory.GetCurrentDirectory()).Parent.FullName + @"\Data\Test\" + i + ".txt";

                    string text = File.ReadAllText(path, Encoding.Default);

                    //Field.Store.YES:表示是否存储原值。只有当Field.Store.YES在后面才能用doc.Get("number")取出值来.Field.Index. NOT_ANALYZED:不进行分词保存

                    doc.Add(new Field("number", i.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));

                    // Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS:不仅保存分词还保存分词的距离。

                    doc.Add(new Field("body", text, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS));

                    writer.AddDocument(doc);

                }

                writer.Optimize();

            }

            catch (Exception ex)

            {

                throw;

            }

            finally

            {

                if (writer != null)

                    writer.Dispose();

                if (dir != null)

                    dir.Dispose();

            }

        }

    }

}

Lucene.net 全文检索文件的更多相关文章

lucene解决全文检索word2003，word2007的办法
在上一篇文章中 ,lucene只能全文检索word2003,无法检索2007,并且只能加载部分内容,无法加载全文内容.为解决此问题,找到了如下方法 POI 读取word (word 2003 和 wo ...
Solr4.8.0源码分析(10)之Lucene的索引文件(3)
Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...
JAVAEE——Lucene基础：什么是全文检索、Lucene实现全文检索的流程、配置开发环境、索引库创建与管理
1. 学习计划第一天:Lucene的基础知识 1.案例分析:什么是全文检索,如何实现全文检索 2.Lucene实现全文检索的流程 a) 创建索引 b) 查询索引 3.配置开发环境 4.创建索引库 5 ...
Solr4.8.0源码分析(12)之Lucene的索引文件(5)
Solr4.8.0源码分析(12)之Lucene的索引文件(5) 1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的.为了提升压缩比,S ...
Solr4.8.0源码分析(11)之Lucene的索引文件(4)
Solr4.8.0源码分析(11)之Lucene的索引文件(4) 1. .dvd和.dvm文件 .dvm是存放了DocValue域的元数据,比如DocValue偏移量. .dvd则存放了DocValu ...
Solr4.8.0源码分析(9)之Lucene的索引文件(2)
Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/ ...
Solr4.8.0源码分析(8)之Lucene的索引文件(1)
Solr4.8.0源码分析(8)之Lucene的索引文件(1) 题记:最近有幸看到觉先大神的Lucene的博客,感觉自己之前学习的以及工作的太为肤浅,所以决定先跟随觉先大神的博客学习下Lucene的原 ...
Lucene的全文检索学习
Lucene的官方网站(Apache的顶级项目):http://lucene.apache.org/ 1.什么是Lucene? Lucene 是 apache 软件基金会的一个子项目,由 Doug C ...
基于Lucene的全文检索实践
由于项目的需要,使用到了全文检索技术,这里将前段时间所做的工作进行一个实践总结,方便以后查阅.在实际的工作中,需要灵活的使用lucene里面的查询技术,以达到满足业务要求与搜索性能提升的目的. 一.全 ...

随机推荐

【校招面试之 C/C++】第4题拷贝构造函数被调用的3个时机
1.被调用的3个时机: (1)直接初始化或拷贝初始化: (2)将一个对象作为一个实参传递,形参采用非指针或非引用的对象进行接收时(指针即指向了同一块空间,并未实现拷贝:而引用就是实参本身): (3)函 ...
在不用重做系统下，把硬盘IDE模式修改为AHCI模式
Win10自2015年7月29日诞生以来已经3年多了,虽然截至到现在Win7用户使用者仍然比Win10用户多,但是Win10用户也在逐渐增加所使用的硬件--硬盘用户为了更好的体验,也逐步的从H ...
myschool 相思树
题目描述一群妖王排成一排站在苦情巨树下,寻找自己的转世恋人.虽然都是妖王,但按照涂山的规定必须进行标号,标号为1的妖王排在最后面,标号为n的妖王排在最前面.每个妖王只有一个妖力值a[i]表示它们现在 ...
七大排序的个人总结（二）归并排序（Merge
七大排序的个人总结(二) 归并排序(Merge 归并排序(Merge Sort): 归并排序是一个相当“稳定”的算法对于其它排序算法,比如希尔排序,快速排序和堆排序而言,这些算法有所谓的最好与最 ...
Yandex插件使用说明——Slager_Z
Yandex插件使用说明——Slager_Z 操作步骤: 1.1使用Chrome浏览器安装插件 / 1.2使用crx格式文件 2. 改装成Yandex可使用文件 3. 通过Yandex ...
laravel在控制器中赋值给视图
1.控制器 2.视图
如何从dvi生成pdf--------亲测有效果.
用里面第二个命令. http://blog.csdn.net/u014682350/article/details/46482477
Product of integers
https://github.com/Premiumlab/Python-for-Algorithms--Data-Structures--and-Interviews/blob/master/Moc ...
[转]关于docker包存储结构说明
原文:http://blog.csdn.net/w412692660/article/details/49005631 前段时间与同事交流docker的安装包层次结构,并沟通相关每个文件的作用,但是一 ...
用jQ实现一个简易计算器
HTML和CSS结构: <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...

Lucene.net 全文检索文件

Lucene.net 全文检索文件的更多相关文章

随机推荐

热门专题