Luncence .Net 使用

    public partial class Form1 : Form

    {

        public Form1()

        {

            InitializeComponent();

        }

          //标准分词

        private void button1_Click(object sender, EventArgs e)

        {

            Analyzer analyzer = new StandardAnalyzer();

            TokenStream tokenStream = analyzer.TokenStream("", new StringReader("i love you 小谢同学是我的老婆！"));

            Lucene.Net.Analysis.Token token = null;

            while ((token=tokenStream.Next())!=null)

            {

                Console.WriteLine(token.TermText());

            }

        }

        //单个分词

        private void button2_Click(object sender, EventArgs e)

        {

            Analyzer analyzer =new  CJKAnalyzer();

            TokenStream tokenStream = analyzer.TokenStream("", new StringReader("我爱你"));

            Lucene.Net.Analysis.Token token=new Lucene.Net.Analysis.Token();

            while ((token=tokenStream.Next())!=null)

            {

                Console.WriteLine(token.TermText());

            }

        }

           //盘库分词

        private void button3_Click(object sender, EventArgs e)

        {

            Analyzer analyzer=new PanGuAnalyzer();

            TokenStream tokenStream = analyzer.TokenStream("", new StringReader("小谢是我的老婆！千真万确"));

            Lucene.Net.Analysis.Token token=new Lucene.Net.Analysis.Token();

            while ((token=tokenStream.Next())!=null)

            {

                Console.WriteLine(token.TermText());

            }

        }

        private void button4_Click(object sender, EventArgs e)

        {

        }

        /// <summary>

        /// 搜索内容

        /// </summary>

        /// <param name="sender"></param>

        /// <param name="e"></param>

        private void button5_Click(object sender, EventArgs e)

        {

        }

        private void button4_Click_1(object sender, EventArgs e)

        {

            string indexPath = @"C:\lucenedir";//注意和磁盘上文件夹的大小写一致，否则会报错。将创建的分词内容放在该目录下。

            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());//指定索引文件(打开索引目录) FS指的是就是FileSystem

            bool isUpdate = IndexReader.IndexExists(directory);//IndexReader:对索引进行读取的类。该语句的作用：判断索引库文件夹是否存在以及索引特征文件是否存在。

            if (isUpdate)

            {

                //同时只能有一段代码对索引库进行写操作。当使用IndexWriter打开directory时会自动对索引库文件上锁。

                //如果索引目录被锁定（比如索引过程中程序异常退出），则首先解锁（提示一下：如果我现在正在写着已经加锁了，但是还没有写完，这时候又来一个请求，那么不就解锁了吗？这个问题后面会解决）

                if (IndexWriter.IsLocked(directory))

                {

                    IndexWriter.Unlock(directory);

                }

            }

            IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), !isUpdate, Lucene.Net.Index.IndexWriter.MaxFieldLength.UNLIMITED);//向索引库中写索引。这时在这里加锁。

            for (int i = ; i <= ; i++)

            {

                string txt = File.ReadAllText(@"D:\lucencetest.txt", System.Text.Encoding.Default);//注意这个地方的编码

                writer.DeleteDocuments(new Term("number", "鹏"));//删除文档

                Document document = new Document();//表示一篇文档。

                //Field.Store.YES:表示是否存储原值。只有当Field.Store.YES在后面才能用doc.Get("number")取出值来.Field.Index. NOT_ANALYZED:不进行分词保存

                document.Add(new Field("number", "鹏", Field.Store.YES, Field.Index.NOT_ANALYZED));

                //Field.Index. ANALYZED:进行分词保存:也就是要进行全文的字段要设置分词 保存（因为要进行模糊查询）

                //Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS:不仅保存分词还保存分词的距离。

                document.Add(new Field("body", txt, Field.Store.YES, Field.Index.ANALYZED, Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS));

                writer.AddDocument(document);

            }

            writer.Close();//会自动解锁。

            directory.Close();//不要忘了Close，否则索引结果搜不到

        }

        private void button5_Click_1(object sender, EventArgs e)

        {

            string indexPath = @"C:\lucenedir";

            string kw = "鹏";

            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());

            IndexReader reader = IndexReader.Open(directory, true);

            IndexSearcher searcher = new IndexSearcher(reader);

            //搜索条件

            //PhraseQuery query = new PhraseQuery();

            //foreach (string word in kw.Split(' '))//先用空格，让用户去分词，空格分隔的就是词“计算机   专业”

            //{

            //    query.Add(new Term("body", word));

            //}

            //query.Add(new Term("body","语言"));--可以添加查询条件，两者是add关系.顺序没有关系.

            //  query.Add(new Term("body", "大学生"));

           // query.Add(new Term("body", kw));//body中含有kw的文章

           // query.Add(new Term("number",kw) );

           // query.SetSlop(100);//多个查询条件的词之间的最大距离.在文章中相隔太远 也就无意义.（例如 “大学生”这个查询条件和"简历"这个查询条件之间如果间隔的词太多也就没有意义了。）

            //TopScoreDocCollector是盛放查询结果的容器

            string[] queries =

            {

                kw,kw

            };

            string []fields = {"number","body"};

            Query query = MultiFieldQueryParser.Parse(queries, fields, new PanGuAnalyzer()); //创建检索

            TopScoreDocCollector collector = TopScoreDocCollector.create(, true);

            searcher.Search(query, null, collector);//根据query查询条件进行查询，查询结果放入collector容器

            ScoreDoc[] docs = collector.TopDocs(, collector.GetTotalHits()).scoreDocs;//得到所有查询结果中的文档,GetTotalHits():表示总条数   TopDocs(300, 20);//表示得到300（从300开始），到320（结束）的文档内容.

            //可以用来实现分页功能

            this.listBox1.Items.Clear();

            for (int i = ; i < docs.Length; i++)

            {

                //

                //搜索ScoreDoc[]只能获得文档的id,这样不会把查询结果的Document一次性加载到内存中。降低了内存压力，需要获得文档的详细内容的时候通过searcher.Doc来根据文档id来获得文档的详细内容对象Document.

                int docId = docs[i].doc;//得到查询结果文档的id（Lucene内部分配的id）

                Document doc = searcher.Doc(docId);//找到文档id对应的文档详细信息

                this.listBox1.Items.Add(doc.Get("number") + "\n");// 取出放进字段的值

                this.listBox1.Items.Add(doc.Get("body") + "\n");

                this.listBox1.Items.Add("-----------------------\n");

            }

        }

    }

}

Luncence .Net 使用的更多相关文章

luncence
问题的提出: 我们在访问淘宝,京东这些商城系统的时候,我们可以随意的在文本框输入关键字就可以获取到所想要的信息或者相关的信息,那么我们到底是如何实现这个功能的呢,为什么可以随意的输入就可以显示相关的信 ...
全文检索luncence
检索技术基本原理: 最主要的两点是 1.如何创建索引 2.如何查询. 分析需求: 好几篇文档,从这些文档找关键词,一种方式是顺序一个个遍历,加入这些文档量很多,就花费太长时间了,第二种是建立索引, ...
2018/2/5 ELK技术栈之ElasticSearch学习笔记
npm config set registry https://registry.npm.taobao.org npm config get registry 支持跨域访问http.cors.enab ...
solr全文检索实现原理
本文转自:https://blog.csdn.net/u014209975/article/details/53263642 https://blog.csdn.net/lihang_1994/ ...
Lucene入门学习二
接上篇:增删改查增加:这里不做过多阐述. 删除:删除全部,根据条件删除修该:先删除,后添加查询(*):查询所有,精确查询,根据数值范围查询,组合查询,解析查询. package com.ithe ...
利用solr实现商品的搜索功能
后期补充: 为什么要用solr服务,为什么要用luncence? 问题提出:当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容,这是怎么做到呢?这些随意的数据 ...
lucene和solr
我们为什么要用solr呢? 1.solr已经将整个索引操作功能封装好了的搜索引擎系统(企业级搜索引擎产品) 2.solr可以部署到单独的服务器上(WEB服务),它可以提供服务,我们的业务系统就只要发送 ...

随机推荐

C#中的那些全局异常捕获
1.WPF全局捕获异常 public partial class App : Application { public App() { // 在异 ...
HTML Table导出为Excel的方法
HTML Table导出为Excel的方法: 直接上源码 <html> <head> <meta http-equiv="Content-Type" ...
linux下系统对于sigsegv错误时的处理
一般来讲,对非法地址的访问会导致应用程序收到由系统发送的sigsegv信号,默认情况下,函数对于这个信号的处理是退出. 但是为了方便调试,我们可以自己设置处理函数,使用signal函数. 这里比较重要 ...
FineUI第十八天---表格之事件的处理
表格之事件的处理: 1.事件参数: GridPageEventArgs:表格分页事件参数,对应onPageIndexChange事件. NewPageIndex:新页面的索引 GridSortEven ...
HDU 5592
原题: http://acm.hdu.edu.cn/showproblem.php?pid=5592 线段树的变形,先说思路. 题目中给出了当前节点之前的逆序对数,则p[i]-p[i-1]就是对于p[ ...
javaweb 解决将ajax返回的内容用document.write写入，FireFox一直加载的问题
在document.write方法后加上document.close就解决了, 想知道原理的小伙伴可以继续看浏览器在解析html时会打开一个流,这是用document.write中写入,是加入当解析 ...
DOM之节点层次
1.1 Node类型 DOM1级定义了一个Node接口,该接口将由DOM中的所有节点类型实现.这个Node接口在JS中是作为Node类型实现的:除了IE之外,其他浏览器可访问这个类型.JS中的所有节点 ...
C++公有派生
C++中的公有派生: 1.格式:Class A:public B{...}: 例如我们先声明了一个基类:SafeIntArray,当我们要声明它的派生类IndexIntArray时,格式如下:
Apache + Tomcat + mod_jk实现集群服务
Tomcat中的集群原理是通过组播的方式进行节点的查找并使用TCP连接进行会话的复制. 实现效果:用apache 分发请求到tomcat中的对应的项目环境说明: 操作系统:window xp Jav ...
OpenCV成长之路(8)：直线、轮廓的提取与描述
基于内容的图像分析的重点是提取出图像中具有代表性的特征,而线条.轮廓.块往往是最能体现特征的几个元素,这篇文章就针对于这几个重要的图像特征,研究它们在OpenCV中的用法,以及做一些简单的基础应用. ...

Luncence .Net 使用

Luncence .Net 使用的更多相关文章

随机推荐

热门专题