Lucene.Net 2.3.1开发介绍 —— 二、分词（四）

2.1.2 可以使用的内置分词

简单的分词方式并不能满足需求。前文说过Lucene.Net内置分词中StandardAnalyzer分词还算比较实用(见1.1.2小节)。StandardAnalyzer为什么能满足我们的部分需求，而它又有哪些不足呢？看分词的好坏还是要从效果说起。简单的说，在中英文混合的情况下，StandardAnalyzer会把英文按空格拆，而中文则按单字拆。因为中文是按单字拆，所以对分词的准确性起到了干扰，搜索结果就会不准确，至少理论上是这样的。但是实际上StandardAnalyzer分词器并没有我们想的那么差劲。因为搜索不光与分词有关，还和查询的逻辑有关，这个会在第四章讲搜索的时候讲。作为其中的一个重要要素的，可以说是基础的分词器，当然还是扮演了很关键的角色，查询的逻辑是以分词为基础的。分词是原石，而查询逻辑则能对它雕琢。

事实上如果没有用过StandardAnalyzer分词器，没有用它来解决一些问题，并且找到有哪些地方不足，那并不能弄清楚你要什么样的分词器。比如，现在有一些内容，用StandardAnalyzer作为分词器已经建立好了索引，接下来，进行查询操作。

代码 2.1.2.1

 

Code 1using System; 2using Lucene.Net.Analysis; 3using Lucene.Net.Analysis.Standard; 4using Lucene.Net.Documents; 5using Lucene.Net.Index; 6using Lucene.Net.QueryParsers; 7using Lucene.Net.Search; 8using NUnit.Framework; 9using System.Collections.Generic;1011namespace Test12{13    [TestFixture]14    public class StandardAnalyzerCaseTest15    {16        /**//// <summary>17        /// 执行测试的入口18        /// </summary>19        [Test]20        public void SearcherTest()21        {22            Index();23            List<string> list = new List<string>() { "中华", "中国", "人民", "中国人民", "人民" };24            for (int i = 0; i < list.Count; i++)25            {26                Console.WriteLine("搜索词：" + list[i]);27                Console.WriteLine("结果：");28                Searcher(list[i]);29                Console.WriteLine("-----------------------------------");30            }31        }3233        /**//// <summary>34        /// 搜索35        /// </summary>36        /// <param name="querystring">搜索输入</param>37        private void Searcher(string querystring)38        {39            Analyzer analyzer = new StandardAnalyzer();40            IndexSearcher searcher = new IndexSearcher("IndexDirectory");41            QueryParser parser = new QueryParser("content", analyzer);42            Query query = parser.Parse(querystring);43            Hits hits = searcher.Search(query);44            for (int i = 0; i < hits.Length(); i++)45            {46                Console.WriteLine(hits.Doc(i).Get("content"));47            }48        }4950        /**//// <summary>51        /// 索引数据52        /// </summary>53        private void Index()54        {55            Analyzer analyzer = new StandardAnalyzer();56            IndexWriter writer = new IndexWriter("IndexDirectory", analyzer, true);57            AddDocument(writer, "中华人民共和国");58            AddDocument(writer, "中国人民解放军");59            AddDocument(writer, "人民是伟大的，祖国是伟大的。");60            AddDocument(writer, "你站在边上，我站在中央。");61            writer.Optimize();62            writer.Close();63        }64        /**//// <summary>65        /// 为索引准备数据66        /// </summary>67        /// <param name="writer">索引实例</param>68        /// <param name="content">需要索引的数据</param>69        void AddDocument(IndexWriter writer, string content)70        {71            Document document = new Document();72            document.Add(new Field("content", content, Field.Store.YES, Field.Index.TOKENIZED));73            writer.AddDocument(document);74        }75    }76}77

代码2.1.2.1，先是把四句话进行了索引，尔后，分别用5个词进行了查询。运行结果：

搜索词：中华
结果：
中华人民共和国
-----------------------------------
搜索词：中国
结果：
中国人民解放军
-----------------------------------
搜索词：人民
结果：
中华人民共和国
中国人民解放军
人民是伟大的，祖国是伟大的。
-----------------------------------
搜索词：中国人民
结果：
中国人民解放军
-----------------------------------
搜索词：人民
结果：
中华人民共和国
中国人民解放军
人民是伟大的，祖国是伟大的。
-----------------------------------

发现结果还很不错，结果都在我们的预料之中，StandardAnalyzer分词器很好啊！为什么说它不行呢？接着，用StandardAnalyzer分词器为网站建立了索引，然后开始使用，问题就出现了。用户输入的往往不是一个词，而是几个词，或者干脆就是一句话。把问题简化一下，就用代码2.1.2.1作为模型。假如，现在索引进了四句话变成这样：

（1）、英语单词，语法，口语都很重要。

（2）、口语，语法，单词都是英语的重要组成部分。

（3）、我们要学好英语不但要学语法，单词还有口语。

（4）、对于学英语，只掌握单词语法，还是没办法跟别人沟通，必须能说出流利的口语。

假设，我们要搜索这四句话，也用5中输入：
（1）、英语

（2）、语法

（3）、单词

（4）、口语

（5）、英语单词

测试，结果对于输入的1，2，3，4前四个关键词，没问题，而第5个只能搜索到一个结果，这就纳闷了，明明每句话都包含了“英语”，“单词”这两个词汇，为什么不行呢？而把输入词换成“英语口语”，更邪门！没了，一个结果都没有。这是为什么呢？这个要从Lucene.Net的查询表达式说起。

话说，为了让Lucene.Net能灵活得搜索，因此，Lucene.Net引入了查询表达式，就和T-Sql的查询语句差不多，只是表现的代码不一样。现在对代码2.1.2.1做一个调整，在Query query = parser.Parse(querystring);语句下面加一句“Console.WriteLine(query.ToString());”，这个输出的就是查询表达式。而对于“英语单词”这个词，代码2.1.2.1会把它解析为——content:"英语单词"——意思是在content字段，找“英”，“语”,“单”,“词”这四个字，并且，这四个字要连在一起。这显然不是我们想要的。而在用baidu或者google搜索的时候，如果输入的多个词之间加上空格就不一样了，同样，放到这里来试试。把词变成“英语单词”，测试一下。

测试结果：

搜索词：英语单词
结果：
content:"英语" content:"单词"
英语单词，语法，口语都很重要。
口语，语法，单词都是英语的重要组成部分。
我们要学好英语不但要学语法，单词还有口语。
对于学英语，只掌握单词语法，还是没办法跟别人沟通，必须能说出流利的口语。
-----------------------------------

可以搜素到了，而表达式也变成了——content:"英语" content:"单词"。

现在将面临新的问题：怎么才能把“英语单词”变成“英语单词”。你不能期望用户总会输入搜索关键词后，逐个加上空格区分。而事实上一个新问题又产生了。修正一个错误会产生另外两个错误，前人说的太正确了。在这个例子里可能看不出来，把例子换一下，把上面第四句话换成“好好学英语”。

测试结果：

-----------------------------------
搜索词：英语单词
结果：
content:"英语" content:"单词"
英语单词，语法，口语都很重要。
口语，语法，单词都是英语的重要组成部分。
我们要学好英语不但要学语法，单词还有口语。
好好学英语。
-----------------------------------

“好好学英语”没有包含“单词”这个词，但是却被搜索到了。这是为什么？玩我了吧？嘿嘿，那是因为——content:"英语" content:"单词"——这个表达式是或者的关系，要是变成并且的关系，是不是能解决问题呢？尝试手动改造下表达式。把表达式变成“+content:\"英语\" +content:\"单词\"”，测试：

-----------------------------------
搜索词：+content:"英语" +content:"单词"
结果：
+content:"英语" +content:"单词"
英语单词，语法，口语都很重要。
口语，语法，单词都是英语的重要组成部分。
我们要学好英语不但要学语法，单词还有口语。
-----------------------------------

very good !这个才是我们想要的嘛！怎么自己构造表达式，这个还是留到第四章来系统的讲。既然“+content:\"英语\" +content:\"单词\"”，可以用，那是不是“+content:\"英\" +content:\"语\" +content:\"单\" +content:\"词\"”，也可以使用呢？嘿嘿自己试试看吧。

Lucene.Net 2.3.1开发介绍 —— 二、分词（四）的更多相关文章

Lucene.Net 2.3.1开发介绍 —— 二、分词（六）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(六) Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStrin ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（五）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（三）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（二）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词 ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（一）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...
Lucene.Net 2.3.1开发介绍 —— 四、搜索（二）
原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(二) 4.3 表达式用户搜索,只会输入一个或几个词,也可能是一句话.输入的语句是如何变成搜索条件的上一篇已经略有提及. 4.3.1 观察 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（二）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(二) 2.索引中用到的核心类在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类.其中Analyzer是索引建立的 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（四）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(四) 4.索引对搜索排序的影响搜索的时候,同一个搜索关键字和同一份索引,决定了一个结果,不但决定了结果的集合,也确定了结果的顺序.那个 ...
Lucene.Net 2.3.1开发介绍 —— 四、搜索（三）
原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(三) Lucene有表达式就有运算符,而运算符使用起来确实很方便,但另外一个问题来了. 代码 4.3.4.1 Analyzer anal ...

随机推荐

WPF-22：WPF绘制五角星改进版（增加半个五角星的绘制）-修改bug
之前用坐标画多边形的方法,绘制五角星.今天调试时发现当时写的时候有bug,修改一下. 原文: http://blog.csdn.net/yysyangyangyangshan/article/deta ...
自定义安装Apache+php+mysql网站服务器环境
自定义安装Apache+php+mysql 这种方式是比较麻烦的安装方式,需要具有一定的对Apache了解的基础上才能安装,安装顺序就是先安装Apache软件,然后安装php,最后安装mysql.这里 ...
InheritableThreadLocal
InheritableThreadLocal继承自ThreadLocal,但比ThreadLocal多一个特性: 子线程可以继承父亲线程上下文中的信息但是,有两个点需要注意的: 只有子线程创建之前的 ...
iOS开发之自己封装一个progressHUD控件
看了几个轻量级的progress view 我觉得KVNProgress做的最漂亮吧突然我想为什么我自己不封装一个控件然后我研究了一下KVNProgress KVN简单的界面是由storyboar ...
Storyboard中使用UIscrollView添加约束的开发总结
第一次在项目中用storyboard做界面,一般的界面直接添加约束非常爽快然后有个界面有scrollview,添加了约束还总是出错刚开始使用了 wCompact,hRegular,滑动出现问题,有 ...
【项目分析】利用C#改写JAVA中的Base64.DecodeBase64以及Inflater解码
原文:[项目分析]利用C#改写JAVA中的Base64.DecodeBase64以及Inflater解码最近正在进行项目服务的移植工作,即将JAVA服务的程序移植到DotNet平台中. 在JAVA程 ...
android开发1：安卓开发环境搭建(eclipse+jdk+sdk)
计划折腾折腾安卓开发了,从0开始的确很痛苦,不过相信上手应该也不会太慢.哈哈一.Android简介 Android 是基于Linux内核的软件平台和操作系统. Android构架主要由3部分组成,l ...
ADO.NET 对象结构图
code blocks 快捷键
设置快捷键可以在setting-Editor-keyboard shortcuts里设置 ==日常编辑== • 按住Ctrl滚滚轮,代码的字体会随你心意变大变小.• 在编辑区按住右键可拖动代码,省去拉 ...
javascript每日一练（五）——BOM
一.BOM打开,关闭窗口 window.open(); window.close(); <!doctype html> <html> <head> <meta ...

Lucene.Net 2.3.1开发介绍 —— 二、分词（四）

Lucene.Net 2.3.1开发介绍 —— 二、分词（四）的更多相关文章

随机推荐

热门专题