重写lucene.net的分词器支持3.0.3.0版本

lucene.net中每个分词器都是一个类，同时有一个辅助类，这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾，辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类，辅助类通常也会继承某个类。

首先在Analysis文件夹下建立两个类，EasyAnalyzer和EasyTokenizer。

 using Lucene.Net.Analysis;

 using System.IO;

 namespace LuceneNetTest

 {

     public class EasyTokenizer : CharTokenizer

     {

         private TextReader reader;

         public EasyTokenizer(TextReader reader)

             : base(reader)

         {

             this.reader = reader;

         }

         protected override bool IsTokenChar(char c)

         {

             //return true;  //整行输出

             //return c != ','; //逗号分隔

             return c != ' '; //空格划分

         }

     }

 }

EasyTokenizer

 using Lucene.Net.Analysis;

 using System.IO;

 namespace LuceneNetTest

 {

     public class EsayAnalyzer : Analyzer

     {

         public override TokenStream TokenStream(string fieldName, TextReader reader)

         {

             return new EasyTokenizer(reader);

         }

     }

 }

EsayAnalyzer

其中分词辅助类中的IsTokenChar这个函数是分词的关键，分词核心逻辑会根据这个函数返回的值进行分词，如果返回false，则会以这个字符进行一次划分。

测试代码如下：

 using Lucene.Net.Analysis;

 using Lucene.Net.Analysis.Tokenattributes;

 using System;

 using System.IO;

 namespace LuceneNetTest

 {

     class Program

     {

         static void Main(string[] args)

         {

             const string testwords = "大家好,I can speak chinese!";

             EsayAnalyzer simple = new EsayAnalyzer();

             TokenStream ts = simple.ReusableTokenStream("", new StringReader(testwords));

             while (ts.IncrementToken())

             {

                 ITermAttribute attribute = ts.GetAttribute<ITermAttribute>();

                 Console.WriteLine(attribute.Term);

             }

         }

     }

 }

Program

ITermAttribute：The term text of a Token.

重写lucene.net的分词器支持3.0.3.0版本的更多相关文章

Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
【原创】Lucene.Net+盘古分词器(详细介绍)
本章阅读概要 1.Lucenne.Net简介 2.介绍盘古分词器 3.Lucene.Net实例分析 4.结束语(Demo下载) Lucene.Net简介 Lucene.net是Lucene的.net移 ...
Lucene.Net+盘古分词器(详细介绍)(转)
出处:http://www.cnblogs.com/magicchaiy/archive/2013/06/07/LuceneNet%E7%9B%98%E5%8F%A4%E5%88%86%E8%AF%8 ...
lucene构建同义词分词器
lucene4.0版本号以后已经用TokenStreamComponents 代替了TokenStream流.里面包含了filter和tokenizer 在较复杂的lucene搜索业务场景下,直接网 ...
Lucene的中文分词器
1 什么是中文分词器学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...
Lucene.Net+盘古分词器(详细介绍)
本章阅读概要1.Lucenne.Net简介2.介绍盘古分词器3.Lucene.Net实例分析4.结束语(Demo下载)Lucene.Net简介 Lucene.net是Lucene的.net移植版本,是 ...
lucene&solr学习——分词器
下图是语汇单元的生成过程: 从一个Reader字符流开始,创建基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Tokens. 要看分词器的分析效果,只需要看Tok ...

随机推荐

java读取文件并获得文件编码，转换为指定编码的工具类代码
import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.Fi ...
mongodb实现远程连接
mongodb远程连接配置分为以下4步: 1. 添加管理员账户 > use admin switched to db admin > db.addUser('tank','test'); ...
parameter server学习
关于parameter server的学习: https://www.zybuluo.com/Dounm/note/517675 机器学习系统相比于其他系统而言,有一些自己的独特特点.例如: 迭代性: ...
Android视频播放-SurfaceView和Mediaplayer
好几天没写博客了,处理了一点个人私事加上平时加班,基本上时间不充裕,上篇文章讲了一下用Mediaplayer来播放音乐,这次就讲讲使用Mediaplayer来和SurfaceView配合播放一个视频流 ...
HashTable HashMap HashSet区别(java)
Hashtable: 1. key和value都不许有null值 2. 使用enumeration遍历 3. 同步的,每次只有一个线程能够访问 4. 在java中Hashtable是H大写,t小写,而 ...
spring cloud 报错Error creating bean with name 'hystrixCommandAspect' ，解决方案
spring cloud 升级到最新版后,报错: org.springframework.beans.factory.BeanCreationException: Error creating be ...
maven 将jar 下载到工程当前目录下
在 pom.xml 的目录下,运行cmd命令 : call mvn -f pom.xml dependency:copy-dependencies 然后在同一目录下出现文件夹target,内容就是ja ...
JavaScript操作XML (一)
JavaScript操作XML是通过XML DOM来完成的.那么什么是XML DOM呢?XML DOM 是: 用于 XML 的标准对象模型用于 XML 的标准编程接口中立于平台和语言 W3C 的标 ...
在web项目启动时执行某个方法
在web项目中有很多时候需要在项目启动时就执行一些方法,而且只需要执行一次,比如:加载解析自定义的配置文件.初始化数据库信息等等,在项目启动时就直接执行一些方法,可以减少很多繁琐的操作. 在工作中遇到 ...
cognos report同比环比以及默认为当前月分析
现在的需求是按月份分析不同时期的余额数据,.(报表工具:cognos report:建模工具:FM) ------------------------------------------------- ...

重写lucene.net的分词器支持3.0.3.0版本

重写lucene.net的分词器支持3.0.3.0版本的更多相关文章

随机推荐

热门专题