【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤

Lucene自带的中文分词器SmartChineseAnalyzer不太好扩展，于是我用了IKAnalyzer来进行敏感词和停用词的过滤。

然后，由于IKAnalyzer已经很久不更新了，不兼容现在的Lucene6版本，所以我参考网上的资料，重写了IKTokenizer和IKAnalyzer两个类。

 package kidsearch;

 import java.io.IOException;

 import java.io.Reader;

 import org.apache.lucene.analysis.Tokenizer;

 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

 import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

 import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

 import org.wltea.analyzer.core.IKSegmenter;

 import org.wltea.analyzer.core.Lexeme;

 public class MyIKTokenizer extends Tokenizer {

     // IK分词器实现

     private IKSegmenter _IKImplement;

     // 词元文本属性

     private final CharTermAttribute termAtt;

     // 词元位移属性

     private final OffsetAttribute offsetAtt;

     // 词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）

     private final TypeAttribute typeAtt;

     // 记录最后一个词元的结束位置

     private int endPosition;

     public MyIKTokenizer(Reader in) {

         this(in, true);

     }

     public MyIKTokenizer(Reader in, boolean useSmart) {

         offsetAtt = addAttribute(OffsetAttribute.class);

         termAtt = addAttribute(CharTermAttribute.class);

         typeAtt = addAttribute(TypeAttribute.class);

         _IKImplement = new IKSegmenter(input, useSmart);

     }

     @Override

     public boolean incrementToken() throws IOException {

         // 清除所有的词元属性

         clearAttributes();

         Lexeme nextLexeme = _IKImplement.next();

         if (nextLexeme != null) {

             // 将Lexeme转成Attributes

             // 设置词元文本

             termAtt.append(nextLexeme.getLexemeText());

             // 设置词元长度

             termAtt.setLength(nextLexeme.getLength());

             // 设置词元位移

             offsetAtt.setOffset(nextLexeme.getBeginPosition(),

                     nextLexeme.getEndPosition());

             // 记录分词的最后位置

             endPosition = nextLexeme.getEndPosition();

             // 记录词元分类

             typeAtt.setType(String.valueOf(nextLexeme.getLexemeType()));

             // 返会true告知还有下个词元

             return true;

         }

         // 返会false告知词元输出完毕

         return false;

     }

     public void reset() throws IOException {

         super.reset();

         _IKImplement.reset(input);

     }

     @Override

     public final void end() {

         // set final offset

         int finalOffset = correctOffset(this.endPosition);

         offsetAtt.setOffset(finalOffset, finalOffset);

     }

 }

MyIKTokenizer

 package kidsearch;

 import java.io.Reader;

 import java.io.StringReader;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.util.IOUtils;

 import kidsearch.MyIKTokenizer;

 public class MyIkAnalyzer extends Analyzer {

     @Override

     protected TokenStreamComponents createComponents(String arg0) {

         Reader reader=null;

         try{

             reader=new StringReader(arg0);

             MyIKTokenizer it = new MyIKTokenizer(reader);

             return new Analyzer.TokenStreamComponents(it);

         }finally {

             IOUtils.closeWhileHandlingException(reader);

         }

     }

 }

MyIKAnalyzer

参考的博客里有一部分是错误的

于是我又下载了IKAnalyzer的源码，仔细看了一下Lexeme.java，发现没有这个方法，只有getLexemeType，而且返回值是int,于是自己做了点小改动，终于编译通过了！

值得注意的是，MyIKTokenizer里

 public MyIKTokenizer(Reader in) {

         this(in, true);

     }

true为选择智能划分（北京师范大学），而false为最细粒度划分（北京师范大学，北京，京师，师范大学，师范，大学）。

最后，要配置自己的停用词和敏感词。

自定义词典一定要使用UTF-8无BOM编码，否则不能实现过滤功能。

然后，在配置文件IKAnalyzer.cfg.xml里配置自定义词典

最后，分别把所有的自定义词典和IKAnalyzer.cfg.xml加到工程里的src（为了保险起见，我又把他们加到了bin里，IK的jar包里也加了）。

为了测试停用词的效果，可以自己写几个小程序。

 import java.io.IOException;

 import java.io.StringReader;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.TokenStream;

 import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

 import org.wltea.analyzer.cfg.Configuration;

 import org.wltea.analyzer.cfg.DefaultConfig;

 import org.wltea.analyzer.core.IKSegmenter;

 import org.wltea.analyzer.core.Lexeme;

 import org.wltea.analyzer.lucene.IKAnalyzer;

 public class OwnIKAnalyzer {

     public static void main(String[] args) throws IOException {

         String text="我有一个红红的苹果";

         StringReader sr=new StringReader(text);

     //    IKSegmenter ik=new IKSegmenter(sr, true);

         IKSegmenter ik=new IKSegmenter(sr,true);

         Lexeme lex=null;

         while((lex=ik.next())!=null){

             System.out.print(lex.getLexemeText()+"，");

         }

 //        String text = "这是一个红红的苹果";

 //        Configuration configuration = DefaultConfig.getInstance();

 //        configuration.setUseSmart(true);

 //        IKSegmenter ik = new IKSegmenter(new StringReader(text), configuration);

 //        Lexeme lexeme = null;

 //        while ((lexeme = ik.next()) != null) {

 //            System.out.println(lexeme.getLexemeText());

         }

     }

测试结果为：（词典里并没有过滤“我”）

另外，IKAnalyzer可以配置自己的扩展词典，比如“你的名字”本来会被分词为“你，的，名字”,但是在ext.dic里加入“你的名字”后就是一个完整的整体，不会被切分了！

关于IKAnalyzer词语过滤的功能今天就做了多，以后还会继续补充~

【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤的更多相关文章

lucene全文搜索之二：创建索引器（创建IKAnalyzer分词器和索引目录管理）基于lucene5.5.3
前言: lucene全文搜索之一中讲解了lucene开发搜索服务的基本结构,本章将会讲解如何创建索引器.管理索引目录和中文分词器的使用. 包括标准分词器,IKAnalyzer分词器以及两种索引目录的创 ...
lucene内存索引库、分词器
内存索引库特点在内存中开辟一块空间,专门为索引库存放.这样有以下几个特征: 1) 因为索引库在内存中,所以访问速度更快. 2) 在程序退出时,索引库中的文件也相应的消失了. 3) ...
Solr配置Ikanalyzer分词器
上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core,接下为text_core配置Ikanalyzer 分词器 1.打开text_core的instanceDir目录 ...
lucene全文搜索之四：创建索引搜索器、6种文档搜索器实现以及搜索结果分析（结合IKAnalyzer分词器的搜索器）基于lucene5.5.3
前言: 前面几章已经很详细的讲解了如何创建索引器对索引进行增删查(没有更新操作).如何管理索引目录以及如何使用分词器,上一章讲解了如何生成索引字段和创建索引文档,并把创建的索引文档保存到索引目录,到这 ...
Lucene.Net3.0.3+盘古分词器学习使用
一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...
python调用jieba(结巴)分词加入自定义词典和去停用词功能
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...
IKanalyzer分词器分词并且统计词频
<dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artif ...
【lucene系列学习四】log4j日志文件实现多线程的测试
参考资料:http://nudtgk2000.iteye.com/blog/1716379 首先,在http://www.apache.org/dyn/closer.cgi/logging/log4j ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...

随机推荐

casperjs环境安装
1.python 环境安装 2.PhantomJs安装,戳这里,安装的1.9.8版本的,配置环境变量path:";C:\phantomjs"(注意:安装2.0.0版本,运行casp ...
python 中的input()和raw_input()功能与使用区别
在python中raw_input()和input()都是提示并获取用户输入的函数,然后将用户的输入数据存入变量中.但二者在处理返回数据类型上有差别. input()函数是raw_intput()和e ...
Sublime Text 3常用插件安装（持续更新）
首先声明一下,小编是做后台开发出身,但是总是想捣鼓一些小的网站出来,可能是完美心作祟,感觉前端这边不能差事,所以就自己上了,一开始是用eclipse来开发的,具体原因忘了,也不知道怎么就开始用Subl ...
Nginx uWSGI web.py 站点搭建
一.安装nginx 在安装nginx前,需要先装nginx的依赖包. 1.如果没有yum则先安装yum 删除原有的yum rpm -aq|grep yum|xargs rpm -e --node ...
NoSQL注入的分析和缓解
本文要点介绍: 1.了解针对NoSQL的新的安全漏洞 2.五类NoSQL攻击手段,比如重言式.联合查询.JavaScript 注入.背负式查询(Piggybacked queries),以及跨域违规 ...
Struts2(二)之封装请求正文、数据类型转换、数据验证
一.封装请求正文到对象中(重点) 1.1.静态参数封装在struts.xml文件中,给动作类注入值,使用的是setter方法 1.2.动态参数封装通过用户表单封装请求正文参数 1.2.1.动作类作 ...
Yii2中rules验证规则
required : 必须值验证属性 [['字段名'],required,'requiredValue'=>'必填值','message'=>'提示信息']; #说明:CRequiredV ...
【C++】浅谈三大特性之一继承(二)
三,继承方式&访问限定符派生类可以继承基类中除了构造函数和析构函数之外的所有成员,但是这些成员的访问属性是由继承方式决定的. 不同的继承方式下基类成员在派生类中的访问属性: 举例说明: (1 ...
iOS应用的几个阶段
- (BOOL)application:(UIApplication *)application didFinishLaunchingWithOptions:(NSDictionary *)launc ...
C语言编码风格_集锦_1
参考原地址: http://www.jb51.net/article/79257.htm <一> 在一个标准的C语言程序中, 最特殊的莫过于main函数了. 函数大体上分为内联函数(C99 ...

【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤

【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤的更多相关文章

随机推荐

热门专题