lucene随笔 IKAnalyzer StandardAnalyzer

StandardAnalyzer 是单词分词器：

String msg = "我喜欢你，我的祖国！china 中国,I love you！中华人民共和国";

分词后的结果：[我],[喜],[欢],[你],[我],[的],[祖],[国],[china],[中],[国],[i],[love],[you],[中],[华],[人],[民],[共],[和],[国]

IKAnalyzer 是中文分词器：

分词后的结果：[我],[喜欢],[你],[我],[的],[祖国],[china],[中国],[i],[love],[you],[中华人民共和国]

package com.shrio.lucene;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.util.Version;

import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;

import java.io.StringReader;

/**

 * Created by luojie on 2018/4/24.

 */

public class ChineseAnalyerDemo {

    /**standardAnalyer分析器 ，Lucene内置中文分析器*/

    public void standardAnalyer(String msg){

        StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_4_10_4);

        this.getTokens(analyzer, msg);

    }

    /**IK Analyzer分析器*/

    public void iKanalyer(String msg){

        IKAnalyzer analyzer = new IKAnalyzer(true);//当为true时，分词器进行最大词长切分

        //IKAnalyzer analyzer = new IKAnalyzer();

        this.getTokens(analyzer, msg);

    }

    private void getTokens(Analyzer analyzer, String msg) {

        try {

            TokenStream tokenStream=analyzer.tokenStream("content", new StringReader(msg));

            tokenStream.reset();

            this.printTokens(analyzer.getClass().getSimpleName(),tokenStream);

            tokenStream.end();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    private void printTokens(String analyzerType,TokenStream tokenStream){

        CharTermAttribute ta = tokenStream.addAttribute(CharTermAttribute.class);

        StringBuffer result =new StringBuffer();

        try {

            while(tokenStream.incrementToken()){

                if(result.length()>0){

                    result.append(",");

                }

                result.append("["+ta.toString()+"]");

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

        System.out.println(analyzerType+"->"+result.toString());

    }

}

package com.shrio.lucene;

import org.junit.Before;

import org.junit.Test;

/**

 * Created by luojie on 2018/4/24.

 */

public class TestChineseAnalyizer {

    private ChineseAnalyerDemo demo = null;

    private String msg = "我喜欢你，我的祖国！china 中国,I love you！中华人民共和国";

    //private String msg = "I love you, China!B2C";

    @Before

    public void setUp() throws Exception {

        demo=new ChineseAnalyerDemo();

    }

    @Test

    public void testStandardAnalyer(){

        demo.standardAnalyer(msg);

        demo.iKanalyer(msg);

    }

    @Test

    public void testIkAnalyzer(){

        demo.iKanalyer(msg);

    }

}

IKAnalyzer 独立使用配置扩展词典

IKAnalyzer.cfg.xml必须在src根目录下

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!-- 用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">mydict.dic</entry>

    <!-- 用户可以在这里配置自己的扩展停用词字典    -->

    <entry key="ext_stopwords">ext_stopword.dic</entry>

</properties>

lucene随笔 IKAnalyzer StandardAnalyzer的更多相关文章

solr、Lucene、IKAnalyzer这三者关系是怎样的？
lucene 是开源搜索引擎 solr 是基于 lucene开发的搜索引擎 IK 是中文分词. lucene 不是一个搜索引擎,只是一个基础的文件索引工具包,或者叫“搜索引擎开发包”.不能单独作为程序 ...
Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充项目结构图如下: IK分词器还 ...
Lucene学习——IKAnalyzer中文分词
一.环境 1.平台:MyEclipse8.5/JDK1.5 2.开源框架:Lucene3.6.1/IKAnalyzer2012 3.目的:测试IKAnalyzer的分词效果二.开发调试 1.下载框架 ...
Lucene使用IKAnalyzer分词
1.分析器所有分析器最终继承的类都是Analyzer 1.1 默认标准分析器:StandardAnalyzer 在我们创建索引的时候,我们使用到了Index ...
Lucene基于IKAnalyzer配置的词典扩充
在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml version="1.0" encoding="UTF-8" ...
lucene+IKAnalyzer实现中文纯文本检索系统
首先IntelliJ IDEA中搭建Maven项目(web):spring+SpringMVC+Lucene+IKAnalyzer spring+SpringMVC搭建项目可以参考我的博客整合Luc ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
通过lucene的StandardAnalyzer分析器来了解分词
本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同 ...
Lucene第一讲——概述与入门
一.概述 1.什么是Lucene? Lucene是apache下的一个开源的全文检索引擎工具包. 它为软件开发人员提供一个简单易用的工具包(类库),以方便的在目标系统中实现全文检索的功能. 2.能干什 ...

随机推荐

possible error
1● regedit 2● path [HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\Windows Error Reporting] 3● 步 ...
linux系统管理 vi编辑器
Vim是vi improved的缩写是vi的改进版本,vi被认为是事实上的标准编辑器所有版本的Linux都带有vi编辑器占用的资源少与ed,ex等其他编辑器相比,vi对用户更加友好进入vi编辑 ...
linux 用户/群组/权限
mv 原文件名新文件名 #相当于重命名查看文件内容相关命令 cat #查看文件全部内容 head - n #查看文件前n行内容(默认前十行) tail -n #查看文件后n行内容(默认后十行) t ...
day26-python操作redis二
字符串的操作 #redis中的string 在内存中都是按照一个key对应一个valus来存储的 import redis pool = redis.ConnectionPool(host=" ...
servlet之中文乱码：request.getParameter()
参考: http://blog.csdn.net/u014558484/article/details/53445178
MariaDB的线程及连接
转自 linux公社今天在这里介绍一下确认mariaDB(和MySQL一样)的链接数及线程数的方法.MariaDB和MySQL有什么不一样,现在还没有弄清楚. 这是减少数据库的负载,并能提高数据库运 ...
Integer与int的区别（转）
如果面试官问Integer与int的区别:估计大多数人只会说道两点,Ingeter是int的包装类,int的初值为0,Ingeter的初值为null.但是如果面试官再问一下Integer i = 1; ...
团队项目开发特点以及NABCD分析总结
(注:此博客来源于韩晓凡,我们是一个团队) 团队项目的特点:开发的这款软件是从我们的日常生活中得到的启发,现在正是大学阶段,刚刚开始管理自己每个月的生活费,并且在大学中每个月的生活费会有很多去处,然而 ...
Spring接管JDBC
在Spring配置JDBC <?xml version="1.0" encoding="UTF-8"?> <beans xmlns=" ...
Node.js 回调函数 1) 阻塞 ,同步 2) 非阻塞 ,异步.
1.阻塞. 同步. 1) 读取的文件: input.txt 菜鸟教程官网地址:www.runoob.com 2) main.js var fs = require("fs"); / ...

lucene随笔 IKAnalyzer StandardAnalyzer

lucene随笔 IKAnalyzer StandardAnalyzer的更多相关文章

随机推荐

热门专题