lucene随笔 IKAnalyzer StandardAnalyzer

StandardAnalyzer 是单词分词器：

String msg = "我喜欢你，我的祖国！china 中国,I love you！中华人民共和国";

分词后的结果：[我],[喜],[欢],[你],[我],[的],[祖],[国],[china],[中],[国],[i],[love],[you],[中],[华],[人],[民],[共],[和],[国]

IKAnalyzer 是中文分词器：

分词后的结果：[我],[喜欢],[你],[我],[的],[祖国],[china],[中国],[i],[love],[you],[中华人民共和国]

package com.shrio.lucene;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.util.Version;

import org.wltea.analyzer.lucene.IKAnalyzer;

import java.io.IOException;

import java.io.StringReader;

/**

 * Created by luojie on 2018/4/24.

 */

public class ChineseAnalyerDemo {

    /**standardAnalyer分析器 ，Lucene内置中文分析器*/

    public void standardAnalyer(String msg){

        StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_4_10_4);

        this.getTokens(analyzer, msg);

    }

    /**IK Analyzer分析器*/

    public void iKanalyer(String msg){

        IKAnalyzer analyzer = new IKAnalyzer(true);//当为true时，分词器进行最大词长切分

        //IKAnalyzer analyzer = new IKAnalyzer();

        this.getTokens(analyzer, msg);

    }

    private void getTokens(Analyzer analyzer, String msg) {

        try {

            TokenStream tokenStream=analyzer.tokenStream("content", new StringReader(msg));

            tokenStream.reset();

            this.printTokens(analyzer.getClass().getSimpleName(),tokenStream);

            tokenStream.end();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    private void printTokens(String analyzerType,TokenStream tokenStream){

        CharTermAttribute ta = tokenStream.addAttribute(CharTermAttribute.class);

        StringBuffer result =new StringBuffer();

        try {

            while(tokenStream.incrementToken()){

                if(result.length()>0){

                    result.append(",");

                }

                result.append("["+ta.toString()+"]");

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

        System.out.println(analyzerType+"->"+result.toString());

    }

}

package com.shrio.lucene;

import org.junit.Before;

import org.junit.Test;

/**

 * Created by luojie on 2018/4/24.

 */

public class TestChineseAnalyizer {

    private ChineseAnalyerDemo demo = null;

    private String msg = "我喜欢你，我的祖国！china 中国,I love you！中华人民共和国";

    //private String msg = "I love you, China!B2C";

    @Before

    public void setUp() throws Exception {

        demo=new ChineseAnalyerDemo();

    }

    @Test

    public void testStandardAnalyer(){

        demo.standardAnalyer(msg);

        demo.iKanalyer(msg);

    }

    @Test

    public void testIkAnalyzer(){

        demo.iKanalyer(msg);

    }

}

IKAnalyzer 独立使用配置扩展词典

IKAnalyzer.cfg.xml必须在src根目录下

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!-- 用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">mydict.dic</entry>

    <!-- 用户可以在这里配置自己的扩展停用词字典    -->

    <entry key="ext_stopwords">ext_stopword.dic</entry>

</properties>

lucene随笔 IKAnalyzer StandardAnalyzer的更多相关文章

solr、Lucene、IKAnalyzer这三者关系是怎样的？
lucene 是开源搜索引擎 solr 是基于 lucene开发的搜索引擎 IK 是中文分词. lucene 不是一个搜索引擎,只是一个基础的文件索引工具包,或者叫“搜索引擎开发包”.不能单独作为程序 ...
Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充项目结构图如下: IK分词器还 ...
Lucene学习——IKAnalyzer中文分词
一.环境 1.平台:MyEclipse8.5/JDK1.5 2.开源框架:Lucene3.6.1/IKAnalyzer2012 3.目的:测试IKAnalyzer的分词效果二.开发调试 1.下载框架 ...
Lucene使用IKAnalyzer分词
1.分析器所有分析器最终继承的类都是Analyzer 1.1 默认标准分析器:StandardAnalyzer 在我们创建索引的时候,我们使用到了Index ...
Lucene基于IKAnalyzer配置的词典扩充
在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml version="1.0" encoding="UTF-8" ...
lucene+IKAnalyzer实现中文纯文本检索系统
首先IntelliJ IDEA中搭建Maven项目(web):spring+SpringMVC+Lucene+IKAnalyzer spring+SpringMVC搭建项目可以参考我的博客整合Luc ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
通过lucene的StandardAnalyzer分析器来了解分词
本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同 ...
Lucene第一讲——概述与入门
一.概述 1.什么是Lucene? Lucene是apache下的一个开源的全文检索引擎工具包. 它为软件开发人员提供一个简单易用的工具包(类库),以方便的在目标系统中实现全文检索的功能. 2.能干什 ...

随机推荐

git开发过程的配置和使用
git开发过程的使用 1.创建仓库 2.新建项目,填写项目名称等信息 3.初始化仓库,创建git仓库 git init 4.配置个人信息(配置过可忽略) git config --global use ...
Player Settings 导出设置
Player Settings is where you define various parameters (platform specific) for the final game that y ...
python ----字符串基础练习题30道
1.执行python脚本的两种方式一种是点开始--运行--cmd 方式(这个操作需要先配置好环境变量path路径)之后运行python 二是直接进安装目录运行tython软件运行.pycharm ...
RabbitMQ 队列、消息持久化
RabbitMQ的消息队列的持久化是一个很不错的功能,设置也非常简单.如下代码: 1.设置队列持久化(在声明队列的时候设置) channel.QueueDeclare(queue: "q.l ...
EF-使用迁移技术让程序自动更新数据库表结构
承接上一篇文章:关于类库中EntityFramework之CodeFirst(代码优先)的操作浅析本篇讲述的是怎么使用迁移技术让程序自动通过ORM框架将模型实体类结构映射到现有数据库,并新增或修改与 ...
JDK（java se development kit）的构成
1.javac(Java compiler)编译器通过命令行输入javac命令调用Java编译器,编译Java文件的过程中,javac会检查源程序是否符合Java的语法,没有语法问题就会将.jav ...
CentOS7安装cratedb
crate: 下载: https://crate.io/download/thank-you/?download=tar crash: 下载: https://crate.io/docs/client ...
第三节 java 数组（循环遍历、获取数组的最值（最大值和最小值）、选择排序、冒泡排序、练习控制台输出大写的A）
获取数组的最值(最大值和最小值) 思路: 1.获取最值需要进行比较,每一次比较都会有一个较大的值,因为该值不确定,需要一个变量进行临储. 2.让数组中的每一个元素都和这个变量中的值进行比较,如果大于 ...
DevExpress WPF v18.2新版亮点（三）
买 DevExpress Universal Subscription 免费赠万元汉化资源包1套! 限量15套!先到先得,送完即止!立即抢购>> 行业领先的.NET界面控件2018年第 ...
DevExpress v18.1新版亮点——Analytics Dashboard篇（一）
用户界面套包DevExpress v18.1日前正式发布,本站将以连载的形式为大家介绍各版本新增内容.本文将介绍了DevExpress Analytics Dashboard v18.1 的新功能,快 ...

lucene随笔 IKAnalyzer StandardAnalyzer

lucene随笔 IKAnalyzer StandardAnalyzer的更多相关文章

随机推荐

热门专题