lucene 3.0.2 中文分词

package lia.meetlucene;

import java.io.IOException;

import java.io.Reader;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;

import org.apache.lucene.analysis.cn.ChineseAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.apache.lucene.analysis.tokenattributes.TermAttribute;

import org.apache.lucene.util.Version;

/**

 * 分词器测试类，支持lucene3.0以上版本

 * 分词器IKAnalyzer3.2.5Stable.jar

 * @author hpjianhua

 * @Date 2011 04 08

 *

 */

public class Searchnum {

    //    要分词的字符串

    private static String text = "中国，古时通常泛指中原地区，与中华中夏 中土中州含义相同。古代华夏族、汉族建国于黄河流域一带，以为居天下之中，故称中国";

    /**

     * @param args

     * @throws IOException

     */

    public static void main(String[] args) throws IOException {

        //Analyzer ikAnalyzer = new CJKAnalyzer(Version.LUCENE_30) ;

        Analyzer ikAnalyzer = new ChineseAnalyzer() ;

        System.out.println("======中文=======IKAnalyzer======分词=======");

        showToken(ikAnalyzer, text);

        Analyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_30);

        System.out.println("=====一元========StandardAnalyzer=====分词========");

        showToken(standardAnalyzer, text);

    }

    /**

     * 分词及打印分词结果的方法

     * @param analyzer     分词器名称

     * @param text         要分词的字符串

     * @throws IOException 抛出的异常

     */

    public static void showToken(Analyzer analyzer, String text) throws IOException {

        Reader reader = new StringReader(text);

        TokenStream stream = (TokenStream)analyzer.tokenStream("", reader);

        //添加工具类  注意：以下这些与之前lucene2.x版本不同的地方

        TermAttribute termAtt  = (TermAttribute)stream.addAttribute(TermAttribute.class);

        OffsetAttribute offAtt  = (OffsetAttribute)stream.addAttribute(OffsetAttribute.class);

        // 循环打印出分词的结果，及分词出现的位置

        while(stream.incrementToken()){

            System.out.print(termAtt.term() + "|("+ offAtt.startOffset() + " " + offAtt.endOffset()+")");

        }

        System.out.println();

    }

}

中文分词比较：

http://my.oschina.net/MrMichael/blog/335611

其他分词均不支持

lucene 3.0.2 中文分词的更多相关文章

转:solr6.0配置中文分词器IK Analyzer
solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
Solr5.0配置中文分词包
Solr中默认的中文分词是用Lucene的一元分词包. 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包. 1,进入Solr的安装目录,我这里是:/root/nutch/solr- ...
Solr4.0+IKAnalyzer中文分词安装(转)
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化.不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了.2年前接触了solrcloud,那时大概玩了一周.那 ...
Solr4.0+IKAnalyzer中文分词安装
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控. T ...
ElasticSearch-5.0.0安装中文分词插件IK
Install IK 源码地址:https://github.com/medcl/elasticsearch-analysis-ik,git clone下来. 1.compile mvn packag ...
【solr】solr5.0整合中文分词器
1.solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mms ...
Lucene.Net3.0.3+盘古分词器学习使用
一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...
Solr6.5.0配置中文分词器配置
准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x ...

随机推荐

MPlayer-ww 增加边看边剪切功能
解压到 D:\MPlayer-ww 运行 copy_font.bat 安装字体 LED_font.ttf 双击 MPlayer_ww_openWith.reg 添加右键播放功能 outformat.i ...
昨天晚上也弄不清楚是自己密码被盗了还是由于ip冲突
所以还是尽量要相信自己所见到的,今天上午是安卓课程,说实话,昨天晚上都是2:30睡的,现在硬是要把时间待这么晚才回去睡,是因为我想尽快入睡,昨天晚上就是眼睛都有点睁不开了,所以就睡得很快,但是早上也是 ...
undefined reference to libiconv_open'
ext/iconv/.libs/iconv.o: In function `php_iconv_stream_filter_ctor': /home/king/php-5.2.13/ext/iconv ...
.net自定义事件，经典简单实例代码
1,新建一个控制台应用程序TestDelegate,本项目主要实现:热水器加热,报警器监控,当热水温度达到80度的时候报警器报警这样一个简单的事件处理程序 2,定义委托处理程序 public dele ...
在Android中将子View的坐标转换为父View的坐标
在Android中,我们有时候可能会将子View的坐标转换为父View中的坐标.感觉很有用,分享给大家. 在Launcher中有这么一段代码可以完成这项工作. public float getDes ...
Linux中获取当前程序的绝对路径
代码如下: char current_absolut_path[MAX_SIZE] = ""; memset(current_absolut_path,,MAX_SIZE); // ...
sybase常用SQL语句，工作中积累的
-------创建sybase设备语句--------- disk init name="DEV_DB_CLIENT_DAT26", physname="F:\syba ...
hdu 5115 区间dp ***
题意:有n只狼,每只狼有两种属性,一种攻击力一种附加值,我们没杀一只狼,那么我们受到的伤害值为这只狼的攻击值与它旁边的两只狼的附加值的和,求把所有狼都杀光受到的最小的伤害值. 枚举中间k作为最后杀死的 ...
matlab练习程序（多圆交点）
最近总是对计算几何方面的程序比较感兴趣. 多圆求交点,要先对圆两两求交点. 有交点的圆分为相切圆和相交圆. 相切圆求法: 1.根据两圆心求直线 2.求公共弦直线方程 3.求两直线交点即两圆切点. 相交 ...
UVA - 10891 Game of Sum 区间DP
题目连接:http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=19461 Game of sum Description This ...

lucene 3.0.2 中文分词

lucene 3.0.2 中文分词的更多相关文章

随机推荐

热门专题