IK 用java 代码实现分词

需要导入IK 对应的jar 包

IKAnalyzer2012.jar

lucene-core-4.10.jar

public static void main(String[] args) throws IOException {

       //  String text="基于java语言开发的轻量级的中文分词工具包";  

         String text="宋祖英语培训班、周渝民政服务中心、容祖儿童医院、吴奇隆胸医院、苏永康复中心、梁朝伟哥专卖、陈冠希望小学、吴彦祖传中医坊、林书豪华酒店";

　　　　　　//创建分词对象  

            Analyzer anal=new IKAnalyzer(true);

            StringReader reader=new StringReader(text);

            //分词

            TokenStream ts=anal.tokenStream("", reader);

            CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);

            //遍历分词数据

            ts.reset();

            while(ts.incrementToken()){

                System.out.print(term.toString()+"|");

            }

            ts.close();

            reader.close();

            System.out.println();  

    }

分词结果：

宋祖英|语|培训班|周渝民|政|服务中心|容祖儿|童|医院|吴奇隆|胸|医院|苏永康|复|中心|梁朝伟|哥|专卖|陈冠希|望|小学|吴彦祖|传|中医|坊|林|书|豪华酒店|

String text = "据说WWDC要推出iPhone6要出了？与iPhone5s相比怎样呢？@2014巴西世界杯";

public static  String spiltword(String str) {

        String datas = "";

        Analyzer anal = new IKAnalyzer(true);

        StringReader reader = new StringReader(str);

        TokenStream ts ;

        try {

            ts = anal.tokenStream("", reader);

            CharTermAttribute term = ts.getAttribute(CharTermAttribute.class);

            // 遍历分词数据

            ts.reset();

            while (ts.incrementToken()) {

                datas += ts.toString() +"\n";

            }

            ts.close();

            reader.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return datas;

    }

分词结果：

IKTokenizer@23134c4b term=据说,bytes=[e6 8d ae e8 af b4],startOffset=0,endOffset=2,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=wwdc,bytes=[77 77 64 63],startOffset=2,endOffset=6,positionIncrement=1,positionLength=1,type=ENGLISH
IKTokenizer@23134c4b term=要,bytes=[e8 a6 81],startOffset=6,endOffset=7,positionIncrement=1,positionLength=1,type=CN_CHAR
IKTokenizer@23134c4b term=推出,bytes=[e6 8e a8 e5 87 ba],startOffset=7,endOffset=9,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=iphone6,bytes=[69 70 68 6f 6e 65 36],startOffset=9,endOffset=16,positionIncrement=1,positionLength=1,type=LETTER
IKTokenizer@23134c4b term=要,bytes=[e8 a6 81],startOffset=16,endOffset=17,positionIncrement=1,positionLength=1,type=CN_CHAR
IKTokenizer@23134c4b term=出了,bytes=[e5 87 ba e4 ba 86],startOffset=17,endOffset=19,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=与,bytes=[e4 b8 8e],startOffset=20,endOffset=21,positionIncrement=1,positionLength=1,type=CN_CHAR
IKTokenizer@23134c4b term=iphone5s,bytes=[69 70 68 6f 6e 65 35 73],startOffset=21,endOffset=29,positionIncrement=1,positionLength=1,type=LETTER
IKTokenizer@23134c4b term=相比,bytes=[e7 9b b8 e6 af 94],startOffset=29,endOffset=31,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=怎样,bytes=[e6 80 8e e6 a0 b7],startOffset=31,endOffset=33,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=呢,bytes=[e5 91 a2],startOffset=33,endOffset=34,positionIncrement=1,positionLength=1,type=CN_CHAR
IKTokenizer@23134c4b term=2014,bytes=[32 30 31 34],startOffset=36,endOffset=40,positionIncrement=1,positionLength=1,type=ARABIC
IKTokenizer@23134c4b term=巴西,bytes=[e5 b7 b4 e8 a5 bf],startOffset=40,endOffset=42,positionIncrement=1,positionLength=1,type=CN_WORD
IKTokenizer@23134c4b term=世界杯,bytes=[e4 b8 96 e7 95 8c e6 9d af],startOffset=42,endOffset=45,positionIncrement=1,positionLength=1,type=CN_WORD

	public static void main(String[] args)throws Exception{

		  String text2="我们是中国人举行了2008年8月8日北京奥林匹克运动会";

		  StringBuffer sb=new StringBuffer();

		  sb.append(text2);

		  String testAanlyzer = testAanlyzer(text2);

		 }

		 public static String  testAanlyzer (String text)throws Exception{

			 String datas = " ";

		 Analyzer anal = new IKAnalyzer(true);

		 StringReader reader = new StringReader(text);

		  long start=System.currentTimeMillis();

		  TokenStream ts=anal.tokenStream(" ",reader);

		  CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);

		  System.out.println("分词效果如下：");

		  int i=0;

		  ts.reset();

		  while(ts.incrementToken()){

			  datas += ts.toString();

		   i++;

		   System.out.println(new String(term.buffer(),0,term.length()));

		  }

		  ts.close();

		  long usetime=System.currentTimeMillis()-start;

		  System.out.println("共分词="+i+",共耗时="+usetime+"毫秒。");

		  return datas;

		 }

打印结果：

分词效果如下：
我们
是
中国人
举
行了
2008年
8月
8日
北京
奥林匹克运动会
共分词=10,共耗时=431毫秒。

public static List<String> test02(String text) throws Exception{

            List<String> datasList = new ArrayList<String>();

            anal = new IKAnalyzer(true);

            reader = new StringReader(text);

            long start=System.currentTimeMillis();

            ts =anal.tokenStream(" ",reader);

            term  =ts.getAttribute(CharTermAttribute.class);

            System.out.println("分词效果如下：");

            ts.reset();

            ///Object value =null;

            while (ts.incrementToken()){

                String datas = new String (term.buffer(),0,term.length());

                datasList.add(datas);

            }

            for (int is=0; is<datasList.size(); is++){

                System.out.println(datasList.get(is));

                //Map<String, Object> searchByskey = SolrUtil.searchSenContentByWord(solrUrl, "collection1", datasList.get(is));

                Map<String, Object> searchByskey = SolrUtil.searchByskey( datasList.get(is), solrUrl, 0,200);

                //Map<String, Object> searchByskey = SolrUtil.solrCloudR( datasList.get(is), solrUrl, 0,200);

                for (Object obj : searchByskey.entrySet()) {

                    Entry entry = (Entry) obj;

                    String key = (String) entry.getKey();

                    Object value = entry.getValue();

                    System.out.println(key + "....=" + value);

                }

                //datasList.add(value.toString());

            }

            ts.close();

            long usetime=System.currentTimeMillis()-start;

            System.out.println("共耗时="+usetime+"毫秒。");

            return datasList;

        }

数据返回List<String> 类型

参考地址：http://blog.csdn.net/wangxiaojing123/article/details/7397951

IK 用java 代码实现分词的更多相关文章

11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
常见的四种文本自动分词详解及IK Analyze的代码实现
以下解释来源于网络-百度百科 1.word分词器 word分词 [1] 是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字, ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
Hanlp中使用纯JAVA实现CRF分词
Hanlp中使用纯JAVA实现CRF分词与基于隐马尔可夫模型的最短路径分词.N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持.本文(HanLP)使用纯Java实现CRF模型 ...
推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
LibSvm流程及java代码测试
使用libSvm实现文本分类的基本过程,此文参考使用libsvm实现文本分类对前期数据准备及后续的分类测试进行了验证,同时对文中作者的分词组件修改成hanLP分词,对数字进行过滤,仅保留长度大于1 ...
对一致性Hash算法，Java代码实现的深入研究
一致性Hash算法关于一致性Hash算法,在我之前的博文中已经有多次提到了,MemCache超详细解读一文中"一致性Hash算法"部分,对于为什么要使用一致性Hash算法.一致性 ...
怎样编写高质量的java代码
代码质量概述怎样辨别一个项目代码写得好还是坏?优秀的代码和腐化的代码区别在哪里?怎么让自己写的代码既漂亮又有生命力?接下来将对代码质量的问题进行一些粗略的介绍.也请有过代码质量相关经验的朋友 ...
数据结构笔记--二叉查找树概述以及java代码实现
一些概念: 二叉查找树的重要性质:对于树中的每一个节点X,它的左子树任一节点的值均小于X,右子树上任意节点的值均大于X. 二叉查找树是java的TreeSet和TreeMap类实现的基础. 由于树的递 ...

随机推荐

NX二次开发-OLE/COM向EXCEL表格中插入图片
今晚有一个兄弟问我怎么往EXCEL里插入图片(加工程序单中需要插入图片),这个我之前也没弄过,回复了他一句不知道,后来刚刚干完游戏吃完鸡,就去VC++的书上翻了翻,还真的被我翻到了.VC++的方法往E ...
关于Web前端密码加密是否有意义的总结
关于Web前端密码加密是否有意义的总结 : https://blog.csdn.net/hla199106/article/details/45114801 个人:加密涉及到的是前后端的数 ...
SQL语句常用优化技巧
提高SQL语句的执行效率,最常见的方法就是建立索引,以及尽量避免全表扫描. ①.避免在where子句中使用 is null 或 is not null 对字段进行判断. 如:select id fro ...
STM32嵌入式开发学习笔记（四）：使用滴答计时器实现精准计时
前面我们讲过,因为在STM32上没有系统时间的接口,因此无法调用sleep函数,在本文中,笔者将利用滴答计时器实现精准延时. 查阅技术手册,滴答计时器依赖于一个SysTick_Type类型寄存器,定义 ...
Neo4j原生语句cc
Cypher语句 Cypher语句是Neo4j的图查询语言.以下例子来自Neo4j Browser,启动后在命令栏输入:play cypher即可1. 创建一个节点: 语法:CREATE (node- ...
屏幕左侧鼠标常驻，隐藏部分显示，文章鼠标常驻，隐藏部分隐藏（我的hexo next博客）
文章目录如图功能代码博客地址:https://mmmmmm.me 源码:https://github.com/dataiyangu?tab=repositories 如图功能最左侧添加透明 ...
pcA降维 SVD
前言: PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中.而且线 ...
无法CREATE UNIQUE INDEX;找到重复的关键字
chrome无法拖拽离线安装CRX格式插件解决方法
原文:http://chromecj.com/utilities/2018-09/1525.html 摘要 : chrome 67版本后无法拖拽离线安装CRX格式插件的解决方法有一部分网友反映子 ...
2019-4-29-.NET-Standard
title author date CreateTime categories .NET Standard lindexi 2019-4-29 12:7:26 +0800 2018-2-13 17:2 ...

IK 用java 代码实现分词

IK 用java 代码实现分词的更多相关文章

随机推荐

热门专题