http://www.cnblogs.com/CheeseZH/archive/2012/11/27/2791037.html

吃水不忘挖井人,这篇文章给了我很大帮助:http://blog.csdn.net/caimo/article/details/7686872,这篇文章写的蛮详细,不过是ICTCLAS在web项目中的应用,于是我借花献佛,把它整理了一下成为java项目的应用。

1、到ICTCLAS官网下载最新版本分词器:http://ictclas.org/ictclas_download.aspx,点击下载后需要填写反馈信息——姓名,邮箱;

注:听学长说这个分词器有时间限制,所以一段时间之后需要重新下载。

2、将下载的ICTCLAS50_Windows_32_JNI.rar解压,其中有API,Demo,Doc,Sample四个文件夹;

API文件夹中的东西就是我们需要使用的;

Demo文件夹中的东西是一个用MFC实现的分词程序;

Doc文件夹中的东西是两个文档,注:ICTCLAS5.0接口文档.doc中提及的部分接口在最新的ICTCLAS中已经不再提供,还有的做了少量修改;

Sample文件夹中是一个java使用ICTCLAS例子:

比如我把ICTCLAS50_Windows_32_JNI.rar解压到C盘根目录,那我只需要在命令行中输入:

cd ICTCLAS50_Windows_32_JNI\Sample\Windows_32_jni_Demo

javac TestMain.java

java TestMain

就可以看到运行结果了;

3、如何将ICTCLAS整合到自己Java 项目中:

在myeclipse中创建项目为ICTCLAS003,那么将ICTCLAS的API目录中的ICTCLAS文件夹拷贝到ICTCLAS003文件夹的src目录下(ctrl+v粘贴到工程src即可),然后把DATA和其他的文件放到ICTCLAS003文件夹中即可。

刷新项目(Refresh)就可以看到这些内容已经导入了;

然后新建一个Test.java,

写上:import ICTCLAS.I3S.AC.ICTCLAS50;

就可以使用接口了。

下边就是API文件加中的ICTCLAS50.java文件,可以看出它提供的几个接口:

package ICTCLAS.I3S.AC;
import java.io.*;
public class ICTCLAS50
{
//public enum eCodeType
//{
// CODE_TYPE_UNKNOWN,//type unknown
// CODE_TYPE_ASCII,//ASCII
// CODE_TYPE_GB,//GB2312,GBK,GB10380
// CODE_TYPE_UTF8,//UTF-8
// CODE_TYPE_BIG5//BIG5
//} public native boolean ICTCLAS_Init(byte[] sPath);
public native boolean ICTCLAS_Exit();
public native int ICTCLAS_ImportUserDictFile(byte[] sPath,int eCodeType);
public native int ICTCLAS_SaveTheUsrDic();
public native int ICTCLAS_SetPOSmap(int nPOSmap);
public native boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged,byte[] sDestFilename);
public native byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, int bPOSTagged);
public native byte[] nativeProcAPara(byte[] sSrc, int eCodeType, int bPOStagged);
/* Use static intializer */
static
{
System.loadLibrary("ICTCLAS50");
}
}

下边是我自己写的测试TestMain.java:

/*
* ICTCLAS_Init
* ICTCLAS_ParagraphProcess
* ICTCLAS_Exit
* ICTCLAS_ImportUserDictFile[接口文档中的函数为:ICTCLAS_ImportUserDict]
* ICTCLAS_SetPOSmap
* */
import ICTCLAS.I3S.AC.ICTCLAS50;
public class TestMain {
public static void main(String[] args){
try{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
String argu = ".";
if(testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false){
System.out.println("Init Fail");
}else{
System.out.println("Init Succeed!");
} String sInput = "随后温总理就离开了舟曲县城,预计温总理今天下午就回到北京。以上就是今天上午的最新动态。";
//未导入用户词典
byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
System.out.println(nativeBytes.length);
String nativeStr = new String(nativeBytes,0,nativeBytes.length,"GB2312");
System.out.println("未导入用户词典分词结果:"+nativeStr);
//导入用户词典
int nCount = 0;
String usrdir = "userdict.txt";
byte[] usrdirb = usrdir.getBytes();
//第一个参数为用户字典路径,第二个参数为用户字典的编码类型(0:type unknown;1:ASCII码;2:GB2312,GBK,GB10380;3:UTF-8;4:BIG5)
nCount = testICTCLAS50.ICTCLAS_ImportUserDictFile(usrdirb, 2);
System.out.println("导入用户词个数:"+nCount);
nCount = 0;
//导入用户词典之后再分词
byte[] nativeBytes1 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
System.out.println(nativeBytes1.length);
String nativeStr1 = new String(nativeBytes1,0,nativeBytes1.length,"GB2312");
System.out.println("导入用户词典分词结果:"+nativeStr1); /*
* ICT_POS_MAP_SECOND 计算所二级标注集 0
* ICT_POS_MAP_FIRST 计算所一级标注集 1
* PKU_POS_MAP_SECOND 北大二级标注集 2
* PKU_POS_MAP_FIRST 北大一级标注集 3
* */
//使用计算所二级标注集
testICTCLAS50.ICTCLAS_SetPOSmap(0);
byte[] nativeBytes2 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
System.out.println(nativeBytes2.length);
String nativeStr2 = new String(nativeBytes2,0,nativeBytes2.length,"GB2312");
System.out.println("计算所二级标注集:"+nativeStr2);
//使用北大二级标注集
testICTCLAS50.ICTCLAS_SetPOSmap(2);
byte[] nativeBytes3 = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
System.out.println(nativeBytes3.length);
String nativeStr3 = new String(nativeBytes3,0,nativeBytes3.length,"GB2312");
System.out.println("北大二级标注集:"+nativeStr3);
//释放分词组件资源
testICTCLAS50.ICTCLAS_Exit(); }catch(Exception ex){ }
}
}

使用的时候需要注意一下各个函数不同参数的含义。

bool ICTCLAS_Init( );参数就是一个目录的String,这个目录下包含分词器所需的系统词表以及配置文件;

boolean ICTCLAS_Exit();无参数

int ICTCLAS_ImportUserDictFile(byte[] sPath);参数就是用户自定义词表文件名字,记得把词表放在工程根目录中;返回值是词表中的词条数目;

public native byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, int bPOSTagged);第一个参数就是待处理文本,注意要将String转换为bytes数组,第二个参数是字符集类型【我的源码中有介绍】,第三个参数0:无标注,1:有标注

public native int ICTCLAS_SetPOSmap(int nPOSmap);选择标注集【我的源码中有介绍】

中文分词器ICTCLAS使用方法(Java)的更多相关文章

  1. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  2. 11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  3. 【Lucene3.6.2入门系列】第04节_中文分词器

    package com.jadyer.lucene; import java.io.IOException; import java.io.StringReader; import org.apach ...

  4. 如何在Elasticsearch中安装中文分词器(IK)和拼音分词器?

    声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...

  5. Solr6.5配置中文分词器

    Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer.  注:下面操作在Linux下执行,所添加的配置在windo ...

  6. Lucene的中文分词器

    1 什么是中文分词器 学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开. 而中文的语义比较特殊,很难像英文那样,一个汉字一个汉字来划分. 所以需要一个能自动识别中文语义的分 ...

  7. Lucene 03 - 什么是分词器 + 使用IK中文分词器

    目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...

  8. 转:从头开始编写基于隐含马尔可夫模型HMM的中文分词器

    http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇 首先感谢52nlp的 ...

  9. Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词

    一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...

随机推荐

  1. 读think in java有感

    .... 2.2.1 保存到什么地方 程序运行时,我们最好对数据保存到什么地方做到心中有数.特别要注意的是内存的分配.有六个地方都可以保存数据: (1) 寄存器.这是最快的保存区域,因为它位于和其他所 ...

  2. Linux/CentOS设置全局代理(http)

    说明:为什么说是http代理,其实这个还不能说是全称走代理,罪名写的区别就是ICMP协议这个设置就无效,只能说是90%的应用都可以使用这个设置来实现代理访问,只有个别不行,比如一些软件根本不走http ...

  3. 中国移动CMPP协议、联通SGIP协议、电信SMGP协议短信网关

    移动cmpp协议 英文缩写:CMPP (China Mobile Peer to Peer) 中文名称:中国移动通信互联网短信网关接口协议 说明:为中国移动通信集团公司企业规范.规范中描述了中国移动短 ...

  4. How to create .gitignore file in Windows Explorer

    How to create .gitignore file I need to add some rules to my .gitignore file, however, I can't find ...

  5. 推荐一个文献翻译软件--Deja Vu X

    首先我的这篇博客推荐的软件并非你觉得翻译精确度有多高的软件,假设是这种话就不用往下看了,免得浪费时间,仅仅是一个对于翻译文献非常方便的工具,方面在哪请看下文. 我是不会告诉你凡事用过这个软件的人都说好 ...

  6. win8操作系统下使用telnet客户端

    一.安装Telnet客户端 今天尝试在Win8操作系统下使用telnet客户端连接上搜狐的邮件服务器时,结果出现了'telnet' 不是内部或外部命令,也不是可运行的程序,如下图所示: 上网查了一下原 ...

  7. SQL Where in list 问题

    不过,这种做法有两个缺陷1.Oracle In列表的数目有限制(1000)2.不能复用执行计划,每次几乎都是硬解析.3.In拼接可能存在SQL注入的风险

  8. CentOS 安装 Redis (高可用)

    原文:https://www.sunjianhua.cn/archives/centos-redis.html 下载地址: http://download.redis.io/releases/ 官方文 ...

  9. indy10的idhttpServer应答字符串

    indy10的idhttpServer应答字符串 先看应答字符串的代码: procedure TIdIOHandler.Write(const AOut: string; AByteEncoding: ...

  10. android的logcat详细用法!

    from://http://www.miui.com/article-272-1.html [技术交流]android的logcat详细用法! logcat是Android中一个命令行工具,可以用于得 ...