ICTCLAS中文分词库的使用

ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点：准确度高(98.5%)，性能优越(500KB/s分词速度)，词性标注(POS tagging)且支持多种标注集，支持用户自定义词典，支持用户自定义词性标注，支持多平台，支持模块组合关闭(在
Configure.xml
中设置)，支持多编码(UTF-8, GB(GB2312, GBK, GB10380)和BIG5)且可以自动识别编码等。更多详见官网，文档和FAQ。

使用ICTCLAS库实现中文分词(Linux 32 bit)
下载ICTCLAS:

从ICTCLAS下载
ICTCLAS2011_Linux_32_c
(ICTCLAS 2011，内核版本5.0)。

    wget http://www.ictclas.org/down/50/ICTCLAS50_Linux_RHAS_32_C.rar

unrar -x ICTCLAS50_Linux_RHAS_32_C.rar

mkdir test

cd test

mkdir ICTCLAS_API

cp -fR ICTCLAS50_Linux_RHAS_32_C/API/* ./ICTCLAS_API

在
test
目录下创建用户词典
userdict.txt
，填写：

洛杉矶@@LA

奥巴马@@Obama

最新动态@@nr

在
test
目录下创建文件
test.c

/* 编译
动态: g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test
静态: g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test -static
*/

/* 处理字符串

#define ICTCLAS_API_PATH "ICTCLAS_API"

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "ICTCLAS_API/ICTCLAS50.h"

int main(int argc, char *argv[]) {

    //# 初始化
    if (!ICTCLAS_Init(ICTCLAS_API_PATH)) {
        fprintf(stderr, "Error: init failed, please put the ICTCLAS API under `%s` directory\n\n", ICTCLAS_API_PATH);
        exit(EXIT_FAILURE);
    }
    printf("init ICTCLAS succeed\n");

    //# 设置词性标注集
    ICTCLAS_SetPOSmap(ICT_POS_MAP_SECOND);

    //# 处理
    const char *srcTxt = "随后奥巴马就离开了洛杉矶，预计奥巴马今天下午就回到华盛顿。以上就是今天上午的最新动态";
    int srcLen = strlen(srcTxt);

    //未导入用户字典之前的处理
    char *resTxt = NULL;
    resTxt = (char *) malloc(srcLen * 6);
    int resLen = 0;
    resLen = ICTCLAS_ParagraphProcess(srcTxt, srcLen, resTxt, CODE_TYPE_UNKNOWN, 1);
    printf("before:\n%s\n\n", resTxt);
    free(resTxt);
    resTxt = NULL;

    //导入用户词典(文本文件：一行一词(词和词性使用`@@`分隔，词性可以省略，且可以自定义任意词性)，例如：中科院@@nr或北京市)
    unsigned int itemsNum = ICTCLAS_ImportUserDictFile("./userdict.txt", CODE_TYPE_UNKNOWN);
    printf("%d items loaded\n", itemsNum);

    /*
    //也可以以字符串形式导入词典(词与词之间使用`;`分隔，如果指定词性，词与词性之间使用`@@`分隔，例如`中科院@@nr;分词@@v;系统@@adj;`或`中科院;分词;系统;`)
    const char *dictStr = "洛杉矶@@LA;奥巴马@@Obama;最新动态@@nr";
    unsigned int itemsNum = ICTCLAS_ImportUserDict(dicStr, strlen(dicStr), CODE_TYPE_UNKNOWN);
    printf("%d items loaded\n", itemsNum);
    */

    //如果保存用户词典，则下次分词的时候依然有效
    ICTCLAS_SaveTheUsrDic();

    //导入用户词典之后分词
    resTxt = (char *) malloc(srcLen * 6);
    resLen = ICTCLAS_ParagraphProcess(srcTxt, srcLen, resTxt, CODE_TYPE_UNKNOWN, 1);
    printf("after:\n%s\n\n", resTxt);
    free(resTxt);

    //# 释放资源
    ICTCLAS_Exit();
    return 0;
}
  */

/*处理文件#define ICTCLAS_API_PATH "ICTCLAS_API"

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "ICTCLAS_API/ICTCLAS50.h"

#include <unistd.h>
#include "restart.h"
#include <errno.h>
#include <fcntl.h>
#define BLKSIZE 1024
char buf[BLKSIZE];
int main(int argc, char *argv[]) {

    if (!ICTCLAS_Init(ICTCLAS_API_PATH)) {
        fprintf(stderr, "Error: init failed, please put the ICTCLAS API under `%s` directory\n\n", ICTCLAS_API_PATH);
        exit(EXIT_FAILURE);
    }
    printf("init ICTCLAS succeed\n");

    
    ICTCLAS_SetPOSmap(ICT_POS_MAP_SECOND);

    char *fromfile=argv[1];
    char *tofile=argv[2];
    int fromfd;
    int tofd;
    while (fromfd = open(fromfile, O_RDONLY), fromfd == -1 && errno == EINTR) ;

    printf("fromfd:\n%d\n\n", fromfd);
    while (tofd = open(tofile,O_WRONLY|O_APPEND), tofd == -1 && errno == EINTR);

    printf("tofd:\n%d\n\n", tofd);
    int bytesread,byteswritten;
    for( ; ; ) {
      if ((bytesread=read(fromfd,buf,BLKSIZE))<=0)   break;

    char resTxt[bytesread * 3];
    int resLen = 0;
    resLen = ICTCLAS_ParagraphProcess(buf,bytesread, resTxt, CODE_TYPE_UNKNOWN, 1);
    printf("before:\n%s\n\n", resTxt);
    printf("before:\n%d\n\n", resLen);
    resLen=strlen(resTxt);
    if((byteswritten = write(tofd,resTxt,resLen))==-1) break;

    printf("byteswritten:\n%d\n\n", byteswritten);

    }
    ICTCLAS_Exit();
    return 0;
}

*/

编译和运行(推荐静态编译)：

g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test -static

./test

根据输出的结果，可以得到ICTCLAS支持：用户词典，自定义词性等。

ICTCLAS中文分词库的使用的更多相关文章

Hanlp等七种优秀的开源中文分词库推荐
Hanlp等七种优秀的开源中文分词库推荐中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块.由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词. 纵观整个 ...
共有11款Python 中文分词库开源软件
件过滤: 排序: 收录时间 | 浏览数 Python 中文分词库 Yaha "哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Ya ...
中文分词库及NLP介绍，jieba，gensim的一些介绍
六款中文分词软件介绍: https://blog.csdn.net/u010883226/article/details/80731583 里面有jieba, pyltp什么的.另外下面这个博客有不少 ...
python 中文分词库 jieba库
jieba库概述: jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库分为精确模式.全模式.搜索引擎模式原理 1. ...
jieba分词-强大的Python 中文分词库
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. 很多人学习pytho ...
python中文分词库——pyltp
pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip i ...
python中文分词库——pynlpir
安装 pip install pynlpir import pynlpir #加载包 pynlpir.open() #加载nlpir的库,这步是必须的 #否则会出现段错误/段转储 segment f ...
Solr6.6 配置中文分词库mmseg4j
1.准备首先安装solr:参照搜索引擎Solr-6.6.0搭建,如果版本高于6,可能会不支持,需要改mmseg4j包 mmseg4j包下载: mmseg4j-solr-2.3.0-with-mmse ...
jieba中文分词的.NET版本：jieba.NET
简介平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...

随机推荐

php中的常用数组函数（七）数组合并 array_merge()和array_merge_recursive()
$arr1 = array(1, 2, 3, 4, 'color'=>'red'); $arr2 = array('a', 'b', 'c', 'color'=>'blue'); prin ...
树链剖分求LCA
树链剖分中各种数组的作用: siz[]数组,用来保存以x为根的子树节点个数 top[]数组,用来保存当前节点的所在链的顶端节点 son[]数组,用来保存重儿子 dep[]数组,用来保存当前节点的深度 ...
mongodb数据库备份导入导出数据
备份数据: mongodump -h 192.168.2.20 -u game -p 12345678 -d dbname -o /data/test/ --excludeCollection=use ...
Android总结篇系列：Android Intent
Intent在Android中的重要性不言而喻.本文主要总结下Intent使用过程中需要注意的一些问题. 1.隐式Intent AndroidManifest.xml声明时<intent-fil ...
一款经典的jQuery kxbdMarquee 无缝滚动插件
<marquee> 曾是 IE 下独有的一个走马灯效果的标签,其他浏览器并不兼容,于是出现了使用 JavaScript 来模拟该效果的插件. 版本: jQuery v1.3.2+ 在线实例 ...
Aristochart – 灵活的 HTML5 Canvas 折线图
Aristochart 是基于 HTML5 Canvas 的折线图功能库,具有高定制性和灵活性的特点.Aristochart 会帮助你处理图形显示,让你能够专注于业务逻辑处理. 您可能感兴趣的相关文章 ...
asp.net+nopi生成Excel遇到设置单元格值null问题
Npoi 生成excel报表功能很不错,功能也不用给大家介绍了.首先看遇到的问题吧! FileStream file = new FileStream(Server.MapPath("Tem ...
微信浏览器或各种移动浏览器上:active伪类做的触觉反馈失效
在做移动端页面的时候,会发现PC上那种:hover的效果是不管用了的,但又要给用户一个点击反馈怎么办呢?我管它叫触觉反馈. 细心点就会发现浏览器有自带了一点触觉反馈,在点击a.button.input ...
javscript闭包的准备工作 -- 作用域与作用域链
作用域是JavaScript最重要的概念之一,想要学好JavaScript就需要理解JavaScript作用域和作用域链的工作原理.今天这篇文章对JavaScript作用域和作用域链作简单的介绍,希望 ...
JavaScript 数据类型判断
JavaScript 的数据类型分为两类:原始类型(基本类型)和对象类型(引用类型).原始类型包括数字.字符串和布尔值,另外有两个特殊的原始值:null 和 undefined,除此之外的都是对象.对 ...

ICTCLAS中文分词库的使用

ICTCLAS中文分词库的使用的更多相关文章

随机推荐

热门专题