ICTCLAS中文分词库的使用
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在
Configure.xml
中设置),支持多编码(UTF-8, GB(GB2312, GBK, GB10380)和BIG5)且可以自动识别编码等。更多详见官网,文档和FAQ。
使用ICTCLAS库实现中文分词(Linux 32 bit)
下载ICTCLAS:
从ICTCLAS下载
ICTCLAS2011_Linux_32_c
(ICTCLAS 2011,内核版本5.0)。
wget http://www.ictclas.org/down/50/ICTCLAS50_Linux_RHAS_32_C.rar
unrar -x ICTCLAS50_Linux_RHAS_32_C.rar
创建测试目录,并拷贝API到该目录下
mkdir test
cd test
mkdir ICTCLAS_API
cp -fR ICTCLAS50_Linux_RHAS_32_C/API/* ./ICTCLAS_API
在
test
目录下创建用户词典
userdict.txt
,填写:
洛杉矶@@LA
奥巴马@@Obama
最新动态@@nr
在
test
目录下创建文件
test.c
/* 编译
动态: g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test
静态: g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test -static
*/
/* 处理字符串
#define ICTCLAS_API_PATH "ICTCLAS_API"
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "ICTCLAS_API/ICTCLAS50.h"
int main(int argc, char *argv[]) {
//# 初始化
if (!ICTCLAS_Init(ICTCLAS_API_PATH)) {
fprintf(stderr, "Error: init failed, please put the ICTCLAS API under `%s` directory\n\n", ICTCLAS_API_PATH);
exit(EXIT_FAILURE);
}
printf("init ICTCLAS succeed\n");
//# 设置词性标注集
ICTCLAS_SetPOSmap(ICT_POS_MAP_SECOND);
//# 处理
const char *srcTxt = "随后奥巴马就离开了洛杉矶,预计奥巴马今天下午就回到华盛顿。以上就是今天上午的最新动态";
int srcLen = strlen(srcTxt);
//未导入用户字典之前的处理
char *resTxt = NULL;
resTxt = (char *) malloc(srcLen * 6);
int resLen = 0;
resLen = ICTCLAS_ParagraphProcess(srcTxt, srcLen, resTxt, CODE_TYPE_UNKNOWN, 1);
printf("before:\n%s\n\n", resTxt);
free(resTxt);
resTxt = NULL;
//导入用户词典(文本文件:一行一词(词和词性使用`@@`分隔,词性可以省略,且可以自定义任意词性),例如:中科院@@nr或北京市)
unsigned int itemsNum = ICTCLAS_ImportUserDictFile("./userdict.txt", CODE_TYPE_UNKNOWN);
printf("%d items loaded\n", itemsNum);
/*
//也可以以字符串形式导入词典(词与词之间使用`;`分隔,如果指定词性,词与词性之间使用`@@`分隔,例如`中科院@@nr;分词@@v;系统@@adj;`或`中科院;分词;系统;`)
const char *dictStr = "洛杉矶@@LA;奥巴马@@Obama;最新动态@@nr";
unsigned int itemsNum = ICTCLAS_ImportUserDict(dicStr, strlen(dicStr), CODE_TYPE_UNKNOWN);
printf("%d items loaded\n", itemsNum);
*/
//如果保存用户词典,则下次分词的时候依然有效
ICTCLAS_SaveTheUsrDic();
//导入用户词典之后分词
resTxt = (char *) malloc(srcLen * 6);
resLen = ICTCLAS_ParagraphProcess(srcTxt, srcLen, resTxt, CODE_TYPE_UNKNOWN, 1);
printf("after:\n%s\n\n", resTxt);
free(resTxt);
//# 释放资源
ICTCLAS_Exit();
return 0;
}
*/
/*处理文件#define ICTCLAS_API_PATH "ICTCLAS_API"
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "ICTCLAS_API/ICTCLAS50.h"
#include <unistd.h>
#include "restart.h"
#include <errno.h>
#include <fcntl.h>
#define BLKSIZE 1024
char buf[BLKSIZE];
int main(int argc, char *argv[]) {
if (!ICTCLAS_Init(ICTCLAS_API_PATH)) {
fprintf(stderr, "Error: init failed, please put the ICTCLAS API under `%s` directory\n\n", ICTCLAS_API_PATH);
exit(EXIT_FAILURE);
}
printf("init ICTCLAS succeed\n");
ICTCLAS_SetPOSmap(ICT_POS_MAP_SECOND);
char *fromfile=argv[1];
char *tofile=argv[2];
int fromfd;
int tofd;
while (fromfd = open(fromfile, O_RDONLY), fromfd == -1 && errno == EINTR) ;
printf("fromfd:\n%d\n\n", fromfd);
while (tofd = open(tofile,O_WRONLY|O_APPEND), tofd == -1 && errno == EINTR);
printf("tofd:\n%d\n\n", tofd);
int bytesread,byteswritten;
for( ; ; ) {
if ((bytesread=read(fromfd,buf,BLKSIZE))<=0) break;
char resTxt[bytesread * 3];
int resLen = 0;
resLen = ICTCLAS_ParagraphProcess(buf,bytesread, resTxt, CODE_TYPE_UNKNOWN, 1);
printf("before:\n%s\n\n", resTxt);
printf("before:\n%d\n\n", resLen);
resLen=strlen(resTxt);
if((byteswritten = write(tofd,resTxt,resLen))==-1) break;
printf("byteswritten:\n%d\n\n", byteswritten);
}
ICTCLAS_Exit();
return 0;
}
*/
编译和运行(推荐静态编译):
g++ test.c -L./ICTCLAS_API -lICTCLAS50 -DOS_LINUX -o test -static
./test
根据输出的结果,可以得到ICTCLAS支持:用户词典,自定义词性等。
ICTCLAS中文分词库的使用的更多相关文章
- Hanlp等七种优秀的开源中文分词库推荐
Hanlp等七种优秀的开源中文分词库推荐 中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块.由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词. 纵观整个 ...
- 共有11款Python 中文分词库开源软件
件过滤: 排序: 收录时间 | 浏览数 Python 中文分词库 Yaha "哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Ya ...
- 中文分词库及NLP介绍,jieba,gensim的一些介绍
六款中文分词软件介绍: https://blog.csdn.net/u010883226/article/details/80731583 里面有jieba, pyltp什么的.另外下面这个博客有不少 ...
- python 中文分词库 jieba库
jieba库概述: jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库,需要额外安装 jieba库分为精确模式.全模式.搜索引擎模式 原理 1. ...
- jieba分词-强大的Python 中文分词库
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. 很多人学习pytho ...
- python中文分词库——pyltp
pyltp在win10下安装比较麻烦,因此参考以下安装方式, 1.下载 win10下python3.6 2.安装 下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip i ...
- python中文分词库——pynlpir
安装 pip install pynlpir import pynlpir #加载包 pynlpir.open() #加载nlpir的库,这步是必须的 #否则会出现 段错误/段转储 segment f ...
- Solr6.6 配置中文分词库mmseg4j
1.准备 首先安装solr:参照搜索引擎Solr-6.6.0搭建,如果版本高于6,可能会不支持,需要改mmseg4j包 mmseg4j包下载: mmseg4j-solr-2.3.0-with-mmse ...
- jieba中文分词的.NET版本:jieba.NET
简介 平时经常用Python写些小程序.在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词.jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以 ...
随机推荐
- [转载][翻译] IoC 容器和 Dependency Injection 模式
原文地址:Inversion of Control Containers and the Dependency Injection pattern 中文翻译版本是网上的PDF文档,发布在这里仅为方便查 ...
- MyBatis入门(一)
一.MyBaris简介 1)MyBaris发展过程 MyBatis的前身叫iBatis,本是apache的一个开源项目, 2010年这个项目由apache software foundation 迁移 ...
- Context.js 右键菜单
ContextJS is a lightweight solution for contextual menus. Currently, there are two versions. The fir ...
- MixItUp:超炫!基于 CSS3 & jQuery 的过滤和排序插件
MixItUp 是一款轻量,但功能强大的 jQuery 插件,提供了对分类和有序内容的美丽的动画过滤和排序功能.特别适合用于作品集网站,画廊,图片博客以及任何的分类或有序内容. 它是如何工作的? Mi ...
- L20n – Mozilla 推出的 Web 本地化框架
L20n是 Mozilla 开发的用于 Web 开发的本地化框架.它允许本地化开发者把逻辑细分为本地化的资源. L20n 的框架不再需要开发人员深入理解自然语言的具体细节,并提供了机会为本地化创造更好 ...
- Extjs 使用fileupload插件上传文件 带进度条显示
一.首先我们看看官方给出的插件的解释: 一个文件上传表单项具有自定义的样式,并且可以控制按钮的文本和 像文本表单的空文本类似的其他特性. 它使用一个隐藏的文件输入元素,并在用户选择文件后 在form提 ...
- 【问题及解决】fonts/fontawesome-webfont.woff2 404 (Not Found)
问题: 虽然网页正常显示和运行,但是有2个字体文件出现404错误.像笔者这种强迫症是接受不了的. 解决: 因为笔者的服务器是虚拟主机,只需要在主机控制器平台添加对应的MIME类型即可. 这样服务器就支 ...
- 微信小程序开发之如何哪获取微信小程序的APP ID
微信小程序的开发工具,在新建项目的时候,默认提示填写APP ID,如果不填写AppID 也是可以本地测试和开发的,但是无法通过手机调试,只能在开发工具里查看 如果需要真机调试微信小程序,需要安装微信6 ...
- android 数据存储Ⅱ
本章继续讲解在Android开发中,数据的存储与管理.涉及知识点:SQLite,SwipeRefreshLayout控件刷新. 1.功能需求 练习使用SQLite 做一个登录界面,数据库字段包含用户名 ...
- 数据结构--用Objective-C简单实现的数据结构:栈
前言:最近在学习数据结构,这里用Objective-C简单实现了一下栈.用Objective-C确实好容易,因为我使用了Cocoa框架提供了NSMutableArray作为存储元素的集合,操作集合元素 ...