中科院分词ICTCLAS导入用户词典后分词结果一样？

 package ICTCLAS.I3S.Test;

 import java.io.UnsupportedEncodingException;

 import ICTCLAS.I3S.AC.ICTCLAS50;

 public class Test_UserDic {

     /**

      * @param args

      * @throws UnsupportedEncodingException

      */

     public static void main(String[] args) throws UnsupportedEncodingException {

         ICTCLAS50 ictclas =  new ICTCLAS50();

         //initial

         String argu = ".";    //当前目录

         if (ictclas.ICTCLAS_Init(argu.getBytes("UTF-8")) == false) {

             System.err.println("Initail fail!");

             return;

         }

         System.out.println("Initial success!");

         String input = "中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS。千万科学家";

         //未添加词典前分词

         System.out.println(input);

         ictclas.ICTCLAS_SetPOSmap(ictclas.PKU_POS_MAP_FIRST);

         byte nativeBytes[] = ictclas.ICTCLAS_ParagraphProcess(input.getBytes("UTF-8"), 0, 1);

         String result = new String(nativeBytes, 0, nativeBytes.length, "UTF-8");

         System.out.println("未导入用户词典的分词结果是：\t" + result);

         //添加用户词典分词

         int count = 0;

         String userDir = "userDict.txt"; //用户词典路径

         byte[] userDirb = userDir.getBytes();

         count = ictclas.ICTCLAS_ImportUserDictFile(userDirb, 3);

         System.out.println("\n导入用户词个数：\t" + count);

         count = 0;

         //导入用户词典后再分词

         byte[] nativeBytes1 = ictclas.ICTCLAS_ParagraphProcess(input.getBytes("UTF-8"), 0, 1);

         String result1 = new String(nativeBytes1, 0, nativeBytes1.length, "UTF-8");

         System.out.println("导入用户词典后的分词结果是：\t" + result1);

         //退出，释放分词组件资源

         ictclas.ICTCLAS_Exit();

     }

 }

用户词典如下：
舟曲县城@@ZQXC
连夜@@LY
中国科学院@@v
工作@@t
研究@@nb
国科@t
万科@y

结果如下：
Initial success!
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS。千万科学家
未导入用户词典的分词结果是：中国科学院/n 计算技术/n 研究/v 所/u 在/v 多年/m 研究/v 工作/v 积累/v 的/u 基础/n 上/f ，/w 研制/v 出/v 了/u 汉语/n 词法分析/n 系统/n ICTCLAS/x 。/w 千/m 万/m 科学家/n

导入用户词个数： 7
导入用户词典后的分词结果是：中国科学院/n 计算技术/n 研究/v 所/u 在/v 多年/m 研究/v 工作/v 积累/v 的/u 基础/n 上/f ，/w 研制/v 出/v 了/u 汉语/n 词法分析/n 系统/n ICTCLAS/x 。/w 千/m 万/m 科学家/n

没有变化！
看到网上有说用户词典是优先的，（2，用户词典的词的优先级貌似太高了。我在用户词典里加了“万科”这个词，结果测试语句“千万科学家”也被分成了“千/ 万科/ 学/ 家”）
但是我这里分词结果没有变化？

中科院分词ICTCLAS导入用户词典后分词结果一样？的更多相关文章

2------------NLPIR（ICTCLAS2016）分词系统添加用户词典功能
备注:win7 64位系统,netbeans编程基本代码框架参见我的另一篇文章:NLPIR分词功能代码实现: package cwordseg; import java.io.Unsupporte ...
jieba分词原理解析：用户词典如何优先于系统词典
目标查看jieba分词组件源码,分析源码各个模块的功能,找到分词模块,实现能自定义分词字典,且优先级大于系统自带的字典等级,以医疗词语邻域词语为例. jieba分词地址:github地址:https ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义全文检索就是先分词创建索引,再执行搜索的过 ...
plpython 中文分词Windows下 PG数据库jieba分词
windows 下安装版本匹配python-3.4.3.amd64.msipostgresql-10.1-2-windows-x64.exe create language plpython3u;se ...
如何使用ABBYY FineReader 用户词典识别专业术语？
ABBYY FineReader 15可以说是比较新的版本,在这个版本中能运用强大的光学字符识别技术对PDF文档扫描件.图像等文件进行OCR识别.在识别的过程中,会使用其内置的词典检查识别文字,以获得 ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

随机推荐

angular学习的一些小笔记(中)之directive
directive里面的几个配置,上代码就清晰了 <!DOCTYPE html> <html ng-app='app'> <head> <meta chars ...
[deviceone开发]-do_Socket组件示例
一.简介 do_Socket只实现了socket的客户端的功能,这个示例完整了展示了组件的基本用法,需要和sockettest3工具配合使用,sockettest3做为一个socket server来 ...
JavaScript学习笔记3之数组 & arguments（参数对象）& 数字和字符串转换 & innerText/innerHTML & 鼠标事件
一.Array数组 1.数组初始化(Array属于对象类型) /*关于数组的初始化*/ //1.创建 Array 对象--方法1: var arr1=[]; arr1[0]='aa';//给数组元素赋 ...
<转>DevExpress使用经验总结
DevExpress是一个比较有名的界面控件套件,提供了一系列的界面控件套件的DotNet界面控件.本文主要介绍我在使用 DevExpress控件过程中,遇到或者发现的一些问题解决方案,或者也可以所示 ...
Revit如何模型导入到InfraWorks中
Infraworks也就是以前的Autodesk Infrastructure Modeler(AIM)作为一款优秀的概念设计软件,能接收来自各种来源的数据,这篇介绍如何把revit中的建筑模型导入到 ...
Java虚拟机JVM学习01 流程概述
Java虚拟机JVM学习01 流程概述 Java虚拟机与程序的生命周期一个运行时的Java虚拟机(JVM)负责运行一个Java程序. 当启动一个Java程序时,一个虚拟机实例诞生:当程序关闭退出,这 ...
Android对应用程序签名
1.首先签名是个什么东西. 应用程序签名就是为你的程序打上一种标记,来作为你自己的标识. 2.为什么要进行数字签名这是Android系统的要求,每一个应用程序必要要经过数字签名才可能安装到系统中,能 ...
php设计模式工厂、单例、注册树模式
Source Code Pro字体 easyphp 命名空间:隔离类和函数,php5.3以后 //test5.php<?php namespace Test5;//命名空间必须是程序脚本的第一 ...
启用Mac(OS X Yosemite)自带的apache
刚用Mac的时候配置过一次Mac自带的apache,主要是平常自己用mackdown写文档,装成html文件放到apache下方便自己和同事阅读.后来升级各种东西,估计是升级OS X导致apache不 ...
(视频) 《快速创建网站》2.1 在Azure上创建网站及网站运行机制
现在让我们开始一天的建站之旅. 本文是<快速创建网站>系列的第2篇,如果你还没有看过之前的内容,建议你点击以下目录中的章节先阅读其他内容再回到本文. 访问本系列目录,请点击:http:// ...

中科院分词ICTCLAS导入用户词典后分词结果一样？

中科院分词ICTCLAS导入用户词典后分词结果一样？的更多相关文章

随机推荐

热门专题