在使用Hanlp配置自定义词典时遇到的问题

要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。
要注意的点是:
　　1. root根路径的配置:
　　　　hanlp.properties中配置如下:
　　　　　　#本配置文件中的路径的根目录，根目录+其他路径=完整路径（支持相对路径，请参考：https://github.com/hankcs/HanLP/pull/254）
　　　　　　#Windows用户请注意，路径分隔符统一使用/
　　　　　　root=D:/Project/public_sentiment_monitor/plugin/hanlp1.6.8/

　　2. 自定义词典路径的配置，配置文件中已经指明了相应的用法。
　　　　hanlp.properties中配置如下:
　　　　　　#自定义词典路径，用;隔开多个自定义词典，空格开头表示在同一个目录，使用“文件名词性”形式则表示这个词典的词性默认是该词性。优先级递减。
　　　　　　#所有词典统一使用UTF-8编码，每一行代表一个单词，格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。
　　　　　　CustomDictionaryPath=data/dictionary/custom/hanlp_custom.txt; 搜狗金融词库.txt n; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt

　　3. 配置文件做好以后，自定义词典不起作用问题

　　　　(1). 需要先删除custom文件夹下的所有bin文件，然后再使用hanlp，hanlp会自动加载一个新的bin文件，自定义词典就可以使用了。
貌似加载出的bin文件只有CustomDictionaryPath这一行配置中的第一个文件对应的bin，但是内容应该是将所有的自定义词典都包含了的。

　　　　(2). 如果自定义词典txt文件中存在含有空格的词，比如说"16 金立债 nz 100"这种配置，回导致自定义词典加载程序将"16"认为是词，"金立债"认为是词性，"nz"认为是词频，然后出现Java报错:
　　　　　　java.lang.NumberFormatException: For input string: "nz"
　　　　　　虽然仍然生成了bin文件，但是实际上自定义词典中的所有词都是无法使用的。所以在生成自定义词典txt文件的过程中，一定要注意词中是否含有空格，是否符合"词词性词频"的格式。

　　　　(3)如何将含有空格的词加入自定义词典中:
　　　　　　CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
　　　　　　CustomDictionary.add('攻城狮')

在使用Hanlp配置自定义词典时遇到的问题的更多相关文章

Hanlp配置自定义词典遇到的问题与解决方法
本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路.这里分享给大家学习参考. 要使用hanlp加载自定义词典可以通过修改配置文件han ...
IK-Analyzer(5.3.1)动态配置自定义词典
参考文献:http://blog.csdn.net/fatpanda/article/details/37911079 jar包: IK-Analyzer-extra-5.3.1.jar IKAnal ...
HanLP的自定义词典使用方式与注意事项介绍
[环境]python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp # 安装pyhanlp 进入python安装包路径,如 /usr/lib/pytho ...
hanlp使用自定义词典抽取关键词
1.在data/dictionary/custom/路径下新建文件 myDict.txt.,添加新的单词,单词,词性,词频.并删除当前文件夹下的bin文件, 2.在hanlp配置文件中的CustomD ...
Struts2配置拦截器自定义栈时抛异常：Unable to load configuration. - interceptor-ref - file:/D:/tomcat_install/webapps/crm/WEB-INF/classes/struts.xml
代码如下: <interceptors>  <interceptor name="LoginInterceptor&qu ...
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言: 文本分类任务的第1步,就是对语料进行分词.在单机模式下,可以选择python jieba分词,使用起来较方便.但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP ...
配置Info.plist (设置状态栏样式、自定义定位时系统弹出的提示语、配置3DTouch应用快捷菜单)
一.概述 iOS中很多功能需要配置Info.plist才能实现,如设置后台运行.支持打开的文件类型.自定义访问隐私内容时弹出的提示等.了解Info.plist中各字段及其含义,可以访问苹果开发网站相关 ...
HanLP自定义词典注意事项
对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件. 这些二进制文件相当于缓存,避免了每次加载去读取多个文件. 通过这种txt和bin结 ...
HanLP代码与词典分离方案与流程
之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用 ...

随机推荐

python3.7 win10配置opencv和扩展库
干货，不小心执行了rm -f，除了跑路，如何恢复？https://www.cnblogs.com/justmine/p/10359186.html
前言每当我们在生产环境服务器上执行rm命令时,总是提心吊胆的,因为一不小心执行了误删,然后就要准备跑路了,毕竟人不是机器,更何况机器也有bug,呵呵. 那么如果真的删除了不该删除的文件,比如数据库. ...
使用openrc 管理容器中的服务
对于后台任务一般是不建议在容器中运行的,但是如果我们为了简化应用的部署,可能会使用后台任务进行服务的管理,类似的工具很多,supervisor,systemd , init.d 同时对于docker ...
[RN] React Native Fetch请求设置超时
一.实现思路根据Promise.race的特性,我们在Promise.race里面添加两个任务,一个是正常的网络请求任务A,另外一个便是网络延时任务B,网络延时可以利用setTimeout方法实现. ...
vue单项数据流
当父组件给子组件传递数据的时候,子组件只能读取,不能改写.因为如果子组件改变父组件传递过来的数据时会造成数据流难以理解.
链表 | 判断链表B是否为链表A的连续子序列
王道P38T16 代码: bool common_subSequence(LinkList &A,LinkList &B){ LNode *pA,*pB=B->next,*p=A ...
R 语言处理excel为data.frame
使用 R包 xlsx 或者 openxlsx 安装 install.packages("xlsx", repos="https://cloud.r-project.org ...
一口气讲完 LSA — PlSA —LDA在自然语言处理中的使用
自然语言处理之LSA LSA(Latent Semantic Analysis), 潜在语义分析.试图利用文档中隐藏的潜在的概念来进行文档分析与检索,能够达到比直接的关键词匹配获得更好的效果. LSA ...
Spring Boot通过Configuration配置多数据源
本文结合SpringBoot + MyBatis + MySql进行多数据源配置,DataSource信息采用自定义dataSource.properties进行配置. 1.文件结构如下: 2.1 p ...
[转]OpenTK学习笔记(1)-源码、官网地址
OpenTK源码下载地址:https://github.com/opentk/opentk OpenTK使用Nuget安装命令:OpenTK:Install-Package OpenTK -Versi ...

在使用Hanlp配置自定义词典时遇到的问题

在使用Hanlp配置自定义词典时遇到的问题的更多相关文章

随机推荐

热门专题