项目集成自动分词系统ansj，实现自定义词库

一，分词系统地址：https://github.com/NLPchina/ansj_seg

二，为什么选择ansj？

1.项目需求：

我们平台要做手机售后的舆情分析，即对购买手机的用户的评论进行分析。分析出手机每个模块(比如：相机，充电等。这些大模块还需要细分，比如充电又可以分：充电慢，没有快充等)的好差评，并且计算差评率，供开发后续改进。之前一直是人工分析，随着评论的增加，这一块也是一个很大的工作量。因此我们想到了做评论的自动分析。这就要用到自然语言处理的技术了。

2.ansj的优点

分词效率高，支持自定义词典(这是最重要的，我们需要根据我们的业务自定义自己的词库，方便我们进行观点分析)

三，业务分析

首先这个系统肯定不能完全代替人工作，我们的目标是尽可能的减少人的工作量。通过统计源声发现，很多评论就一两句话。通过正则表达式把把评论分句。发现小于3句的评论占比将近70%。只要重点处理这种评论就行。把评论分句后，提取出名词和观点匹配。提取出形容词和情感匹配(好评或差评)。这就是评论分析的思路。

四，项目集成分析系统

1.引入jar包

<!-- nps 自然语言处理 -->
    <dependency>
        <groupId>org.nlpcn</groupId>
        <artifactId>nlp-lang</artifactId>
        <version>1.7.7</version>
        <scope>compile</scope>
    </dependency>

2.拷贝org.ansj包到src目录下

3.在resources目录下创建ansj_library.properties文件。这个文件项目里也有(注意这里要写绝对路径，不然会读不到自定义的文件。这是一个坑)

#path of userLibrary this is default library
#dic=library/default.dic
dic=D:/Lure_workspace/iFocusStruc/src/main/resources/library/default.dic
#path of crfModel
#crf_dic1=library/crf.model
userLibrary=D:/Lure_workspace/iFocusStruc/src/main/resources/userLibrary.dic
#stop_dic1=library/stop.dic

#redress dic file path
#ambiguity=library/ambiguity.dic
ambiguity=D:/Lure_workspace/iFocusStruc/src/main/resources/library/ambiguity.dic
synonyms=library/synonyms.dic

#set real name
isRealName=true

#isNameRecognition default true
isNameRecognition=true

#isNumRecognition default true
isNumRecognition=true

#digital quantifier merge default true
isQuantifierRecognition=true

3.把library文件夹拷贝到resources目录下，（这个library文件夹项目中有）

自定义词典：default.dic

连网    n    8000
发热    n    80000
这是    n    1000

4.把resource目录拷贝到本地resource目录。

5.测试：ToAnalysis方法

@Test
    public void wordTest2333() {
        String str = "数据结构效果不好,连网太慢,发热严重";
        Result result = ToAnalysis.parse(str);
        List<Term> termList = result.getTerms();
        for (Term term : termList) {
            System.out.println(term.getName() + ":" + term.getNatureStr());
        }
    }

结果：　　

数据结构:n
效果不好:a
,:w
连网:vn
太慢:d
,:w
发热:v
严重:a

数据结构：n 这个自定义的词生效了

连网：vn 没有生效

发热：v 　　没有生效

发现有问题，我明明把连网设置为了n,为什么还是vn。其实ToAnalysis只能使自定义的词在默认字典中不存在时，这个自定义的词才会生效（这个问题困扰了很久）。

测试二：DicAnalysis方法

@Test
    public void wordTest2333() {
        String str = "数据结构效果不好,连网太慢,发热严重";
        Result result = DicAnalysis.parse(str);
        List<Term> termList = result.getTerms();
        for (Term term : termList) {
            System.out.println(term.getName() + ":" + term.getNatureStr());
        }
    }

结果：

数据结构:n
效果不好:a
,:w
连网:n
太慢:d
,:w
发热:n
严重:a

可以看到我们已经实现自定义的词库中的词全部生效了。

项目集成自动分词系统ansj，实现自定义词库的更多相关文章

paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http:// ...
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库.
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1 ...
Java——word分词·自定义词库
word: https://github.com/ysc/word word-1.3.1.jar 需要JDK8word-1.2.jar c语言给解析成了“语言”,自定义词库必须为UTF-8 程序一旦运 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
31.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
30.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库
1. 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze ...
Java——ikanalyzer分词·只用自定义词库
需要包:IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件: IKAnalyzer.cfg.xmlext.dicstopword.dic 整理好的下载 ...
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于H ...

随机推荐

JaveScript 中使用 XSLT转换XML文档
我们经常将数据存储在XML 中,在展示的时候需要转换为其它的形式,这里介绍使用XSLT 对XML数据进行转换. 要学习XSLT对XML的转换,需要先了解三个文件. 第一个是存储数据的XML文件:emp ...
JavaScript获取IE版本号与HTML设置ie文档模式
JavaScript获取IE版本代码: var gIE = getIE(); alert(gIE.version) function getIE() { var rmsie = /(msie) ([\ ...
TCP长连接保持连接状态
对于TCP长连接保活是十分必要的,原因如下: 1.系统多在OA网和外网间有防火墙隔离,很多防火墙对一段时间内没有报文活动的socket会自动关闭. 2.对于非正常断开的连接系统并不能侦测到,比如防火墙 ...
Kafka 0.11新功能介绍：空消费组延迟rebalance
Kafka 0.11新功能介绍:空消费组延迟rebalance 在0.11之前的版本中,多个consumer实例加入到一个空消费组将导致多次的rebalance,这是由于每个consumer inst ...
Java面试知识点之设计模式（一）
前言:关于设计模式,在框架中用的比较多.在平常接触最为频繁的估计是单例模式了,因此笔者在此对设计模式相关知识点进行总结. 1.设计模式的种类总体来说,设计模式分为3大类总共23种: 1)创建型模式, ...
android studio 定位具体的错误原因
编译一个数据监测APP的时候出现了报错: Error:Compilation failed; see the compiler error output for details. 在网上查到方法如下: ...
executequery要求已打开且可用的connection，连接的当前状态为已关闭
问题: executequery要求已打开且可用的connection,连接的当前状态为已关闭错误原因: 连接的当前状态为已关闭.或者只创建了Connection对象,没有调用Connection. ...
牛客网训练1--------矩阵（二份+二维矩阵hash）
不懂hash的话:https://www.cnblogs.com/ALINGMAOMAO/p/10345850.html 思路:对于一个大矩阵的每一个子矩阵都对应着一个hash值k, 当k出现2次以上 ...
【转】Windows中设置Fiddler抓HTTPS请求的解决办法 Unable to configure Windows to Trust the Fiddler Root certificate .
官网设置 Click Tools > Fiddler Options > HTTPS. Click the Decrypt HTTPS Traffic box. 按照上述要求,我的设置是这 ...
Home Assistant-自动化设备
触发器(trigger) 条件(condition) 动作(action) 自动化中的模板(template) 触发器(trigger) 时间(time)触发器时间触发器在指定的时间触发规则,可以是某 ...

项目集成自动分词系统ansj，实现自定义词库

项目集成自动分词系统ansj，实现自定义词库的更多相关文章

随机推荐

热门专题