stanford corenlp自定义切词类

stanford corenlp的中文切词有时不尽如意，那我们就需要实现一个自定义切词类，来完全满足我们的私人定制（加各种词典干预）。上篇文章《IKAnalyzer》介绍了IKAnalyzer的自由度，本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具。

《stanford corenlp的TokensRegex》提到了corenlp的配置CoreNLP-chinese.properties，其中customAnnotatorClass.segment就是用于指定切词类的，在这里我们只需要模仿ChineseSegmenterAnnotator来实现一个自己的Annotator，并设置在配置文件中即可。

customAnnotatorClass.segment = edu.stanford.nlp.pipeline.ChineseSegmenterAnnotator

下面是我的实现：

public class IKSegmenterAnnotator extends ChineseSegmenterAnnotator {

    public IKSegmenterAnnotator() {

        super();

    }

    public IKSegmenterAnnotator(boolean verbose) {

        super(verbose);

    }

    public IKSegmenterAnnotator(String segLoc, boolean verbose) {

        super(segLoc, verbose);

    }

    public IKSegmenterAnnotator(String segLoc, boolean verbose, String serDictionary, String sighanCorporaDict) {

        super(segLoc, verbose, serDictionary, sighanCorporaDict);

    }

    public IKSegmenterAnnotator(String name, Properties props) {

        super(name, props);

    }

    private List<String> splitWords(String str) {

        try {

            List<String> words = new ArrayList<String>();

            IKSegmenter ik = new IKSegmenter(new StringReader(str), true);

            Lexeme lex = null;

            while ((lex = ik.next()) != null) {

                words.add(lex.getLexemeText());

            }

            return words;

        } catch (IOException e) {

            //LOGGER.error(e.getMessage(), e);

            System.out.println(e);

            List<String> words = new ArrayList<String>();

            words.add(str);

            return words;

        }

    }

    @Override

    public void runSegmentation(CoreMap annotation) {

        //0 2

        // A BC D E

        // 1 10 1 1

        // 0 12 3 4

        // 0, 0+1 ,

        String text = annotation.get(CoreAnnotations.TextAnnotation.class);

        List<CoreLabel> sentChars = annotation.get(ChineseCoreAnnotations.CharactersAnnotation.class);

        List<CoreLabel> tokens = new ArrayList<CoreLabel>();

        annotation.set(CoreAnnotations.TokensAnnotation.class, tokens);

        //List<String> words = segmenter.segmentString(text);

        List<String> words = splitWords(text);

        System.err.println(text);

        System.err.println("--->");

        System.err.println(words);

        int pos = 0;

        for (String w : words) {

            CoreLabel fl = sentChars.get(pos);

            fl.set(CoreAnnotations.ChineseSegAnnotation.class, "1");

            if (w.length() == 0) {

                continue;

            }

            CoreLabel token = new CoreLabel();

            token.setWord(w);

            token.set(CoreAnnotations.CharacterOffsetBeginAnnotation.class, fl.get(CoreAnnotations.CharacterOffsetBeginAnnotation.class));

            pos += w.length();

            fl = sentChars.get(pos - 1);

            token.set(CoreAnnotations.CharacterOffsetEndAnnotation.class, fl.get(CoreAnnotations.CharacterOffsetEndAnnotation.class));

            tokens.add(token);

        }

    }

}

在外面为IKAnalyzer初始化词典，指定扩展词典和删除词典

        //为ik初始化词典，删除干扰词

        Dictionary.initial(DefaultConfig.getInstance());

        String delDic = System.getProperty(READ_IK_DEL_DIC, null);

        BufferedReader reader = new BufferedReader(new FileReader(delDic));

        String line = null;

        List<String> delWords = new ArrayList<>();

        while ((line = reader.readLine()) != null) {

            delWords.add(line);

        }

        Dictionary.getSingleton().disableWords(delWords);

stanford corenlp自定义切词类的更多相关文章

stanford corenlp的TokensRegex
最近做一些音乐类.读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来. 功能 Stanford Corenlp是一套自然语言分析工具集包括: POS(part of spe ...
用 Python 和 Stanford CoreNLP 进行中文自然语言处理
实验环境:Windows 7 / Python 3.6.1 / CoreNLP 3.7.0 一.下载 CoreNLP 在 Stanford NLP 官网下载最新的模型文件: CoreNLP 完整包 ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
Stanford CoreNLP使用需要注意的一点
1.Stanford CoreNLP maven依赖,jdk依赖1.8 <dependency> <groupId>edu.stanford.nlp</groupId&g ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
Stanford Corenlp学习笔记——词性标注
使用Stanford Corenlp对中文进行词性标注语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题添加的jar包有5个 ...
Eclipse下使用Stanford CoreNLP的方法
源码下载地址:CoreNLP官网. 目前release的CoreNLP version 3.5.0版本仅支持java-1.8及以上版本,因此有时需要为Eclipse添加jdk-1.8配置,配置方法如下 ...
Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案
当前中文指代消解领域比较活跃的研究者是Chen和Vincent Ng,这两个人近两年在AAAI2014, 2015发了一些相关的文章,研究领域跨越零指代.代词指代.名词指代等,方法也不是很复杂,集中于 ...
【转载】Stanford CoreNLP Typed Dependencies
总结自Stanford typed dependencies manual 原文链接:http://www.jianshu.com/p/5c461cf096c4 依存关系描述句子中词与词之间的各种语法 ...

随机推荐

创建 OVS flat network - 每天5分钟玩转 OpenStack（134）
上一节完成了 flat 的配置工作,今天创建 OVS flat network.Admin -> Networks,点击 "Create Network" 按钮. 显示创建页 ...
JS正则表达式常用总结
正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...
UWP学习目录整理
UWP学习目录整理 0x00 可以忽略的废话 10月6号靠着半听半猜和文字直播的补充看完了微软的秋季新品发布会,信仰充值成功,对UWP的开发十分感兴趣,打算后面找时间学习一下.谁想到学习的欲望越来越强 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
JavaScript性能优化
如今主流浏览器都在比拼JavaScript引擎的执行速度,但最终都会达到一个理论极限,即无限接近编译后程序执行速度. 这种情况下决定程序速度的另一个重要因素就是代码本身. 在这里我们会分门别类的介绍J ...
【WCF】自定义错误处理（IErrorHandler接口的用法）
当被调用的服务操作发生异常时,可以直接把异常的原始内容传回给客户端.在WCF中,服务器传回客户端的异常,通常会使用 FaultException,该异常由这么几个东东组成: 1.Action:在服务调 ...
AFN解析器里的坑
AFN框架是用来用来发送网络请求的,它的好处是可以自动给你解析JSON数据,还可以发送带参数的请求AFN框架还可以监测当前的网络状态,还支持HTTPS请求,分别对用的类为AFNetworkReacha ...
HA 高可用软件系统保养指南
又过了一年 618,六月是公司一年一度的大促月,一般提前一个月各系统就会减少需求和功能的开发,转而更多去关注系统可用性.稳定性和管控性等方面的非功能需求.大促前的准备工作一般叫作「备战」,可以把线上运 ...
Mysql - 函数
Mysql提供的函数是在是太多了, 很多我都见过, 别说用了. 园子里面, 有人弄了一个比较全的. MYSQL函数我这里会将他写的完全拷贝下来, 中间会插入一些自己项目中使用过的心得一.数学函数 ...
mysql查询性能优化
mysql查询过程: 客户端发送查询请求. 服务器检查查询缓存,如果命中缓存,则返回结果,否则,继续执行. 服务器进行sql解析,预处理,再由优化器生成执行计划. Mysql调用存储引擎API执行优化 ...

stanford corenlp自定义切词类

stanford corenlp自定义切词类的更多相关文章

随机推荐

热门专题