Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案

当前中文指代消解领域比较活跃的研究者是Chen和Vincent Ng，这两个人近两年在AAAI2014, 2015发了一些相关的文章，研究领域跨越零指代、代词指代、名词指代等，方法也不是很复杂，集中于规则+特征+模型的传统思路。国内集中在苏州大学周国栋老师带领的团队和刘挺、秦兵老师带领的团队，分别在Berkeley Parser、LTP基础上做了一些研究，但是遗憾的是，近年来国内学者好像没有顶会命中记录。

鉴于当前国内的指代消解工具基本上没有开源、同时效果还说得过去的，所以经过大量调研当前中文指代消解的现状后，最终确定了使用Stanford CoreNLP作为实验对象。

Stanford CoreNLP 是斯坦福NLP组开源的一套集分词、词性标注、命名实体识别、句法分析、情感分析、指代消解等NLP功能的软件套装，支持英文、中文等语言。

附这个妇孺皆知的tools的链接：http://nlp.stanford.edu/software/index.shtml 和 http://stanfordnlp.github.io/CoreNLP/index.html

它的官方Demo链接：http://nlp.stanford.edu:8080/corenlp/ (这个DEMO对应的后台，应该是使用的英文模型)

好了闲话不多说，我们快快步入正题，如何调用Stanford CoreNLP 3.6.0 套装中的中文指代消解模块

=========================================================================

1、下载 Stanford CoreNLP 3.6.0 源码+模型，500M+，但是里面的cws、pos、parse等模型都是英文的 (http://stanfordnlp.github.io/CoreNLP/download.html)

2、下载中文模型，分词、词性标注、NER、parser等。(我不确定有没有统一下载地址，我是一个一个点开，找到Chinese Model，下载的 http://nlp.stanford.edu/software/index.shtml)

3、跑测试代码，在 http://stanfordnlp.github.io/CoreNLP/coref.html 里面找到运行方法，jar包调用分文件方式或者 java代码调用分句子方式。(注意另外一个页面 http://nlp.stanford.edu/software/dcoref.shtml 中的方法是错误的，实践中有bug跑不通)

4、在3中找到了对的接口，实践中jar包调用来处理文件的方法，是可以在中文语料上跑通的，但是3中贴的代码仍然面向的是英文语料。这时需要对其进行修改。

代码如下：

import edu.stanford.nlp.hcoref.CorefCoreAnnotations;

import edu.stanford.nlp.hcoref.data.CorefChain;

import edu.stanford.nlp.hcoref.data.Mention;

import edu.stanford.nlp.ling.CoreAnnotations;

import edu.stanford.nlp.pipeline.Annotation;

import edu.stanford.nlp.pipeline.StanfordCoreNLP;

import edu.stanford.nlp.util.CoreMap;

import edu.stanford.nlp.util.StringUtils;

import java.util.Properties;

public class CorefExample {

    public static void main(String[] args) throws Exception {

        long startTime=System.currentTimeMillis();

        String text = "小明吃了个冰棒，它很甜。 ";

        args = new String[] {"-props", "edu/stanford/nlp/hcoref/properties/zh-coref-default.properties" };

        Annotation document = new Annotation(text);

        Properties props = StringUtils.argsToProperties(args);

        StanfordCoreNLP pipeline = new StanfordCoreNLP(props);

        pipeline.annotate(document);

        System.out.println("---");

        System.out.println("coref chains");

        for (CorefChain cc : document.get(CorefCoreAnnotations.CorefChainAnnotation.class).values()) {

            System.out.println("\t" + cc);

        }

        for (CoreMap sentence : document.get(CoreAnnotations.SentencesAnnotation.class)) {

            System.out.println("---");

            System.out.println("mentions");

            for (Mention m : sentence.get(CorefCoreAnnotations.CorefMentionsAnnotation.class)) {

                System.out.println("\t" + m);

            }

        }

        long endTime=System.currentTimeMillis();

        long time = (endTime-startTime)/1000;

        System.out.println("Running time "+time/60+"min "+time%60+"s");

    }

}

那么里面的zh-coref-default.properties 为啥CoreNLP里面没有呢。。。最后在stanford-chinese-corenlp-2015-12-08-models.jar解压后对应目录下找到了这个文件，与它官方网页里面虽然只相差一行(具体哪一行，大家可以对比看看)，但是没有那个属性，真的跑不通。

Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案的更多相关文章

marmalade android 5.0 JNI 调用失败的解决方案
5.0 真机日志如下:sart/runtime/check_jni.cc:65] JNI DETECTED ERROR IN APPLICATION: JNI CallVoidMethodV call ...
Error:(27, 13) Failed to resolve: com.android.support.constraint:constraint-layout:1.0.2约束布局constraint-layout导入失败的解决方案
运行demo提示错误: Error:(27, 13) Failed to resolve: com.android.support.constraint:constraint-layout:1.0.2 ...
用 Python 和 Stanford CoreNLP 进行中文自然语言处理
实验环境:Windows 7 / Python 3.6.1 / CoreNLP 3.7.0 一.下载 CoreNLP 在 Stanford NLP 官网下载最新的模型文件: CoreNLP 完整包 ...
OpenERP 7.0 中文报表PDF乱码（WindowsXP）
OpenERP默认安装输出的PDF中文报表都是一些方块: 此问题可以通过oecn_base_fonts模块解决: 更多关于oecn_base_fonts的信息请参考: 1. OpenERPv7.0 中 ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
stanford corenlp的TokensRegex
最近做一些音乐类.读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来. 功能 Stanford Corenlp是一套自然语言分析工具集包括: POS(part of spe ...
stanford corenlp自定义切词类
stanford corenlp的中文切词有时不尽如意,那我们就需要实现一个自定义切词类,来完全满足我们的私人定制(加各种词典干预).上篇文章<IKAnalyzer>介绍了IKAnalyz ...
【转】基于VSM的命名实体识别、歧义消解和指代消解
原文地址:http://blog.csdn.net/eastmount/article/details/48566671 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步 ...

随机推荐

javascript脚本中使用json2.js解析json
官方地址:https://github.com/douglascrockford/JSON-js 点击页面右下角“Download ZIP”下载网页中引用json2.js,下面是一个简单的例 ...
Unity3d 录像
flashtd1: 回复 tqfa :我觉得是有方法可以实现的,之前使用高通的增强显示开发包时发现其实它是添加了一个类似movietexture的东西,叠加在它的摄像机上如果文档里有操作moviet ...
java 学习总结
1 cobertura-maven-plugin maven的测试覆盖率插件集成cobertura-maven-plugin2 intelli J 配置VM参数 3 配置显示行号 mvn clean ...
MySQL数据迁移问题
最近尝试了一下小型数据迁移.本地迁移,windows平台,修改配置文件中的data_dir项,然后将旧的data文件下的数据文件全部拷贝过去. 之后登陆数据库,竟然1145错误.可以看到数据库的结构, ...
Visual studio之C# 利用Settings保存COM口配置信息
背景利用C#做一个串口通信项目,客户需求保存串口COM口的配置信息,在此利用Settings来进行保存. 正文 ".Settings"的创建点击项目 --> 添加新项 - ...
ConfigurationManager读取dll的配置文件
ConfigurationManager读取dll的配置文件最近一个项目,需要发布dll给第三方使用,其中需要一些配置参数. 我们知道.NET的exe工程是自带的App.config文件的,编译之后 ...
基于mybatis-generator代码生成工具改（链式方法实体版）
概述一直以来使用原生mybatis-generator的我发现有一个地方很不方便,即它生成的实体类的set方法返回值是void,而目前比较流行的则是链式set的写法,即set方法返回值不再是void ...
ORA-01589: 要打开数据库则必须使用 RESETLOGS 或 NORESETLOGS 选项
产生这个的原因可能是由于数据库突然停止,没有来得及将缓存区中的LOG归档,导致下次开启时不能匹配日志文件. 数据库中的三个日志文件挨个试,第二个就匹配上了
easyui treegrid增、删、改及批量保存
treegrid添加新行和删除行的方法: 添加和删除直接调用这两个方法即可,修改的方法有点特殊,treegrid没有提供update方法,设置行为编辑状态,$('#obj_tgd_objectlist ...

Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案

Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案的更多相关文章

随机推荐

热门专题