stanford corenlp自定义切词类

stanford corenlp的中文切词有时不尽如意,那我们就需要实现一个自定义切词类,来完全满足我们的私人定制(加各种词典干预).上篇文章<IKAnalyzer>介绍了IKAnalyzer的自由度,本篇文章就说下怎么把IKAnalyzer作为corenlp的切词工具. <stanford corenlp的TokensRegex>提到了corenlp的配置CoreNLP-chinese.properties,其中customAnnotatorClass.segment就是用于指定…

stanford corenlp的TokensRegex

最近做一些音乐类.读物类的自然语言理解,就调研使用了下Stanford corenlp,记录下来. 功能 Stanford Corenlp是一套自然语言分析工具集包括: POS(part of speech tagger)-标注词性 NER(named entity recognizer)-实体名识别 Parser树-分析句子的语法结构,如识别出短语词组.主谓宾等 Coreference Resolution-指代消解,找出句子中代表同一个实体的词.下文的I/my,Nader/he表示的是同一个…

用 Python 和 Stanford CoreNLP 进行中文自然语言处理

实验环境:Windows 7 / Python 3.6.1 / CoreNLP 3.7.0 一.下载 CoreNLP 在 Stanford NLP 官网下载最新的模型文件: CoreNLP 完整包 stanford-corenlp-full-2016-10-31.zip:下载后解压到工作目录. 中文模型stanford-chinese-corenlp-2016-10-31-models.jar:下载后复制到上述工作目录. 二.安装 stanza stanza 是 Stanford CoreNL…

开源中文分词工具探析（五）：Stanford CoreNLP

CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer (NER)).情感分析(sentiment analysis)等功能. 1. 前言 CoreNLP也有中文分词,基于CRF模型: \[ P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)} \] 其中,\(Z_w(x)\)为…

Stanford CoreNLP使用需要注意的一点

1.Stanford CoreNLP maven依赖,jdk依赖1.8 <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.6.0</version></dependency><dependency> <groupId>edu.stanf…

开源中文分词工具探析（六）：Stanford CoreNLP

CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer (NER)).情感分析(sentiment analysis)等功能. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具…

Stanford Corenlp学习笔记——词性标注

使用Stanford Corenlp对中文进行词性标注语言为Scala,使用的jar的版本是3.6.0,而且是手动添加jar包,使用sbt添加其他版本的时候出现了各种各样的问题添加的jar包有5个代码 import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP} /** * Created by common on 17-5-13. */ object NLPLearning { def main(args: Array[St…

Eclipse下使用Stanford CoreNLP的方法

源码下载地址:CoreNLP官网. 目前release的CoreNLP version 3.5.0版本仅支持java-1.8及以上版本,因此有时需要为Eclipse添加jdk-1.8配置,配置方法如下: 首先,去oracle官网下载java-1.8,下载网址为:java下载,安装完成后. 打开Eclipse,选择Window -> Preferences -> Java –> Installed JREs 进行配置: 点击窗体右边的“add”,然后添加一个“Standard VM”(应该…

Stanford CoreNLP 3.6.0 中文指代消解模块调用失败的解决方案

当前中文指代消解领域比较活跃的研究者是Chen和Vincent Ng,这两个人近两年在AAAI2014, 2015发了一些相关的文章,研究领域跨越零指代.代词指代.名词指代等,方法也不是很复杂,集中于规则+特征+模型的传统思路.国内集中在苏州大学周国栋老师带领的团队和刘挺.秦兵老师带领的团队,分别在Berkeley Parser.LTP基础上做了一些研究,但是遗憾的是,近年来国内学者好像没有顶会命中记录. 鉴于当前国内的指代消解工具基本上没有开源.同时效果还说得过去的,所以经过大量调研当前中文指…

【转载】Stanford CoreNLP Typed Dependencies

总结自Stanford typed dependencies manual 原文链接:http://www.jianshu.com/p/5c461cf096c4 依存关系描述句子中词与词之间的各种语法关系.一句句子可以表示成如下的依存关系树. Bell, based in Los Angeles, makes and distributes electronic, computer and building products. CoreNLP中的依存关系有50来种(都是二元的关系),下面总结:…

Stanford CoreNLP无法生成实例对象

在服务器上运行Stanford,今日无法启动"StanfordCoreNLP"了,就是运行下面代码一直在运行,不结束,不报错. from stanfordcorenlp import StanfordCoreNLP std_nlp = StanfordCoreNLP('/data/stanford-corenlp-4.2.0') 最后找到原因:后台启动的相关java服务太多了. 原因解释 StandordCoreNLP底层是Java编写的,在Python生成StanfordCoreNL…

SpringBoot+SpringAOP+Java自定义注解+mybatis实现切库读写分离

一.定义我们自己的切库注解类自定义注解有几点需要注意: 1)@Target 是作用的目标,接口.方法.类.字段.包等等,具体看:ElementType 2)@Retention 是注解存在的范围,RUNTIME代表的是注解会在class字节码文件中存在,在运行时可以通过反射获取到,具体看:RetentionPolicy 3)允许的变量,通常都要给定默认值,比如我们使用一个service时,可以@Service,也可以 @Service("xxxx") @Retention(Reten…

使用Standford coreNLP进行中文命名实体识别

因为工作需要,调研了一下Stanford coreNLP的命名实体识别功能. Stanford CoreNLP是一个比较厉害的自然语言处理工具,很多模型都是基于深度学习方法训练得到的. 先附上其官网链接: https://stanfordnlp.github.io/CoreNLP/index.html https://nlp.stanford.edu/nlp/javadoc/javanlp/ https://github.com/stanfordnlp/CoreNLP 本文主要讲解如何在java…

Standford CoreNLP

Stanford CoreNLP Stanford CoreNLP提供一组自然语言处理的工具.这些工具可以把原始英语文本作为输入,输出词的基本形式,词的词性标记,判断词是否是公司名.人名等,规格化日期.时间.数字量,剖析句子的句法分析树和词依存,指示那些名词短语指代相同的实体.Stanford CoreNLP是一个综合的框架,这可以很简单的使用工具集的一个分支分析一小块文本.从简单的文本开始,你可以仅仅使用两行代码对它运行所有的工具. Stanford CoreNLP集合了词性标注器,命名实体识…

Stanford CoreNLP--常量定义

在运行Stanford CoreNLP过程中会用到tokenize,pos等参数,这些以常量形式定义在edu.stanford.nlp.pipeline.Annotator中,具体如下: /** * These are annotators which StanfordCoreNLP knows how to create. * Add new annotators and/or annotators from other groups here! */ String STANFORD_TOKE…

Stanford CoreNLP--Part of Speech

Stanford CoreNLP Part Of Speech简称POS,主要是对待分析的句子中的单词进行标记的功能,如标记名词.动词等,该组件是CoreNLP工程的一部分,详细内容可参考:CoreNLP POS,使用POS…

Stanford CoreNLP--功能列表

Standford CoreNLP包含很多功能,github上有源码,github地址:Stanford CoreNLP,有需要的话可以下载看看. 主要内容在网站上都有描述,原文是这样写的: Choose Stanford CoreNLP if you need: An integrated toolkit with a good range of grammatical analysis tools Fast, reliable analysis of arbitrary texts The…

在 NLTK 中使用 Stanford NLP 工具包

转载自:http://www.zmonster.me/2016/06/08/use-stanford-nlp-package-in-nltk.html 目录 NLTK 与 Stanford NLP 安装和配置注意事项 StanfordSegmenter StanfordTokenizer StanfordNERTagger 和 StanfordPOSTagger StanfordParser, StanfordDependencyParser StanfordNeuralDependencyP…

开源中文分词工具探析（三）：Ansj

Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度.虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典.array + linked-list方式实现分词DAG.支持自定义词典与自定义消歧义规则等. 1. 前言 Ansj支持多种分词方式,其中ToAnalysis为店长推荐款: 它在易用…

人工智能头条（公开课笔记）+AI科技大本营——一拨微信公众号文章

不错的 Tutorial: 从零到一学习计算机视觉:朋友圈爆款背后的计算机视觉技术与应用 | 公开课笔记分享人 | 叶聪(腾讯云 AI 和大数据中心高级研发工程师) 整理 | Leo 出品 | 人工智能头条(公众号ID:AI_Thinker) 刚刚过去的五四青年节,你的朋友圈是否被这样的民国风照片刷屏?用户只需要在 H5 页面上提交自己的头像照片,就可以自动生成诸如此类风格的人脸比对照片,简洁操作的背后离不开计算机视觉技术和腾讯云技术的支持. 那么这个爆款应用的背后用到了哪些计…

Python自然语言处理工具小结

Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [Python NLP]Python 自然语言处理工具小结(2) [Python NLP]Python NLTK 走进大秦帝国(3) [Python NLP]Python NLTK获取文本语料和词汇资源(4) [Python NLP]Python NLTK处理原始文本(5) 1 Python 的几个自…

中文分词工具探析（一）：ICTCLAS (NLPIR)

1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在论文[1] 中宣称ICTCLAS是基于HHMM(Hierarchical Hidden Markov Model)实现,后在论文[2]中改成了基于层叠隐马尔可夫模型CHMM(Cascaded Hidden Markov Model).我把HHMM的原论文[3]读了一遍,对照ICTCLAS源码,发现I…

【机器学习Machine Learning】资料大全

昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Elements of Statistical Learning(by Bishop's) 这两本是英文的,但是非常全,第一本需要有一定的数学基础,第可以先看第二本.如果看英文觉得吃力,推荐看一下下面…

机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】

转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最…

自然语言处理（NLP）常用开源工具总结（转）

..................................内容纯转发+收藏................................... 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的. 1.IKAnalyzer IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包.从2006.12推出1.0版本开始,IK Analy…

Java自然语言处理NLP工具包

1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包.LingPipe目前已有很丰富的功能,包括主题分类(Top Classification).命名实体识别(Named Entity Recognition).词性标注(Part-of Speech Tagging).句题检测(Sentence Detection).查询拼写检查(Query Spell Checking).兴趣短语检测(Interseting Phrase Detection).…

开源中文分词工具探析（五）：FNLP

FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一):ICTCLAS (NLPIR) 中文分词工具探析(二):Jieba 中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 1. 前言类似于THULAC,FNLP也是采用线性模型(linear model)作为基础分词模型.与对数线性模型…

机器学习资源汇总----来自于tensorflow中文社区

新手入门完整教程进阶指南 API中文手册精华文章TF社区 INTRODUCTION 1. 新手入门 1.1. 介绍 1.2. 下载及安装 1.3. 基本用法 2. 完整教程 2.1. 总览 2.2. MNIST 数据下载 2.3. MNIST 入门 2.4. MNIST 进阶 2.5. TENSORFLOW 运作方式入门 2.6. 卷积神经网络 2.7. 字词的向量表示 2.8. 递归神经网络 2.9. 曼德布洛特(MANDELBROT)集合 2.10. 偏微分方程 3. 进阶指南 3.1. 总…

自然语言处理（NLP）相关学习资料/资源

自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐自然语言处理统计自然语言处理(第2版) 作者:宗成庆出版社:清华大学出版社:出版年:2013:页数:570 内容简介:系统地描述了神经网络之前的基于统计的NLP方法,能够对NLP各项任务以及经典的算法学习了解. 数学之美(第2版) 作者:吴军出版社:人民邮电出版社:出版年:2014:页数:312 内容简介:讲解了NLP里常用的数学模型,并把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力. Speech and Lan…

机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从1940年开始讲起,到60-80…

【stanford corenlp自定义切词类】的更多相关文章