摘录自:CIPS2016 中文信息处理报告<第一章 词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf 之前写过一篇中文分词总结,那么在那篇基础上,通过在CIPS2016的摘录进行一些拓展.可参考上篇:NLP+词法系列(一)︱中文分词技术小结.几大分词引擎的介绍与比较 NLP词法.句法.语义.语篇综合系列: NLP+词法系列(一)︱中文分词技术小结.几大分词引擎的介绍与…
1. NLP问题简介 0x1:NLP问题都包括哪些内涵 人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发,来尽可能复原人们的感知世界,从而表达真实世界的过程.这里面就包括如图中所示的模型和算法,包括: ()文本层:NLP文本表示: ()文本-感知世界:词汇相关性分析.主题模型.意见情感分析等: ()文本-真实世界:基于文本的预测等: 显而易见,文本表示在文本挖掘中有着绝对核心的地位,是其他所有模型建构…
参考博客:https://blog.csdn.net/guolindonggld/article/details/56966200 原著论文:http://www.aclweb.org/anthology/P02-1040.pdf BLEU是2002年IBM研究人员提出的一种自动评价MT翻译质量的方法.其本质是比对MT给出的结果(称为候选翻译,candidate)和事前知道的比较好的若干个翻译样本(称为参考翻译,reference,通常是人工翻译给出的数据),比较两者之间的相似度. 在计算这个相…
前沿   在文章NLP(十七)利用tensorflow-serving部署kashgari模型中,笔者介绍了如何利用tensorflow-serving部署来部署深度模型模型,在那篇文章中,笔者利用kashgari模块实现了经典的BERT+Bi-LSTM+CRF模型结构,在标注了时间的文本语料(大约2000多个训练句子)中也达到了很好的识别效果,但是也存在着不足之处,那就是模型的预测时间过长,平均预测一个句子中的时间耗时约400毫秒,这种预测速度在生产环境或实际应用中是不能忍受的.   查看该模…
吴恩达的deep Learning 吴恩达机器学习 李宏毅 的机器学习   http://speech.ee.ntu.edu.tw/~tlkagk/courses.html 斯坦福的概率图模型    和 CMU的概率图模型 斯坦福自然语言处理  cs224 斯坦福深度学习  视觉方向  cs231 这位大神的机器学习 比国内高校课程讲的都好吧  强化学习 斯坦福cs230:深度学习 | 吴恩达…
读聪明人的笔记,是不是也能变聪明呢? Image Caption是一个融合计算机视觉.自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字. Image Caption问题可以定义为二元组(I,S)的形式, 其中I表示图,S为目标单词序列,其中S={S1,S2,-},其中St为来自于数据集提取的单词.训练的目标是使最大似然p(S|I)取得最大值,即使生成的语句和目标语句更加匹配,也可以表达为用尽可能准确的用语句去描述图像. Image Caption主要研究分为以下几个方向: 1…
背景 在研究和新闻文章中,关键词构成了一个重要的组成部分,因为它们提供了文章内容的简洁表示.关键词在从信息检索系统,书目数据库和搜索引擎优化中定位文章方面也起着至关重要的作用.关键词还有助于将文章分类为相关主题或学科. 提取关键词的传统方法涉及基于文章内容和作者的判断手动分配关键词.这涉及大量时间和精力,并且在选择适当的关键字方面也可能不准确.随着自然语言处理(NLP)的出现,关键字提取已经发展为有效且高效. 在本文中,我们将结合这两者 - 我们将在一系列文章上应用NLP来提取关键字. 关于数据…
这个项目是用Struts2做的,我这里单独写了一个BaseAction,用来存放所有的功能模块的Action的公共部分, 刚开始的做法是这个BaseAction只会继承ActionSupport 并不会实现ModelDriven<T>,而是让每一个具体的Action(比如DepartmentAction)去继承ModelDriven<T>, 但是为了实现代码不重复写,进行了改进.这里直接让BaseAction继承ModelDriven<T>,然后让所有的功能模块的Act…
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远.哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒! 次,全球用户突破30万.(博客中科院分词系统整理笔记) <大数据搜索与挖掘>张华平:在线看书网址 4.bostonNLP 玻森采用的结构化预测分词模型是传统线性条件随机场(Linear-chain CRF)的一个变种. 分词与词性标注中…
大家好,时隔多年再次打开我的博客园写下自己的经验和学习总结,开园三年多,文章数少得可怜,一方面自己技术水平局限,另一方面是自己确实想放弃写博客.由于毕业工作的原因,经常性的加班以及仅剩下少的可怜的休息时间实在是想好好休息.但现在又回到了校园,在2019年4月份我选择了辞职考研,如愿考取了计算机科学与技术的硕士研究生,目前在长春理工大学就读,在导师的建议下我选择NLP(自然语言处理)这个研究方向.对于自己重新开始写博客,一方面是为了巩固自己学习的成果,另一方面是自己在摸索的过程中经历了一些问题,走…