NLP基础】的更多相关文章

大纲 NLP基础概念 NLP的发展与应用 NLP常用术语以及扩展介绍 1.1 什么是NLP 基本分类 自然语言生成(Natural Language Generation,NLG) 指从结构化数据中以读取的方式自动生成文本,主要包括三个阶段: 文本规划:完成结构化数据中的基础内容规划: 语句规划:从结构化数据中组合语句来表达信息流: 实现:产生语法通顺的语句来表达文本: 研究任务 机器翻译 情感分析 智能问答 文摘生成 文本分类 舆论分析 知识图谱 1.2 NLP的发展历程 萌芽期(1956年以…
1  自然语言处理三大特征抽取器(CNN/RNN/TF)比较 白衣骑士Transformer:盖世英雄站上舞台 华山论剑:三大特征抽取器比较 综合排名情况 以上介绍内容是从几个不同角度来对RNN/CNN/Transformer进行对比,综合这几个方面的实验数据,我自己得出的结论是这样的:单从任务综合效果方面来说,Transformer明显优于CNN,CNN略微优于RNN.速度方面Transformer和CNN明显占优,RNN在这方面劣势非常明显.这两者再综合起来,如果我给的排序结果是Transf…
(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个. (2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一次,并统计其出现的次数(频数). 为文档生成对应的词集模型和词袋模型 考虑如下的文档: dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to…
1.问答系统,它主要是针对那些有明确答案的用户问题,而且通常面向特定的领域,比如金融,医疗,这一类的机器人.它的技术实现方案分为基于检索和基于知识库两大类. 2.第二个任务型对话系统,大家看论文的时候看的大多数的对话系统都是任务型的,它也是面向特定的领域,而且是非常明确的领域. 它是以尽快地正确的完成明确的任务为目标的,而且对话的轮数越短越好,它的应用实例就是各种在线的私人助理比如助理来也. 3.第三个是偏闲聊的对话机器人,它没有特定的领域和明确的对话目标,评价标准之一就是看人和他聊天的时间长短…
正则匹配: .除换行符所有的 ?表示0次或者1次 *表示0次或者n次 a(bc)+表示bc至少出现1次 ^x.*g$表示字符串以x开头,g结束 |或者 http://regexr.com/ 依存句法分析得到的 dobj : direct object直接宾语  用来表示潜在的Intent,指代消解里面也用到依存句法分析得到的结果 两种语法结构能够揭示句子中不同的信息,所以当你在其他任务中,需要用到句子中的短语结构就用constituent ,而需要用到词与词之间的依赖关系就用dependency…
#!/usr/bin/env python # coding: utf-8 # # 字符串操作 # ### 去空格和特殊字符 # In[8]: s = " hello world! " print(s.strip()) #去掉左右的空格 print(s.lstrip("hello ")) #把左侧的一些字符去掉 print(s.rstrip("ld!")) # ### 连接字符串 # In[9]: sstr1 = "strcat&quo…
参考网址: http://yuzhinlp.com/docs.html 接入前须知 接入条件 1.进入网站首页,点击注册成为语知科技用户 2.注册完成后,系统将提供语知科技用户唯一标识APIKey,并妥善保存.若忘记APIKey,进入首页登录账号即可找回 3.进入文档中心,查看接口列表,选择相应的接口,点击进入接口文档根据接口文档进行参数配置并完成调用 接入注意事项 1.请务必妥善保存APIKey,若忘记APIKey,请进入首页登录进行找回 2.接口调用期间无须登录,本网站首页的登录仅供找回AP…
其实目前除了之前博客写到的一些关于自然语言处理用到的知识点之外,很多其他nlp技术只是会用但是不了解原理,先整体分个类,之后再仔细分析吧. 上图是https://www.sohu.com/a/138692749_657157 阿里的nlp业务框架.我主要是从第二层:nlp基础算法来总结原理.其中主题模型.word2vec都已经总结过了,之后主要针对词法分析部分算法进行总结(目前先列出了我用到的工具,之后补充算法原理2019.3.1 下面这个博客之后可以参考学习https://blog.csdn.…
机器之心上面微软亚研的这篇文章真好: https://baijiahao.baidu.com/s?id=1618179669909135692&wfr=spider&for=pc 其中最后做的总结也非常经典,共赏: 未来展望:理想的 NLP 框架和发展前景 我们认为,未来理想状态下的 NLP 系统架构可能是如下一个通用的自然语言处理框架: 首先,对给定自然语言输入进行基本处理,包括分词.词性标注.依存分析.命名实体识别.意图/关系分类等. 其次,使用编码器对输入进行编码将其转化为对应的语义…
http://blog.csdn.net/malefactor/article/details/50725480 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 序列标注问题应该说是自然语言处理中最常见的问题,而且很可能是最而没有之一.在深度学习没有广泛渗透到各个应用领域之前,传统的最常用的解决序列标注问题的方案是最大熵.CRF等模型,尤其是CRF,基本是最主流的方法.随着深度学习的不断探索和发展,很可能RNN模型会取代CRF的传统霸主地位,会成…