nlp基础(一)基本应用】的更多相关文章

大纲 NLP基础概念 NLP的发展与应用 NLP常用术语以及扩展介绍 1.1 什么是NLP 基本分类 自然语言生成(Natural Language Generation,NLG) 指从结构化数据中以读取的方式自动生成文本,主要包括三个阶段: 文本规划:完成结构化数据中的基础内容规划: 语句规划:从结构化数据中组合语句来表达信息流: 实现:产生语法通顺的语句来表达文本: 研究任务 机器翻译 情感分析 智能问答 文摘生成 文本分类 舆论分析 知识图谱 1.2 NLP的发展历程 萌芽期(1956年以…
1  自然语言处理三大特征抽取器(CNN/RNN/TF)比较 白衣骑士Transformer:盖世英雄站上舞台 华山论剑:三大特征抽取器比较 综合排名情况 以上介绍内容是从几个不同角度来对RNN/CNN/Transformer进行对比,综合这几个方面的实验数据,我自己得出的结论是这样的:单从任务综合效果方面来说,Transformer明显优于CNN,CNN略微优于RNN.速度方面Transformer和CNN明显占优,RNN在这方面劣势非常明显.这两者再综合起来,如果我给的排序结果是Transf…
(1)词集模型(Set Of Words): 单词构成的集合,集合自然每个元素都只有一个,也即词集中的每个单词都只有一个. (2)词袋模型(Bag Of Words): 如果一个单词在文档中出现不止一次,并统计其出现的次数(频数). 为文档生成对应的词集模型和词袋模型 考虑如下的文档: dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to…
1.问答系统,它主要是针对那些有明确答案的用户问题,而且通常面向特定的领域,比如金融,医疗,这一类的机器人.它的技术实现方案分为基于检索和基于知识库两大类. 2.第二个任务型对话系统,大家看论文的时候看的大多数的对话系统都是任务型的,它也是面向特定的领域,而且是非常明确的领域. 它是以尽快地正确的完成明确的任务为目标的,而且对话的轮数越短越好,它的应用实例就是各种在线的私人助理比如助理来也. 3.第三个是偏闲聊的对话机器人,它没有特定的领域和明确的对话目标,评价标准之一就是看人和他聊天的时间长短…
正则匹配: .除换行符所有的 ?表示0次或者1次 *表示0次或者n次 a(bc)+表示bc至少出现1次 ^x.*g$表示字符串以x开头,g结束 |或者 http://regexr.com/ 依存句法分析得到的 dobj : direct object直接宾语  用来表示潜在的Intent,指代消解里面也用到依存句法分析得到的结果 两种语法结构能够揭示句子中不同的信息,所以当你在其他任务中,需要用到句子中的短语结构就用constituent ,而需要用到词与词之间的依赖关系就用dependency…
#!/usr/bin/env python # coding: utf-8 # # 字符串操作 # ### 去空格和特殊字符 # In[8]: s = " hello world! " print(s.strip()) #去掉左右的空格 print(s.lstrip("hello ")) #把左侧的一些字符去掉 print(s.rstrip("ld!")) # ### 连接字符串 # In[9]: sstr1 = "strcat&quo…
参考网址: http://yuzhinlp.com/docs.html 接入前须知 接入条件 1.进入网站首页,点击注册成为语知科技用户 2.注册完成后,系统将提供语知科技用户唯一标识APIKey,并妥善保存.若忘记APIKey,进入首页登录账号即可找回 3.进入文档中心,查看接口列表,选择相应的接口,点击进入接口文档根据接口文档进行参数配置并完成调用 接入注意事项 1.请务必妥善保存APIKey,若忘记APIKey,请进入首页登录进行找回 2.接口调用期间无须登录,本网站首页的登录仅供找回AP…
其实目前除了之前博客写到的一些关于自然语言处理用到的知识点之外,很多其他nlp技术只是会用但是不了解原理,先整体分个类,之后再仔细分析吧. 上图是https://www.sohu.com/a/138692749_657157 阿里的nlp业务框架.我主要是从第二层:nlp基础算法来总结原理.其中主题模型.word2vec都已经总结过了,之后主要针对词法分析部分算法进行总结(目前先列出了我用到的工具,之后补充算法原理2019.3.1 下面这个博客之后可以参考学习https://blog.csdn.…
机器之心上面微软亚研的这篇文章真好: https://baijiahao.baidu.com/s?id=1618179669909135692&wfr=spider&for=pc 其中最后做的总结也非常经典,共赏: 未来展望:理想的 NLP 框架和发展前景 我们认为,未来理想状态下的 NLP 系统架构可能是如下一个通用的自然语言处理框架: 首先,对给定自然语言输入进行基本处理,包括分词.词性标注.依存分析.命名实体识别.意图/关系分类等. 其次,使用编码器对输入进行编码将其转化为对应的语义…
http://blog.csdn.net/malefactor/article/details/50725480 /* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 序列标注问题应该说是自然语言处理中最常见的问题,而且很可能是最而没有之一.在深度学习没有广泛渗透到各个应用领域之前,传统的最常用的解决序列标注问题的方案是最大熵.CRF等模型,尤其是CRF,基本是最主流的方法.随着深度学习的不断探索和发展,很可能RNN模型会取代CRF的传统霸主地位,会成…
该小博主介绍 本人:笔名zenRRan,方向自然语言处理,方法主要是深度学习. 未来的目标:人工智能之自然语言处理博士. 写公众号目的:将知识变成开源,让每个渴求知识而难以入门人工智能的小白以及想进阶的小牛找到新的捷径. 公众号特点:文章写的十分生动详细,不懂的可以加小编微信,一起探讨. 写公众号原因:因为我喜欢将知识分享给大家,和大家一起学习,每天进步一丢丢. 口号:坚持下去,每天进步一丢丢! 文章涉及的方向 自然语言处理(情感分析.句法分析.智能司法.机器翻译.意见挖掘等领域).机器学习和深…
最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子...来源|知乎作者 其实今年参加NLP算法岗秋招的小伙伴可能有感慨, "照着别人的面经去准备了辣么多,轮到自己面试时内容怎么这么不一样?!" "说好的要做到熟练推导SVM呢?怎么从来没人让我推导SVM?" "整场面试都在聊前沿论文啊什么鬼?从来没见这样的面经…
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习目标:Dirichlet Process, HDP, HDP-HMM, IBP, CRM Alex Kendall Geometry and Uncertainty in Deep Learning for Computer Vision 语义分割 colah's blog Feature Visu…
项目地址:https://github.com/imhuay/Algorithm_Interview_Notes-Chinese 如下所示为整个项目的结构,其中从机器学习到数学主要提供的是笔记与面试知识点,读者可回顾整体的知识架构.后面从算法到笔试面经主要提供的是问题及解答方案,根据它们可以提升整体的解题水平与编程技巧. 面试知识点 面试题多种多样,但机器学习知识就那么多,那么为了春招或春季跳槽,何不过一遍 ML 核心知识点?在这个 GitHub 项目中,作者前一部分主要介绍了机器学习及各子领域…
首页 博客 学院 下载 图文课 论坛 APP 问答 商城 VIP会员 活动 招聘 ITeye GitChat 写博客 小程序 消息 登录注册 关闭 quartz_Cron表达式一分钟教程 09-05 quartz定时任务中常用的cron表达式 05-08 Quartz2实现任务的临时启动/暂停/恢复 05-17 quartz 获取正在执行的任务 12-20 在spring中实现quartz的动态调度(开始.暂停.停止等) 09-04 SpringQuartz定时任务的cron表达式书写 09-1…
一.背景知识 1.1 什么是分词? NLP的基础任务分为三个部分,词法分析.句法分析和语义分析,其中词法分析中有一种方法叫Tokenization,对汉字以字为单位进行处理叫做分词. Example :  我  去  北  京 S       S       B       E 注:S代表一个单独词,B代表一个词的开始,E表示一个词的结束(北京是一个词). 1.2 什么是词性标注? 句法分析中有一种方法叫词性标注(pos tagging),词性标注的目标是使用类似PN.VB等的标签对句子(一连串…
写在前面 ETL Pipeline 学习资源 Ref: 使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习 Ref: AWS Glue 常见问题 Extract is the process of reading data from a database. In this stage, the data is collected, often from multiple and different types of sources. Transform is t…
这个十一月,是属于深度学习开发者们的秋季盛宴.『WAVE Summit+』2019 深度学习开发者秋季峰会刚刚落下帷幕,基于ERNIE的语义理解工具套件也在此次峰会上全新发布,旨在为企业级开发者提供更领先.高效.易用的 ERNIE 应用服务,全面释放 ERNIE 的工业化价值,为人工智能产业化大生产贡献力量,赋能各行各业. 那么,ERNIE到底为何方神圣?它又有着怎样的魔力?11月23日,百度AI快车道将为大家带来答案.盛宴持续,巡回加场,本次活动聚焦百度自研的持续学习语义理解框架——百度艾尼(…
成都市自年初出台<成都市加快人工智能产业发展推进方案(2019-2022年)>以来,便积极推动相关企业落地.强化人才培养并推进人工智能与传统行业融合应用,在AI赛道上不断"加速".而百度AI快车道的"巡回公开课" --艾尼(ERNIE)专场继覆盖北上深三地后,下一站将锁定在汇聚人才和产业资源的"天府之国". 12月21日,百度AI快车道--企业深度学习实战营将首次来到四川成都,举办百度艾尼(ERNIE)专场.课程将围绕持续学习语义理解…
I. 正则表达式(regular expression) 正则表达式是专门处理文本字符串的正式语言(这个是基础中的基础,就不再详细叙述,不了解的可以看这里). ^(在字符前): 负选择,匹配除括号以外的字符.比如[^A-W]匹配所有非大写字符:[^e^]匹配所有e和^以外的字符 |:或者.比如a|b|c等价于[a-c] *:匹配大于等于0个符号前面的字符:+:匹配至少一个前面的字符:.:匹配所有单个字符:?:匹配0或1个前面的字符 \:转义符:将特殊字符转化为简单字符.比如.匹配所有字符,.匹配…
作者:龙心尘 &&寒小阳 时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50543337 http://blog.csdn.net/han_xiaoyang/article/details/50545650 声明:版权所有,转载请联系作者并注明出处 1. 如果让你破译"三体"人文字你会怎么办? 我们试着开一下脑洞:假如你有一个优盘,里面存了大量"三体"人(刘慈欣…
1. NLP问题简介 0x1:NLP问题都包括哪些内涵 人们对真实世界的感知被成为感知世界,而人们用语言表达出自己的感知视为文本数据.那么反过来,NLP,或者更精确地表达为文本挖掘,则是从文本数据出发,来尽可能复原人们的感知世界,从而表达真实世界的过程.这里面就包括如图中所示的模型和算法,包括: ()文本层:NLP文本表示: ()文本-感知世界:词汇相关性分析.主题模型.意见情感分析等: ()文本-真实世界:基于文本的预测等: 显而易见,文本表示在文本挖掘中有着绝对核心的地位,是其他所有模型建构…
作者:龙心尘 &&寒小阳 时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50543337, http://blog.csdn.net/han_xiaoyang/article/details/50545650 声明:版权全部.转载请联系作者并注明出处 1. 假设让你破译"三体"人文字你会怎么办? 我们试着开一下脑洞:假如你有一个优盘,里面存了大量"三体"人(刘慈…
0.前言 深度学习用的有一年多了,最近开始NLP自然处理方面的研发.刚好趁着这个机会写一系列NLP机器翻译深度学习实战课程. 本系列课程将从原理讲解与数据处理深入到如何动手实践与应用部署,将包括以下内容:(更新ing) NLP机器翻译深度学习实战课程·零(基础概念) NLP机器翻译深度学习实战课程·壹(RNN base) NLP机器翻译深度学习实战课程·贰(RNN+Attention base) NLP机器翻译深度学习实战课程·叁(CNN base) NLP机器翻译深度学习实战课程·肆(Self…
Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Error, 相对误差和) MSE(Mean Squared Error, 均方误差) RMSE(Root Mean Squared Error, 均方根误差) RRSE(Root Relative Squared Error, 相对平方根误差) MAE(Mean Absolute Error, 平均绝…
参考https://blog.csdn.net/zxm1306192988/article/details/78896319 以NLTK为基础配合讲解自然语言处理的原理  http://www.nltk.org/ Python上著名的自然语⾔处理库 自带语料库,词性分类库 自带分类,分词,等功能 强⼤的社区⽀持 还有N多的简单版wrapper,如 TextBlob NLTK安装(可能需要预先安装numpy) pip install nltk 安装语料库 import nltk nltk.down…
一.简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法.通俗地说:主要就是计算一个query里面所有词q和文档的相关度,然后再把分数做累加操作. 我们有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,我们的做法是,先对query进行切分,得到单词qi,然后单词的分数由3部分组成: 单词qi和D之间的相关性…
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安 局长”.“公安局 长”.“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词) 2.切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”.“了”.“和”.“你”.“我”.“他”.例…
https://www.jianshu.com/p/9fe0a7004560 一.简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:不同的是,LSA 将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度. 二.文本挖掘的两个方面应用 (1)分类: a.将词汇表中的字词按意思归类(比如将各种体育运动的名称都归成一类) b…
一.简介 https://cloud.tencent.com/developer/article/1058777 1.LDA是一种主题模型 作用:可以将每篇文档的主题以概率分布的形式给出[给定一篇文档,推测其主题分布].我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布. 从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类. 2.同时,它是一种典型的词袋模型 即一篇文档是由一组词构成,词与词之间没有先后顺序的关系. 此外,一篇文档可以包含多个…