小夕从7月份开始收到第一场面试邀请,到9月初基本结束了校招(面够了面够了T_T),深深的意识到今年的对话系统/chatbot方向是真的超级火呀.从微软主打情感计算的小冰,到百度主打智能家庭(与车联网?)的DuerOS和UNIT,到渗透在阿里许多产品的全能型智能客服小蜜,以及腾讯的小微和搜狗的汪仔,更不必说那些大佬坐镇的独角兽公司了,小夕深感以对话为主战场的NLP之风在工业界愈演愈烈,吓得小夕赶紧码了这篇文章. 1. 扫盲 对话的概念很大,从输入形式上分为文本和语音,本文当然只考虑文本.从对话目的…
2023年的计算语言学协会年会(ACL 2023)共包含26个领域,代表着当前前计算语言学和自然语言处理研究的不同方面.每个领域都有一组相关联的关键字来描述其潜在的子领域, 这些子领域并非排他性的,它们只描述了最受关注的子领域,并希望能够对该领域包含的相关类型的工作提供一些更好的想法. 1.计算机领域顶会(A类) 会议简称 主要领域 会议全称 官网 截稿时间 会议时间 CVPR2023 计算机视觉 The IEEE/CVF Conference on Computer Vision and Pa…
在过去的几个月中,我一直在收集自然语言处理(NLP)以及如何将NLP和深度学习(Deep Learning)应用到聊天机器人(Chatbots)方面的最好的资料. 时不时地我会发现一个出色的资源,因此我很快就开始把这些资源编制成列表. 不久,我就发现自己开始与bot开发人员和bot社区的其他人共享这份清单以及一些非常有用的文章了. 在这个过程中,我的名单变成了一个指南,经过一些好友的敦促和鼓励,我决定和大家分享这个指南,或许是一个精简的版本 - 由于长度的原因. 这个指南主要基于Denny Br…
自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐 自然语言处理 统计自然语言处理(第2版) 作者:宗成庆 出版社:清华大学出版社:出版年:2013:页数:570 内容简介:系统地描述了神经网络之前的基于统计的NLP方法,能够对NLP各项任务以及经典的算法学习了解. 数学之美(第2版) 作者:吴军 出版社:人民邮电出版社:出版年:2014:页数:312 内容简介:讲解了NLP里常用的数学模型,并把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力. Speech and Lan…
Tika常见格式文件抽取内容并做预处理 作者 白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重要性.在大数据的背景下,越来越多的非结构化半结构化文本.如何从海量文本中抽取我们需要的有价值的知识显得尤为重要.另外文本格式常常不一,诸如:pdf,word,excl,xml,ppt,txt等常见文件类型你或许经过一番周折还是有办法处理的.倘若遇到database,html,邮件,RTF,图像,语音…
作者:韩信子@ShowMeAI 深度学习实战系列:https://www.showmeai.tech/tutorials/42 自然语言处理实战系列:https://www.showmeai.tech/tutorials/45 本文地址:https://showmeai.tech/article-detail/399 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 自然语言处理(NLP)技术可以完成文本数据上的分析挖掘,并应用到各种业务当中.例如: 机器翻译…
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理  原贴:   https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录 目录 1 NLTK和StandfordNLP简介 2 安装配置过程中注意事项 3 StandfordNLP必要工具包下载 4 StandfordNLP相关核心操作 5 参考文献和知识扩展 干货!详述Python NLTK下如何使用stanford NLP工具包 作者:白宁超 2016年11月6日19:…
近年来,深度学习的研究越来越深入,在各个领域也都获得了不少突破性的进展.基于注意力(attention)机制的神经网络成为了最近神经网络研究的一个热点,下面是一些基于attention机制的神经网络在自然语言处理(NLP)领域的论文,现在来对attention在NLP中的应用进行一个总结,和大家一起分享. 1 Attention研究进展 Attention机制最早是在视觉图像领域提出来的,应该是在九几年思想就提出来了,但是真正火起来应该算是google mind团队的这篇论文<Recurrent…
一.分类问题 分类是为了给那些已经给定的输入选择正确的标签. 在基本的分类任务中,每个输入都被认为与其他的输入是隔离的.每个类别的标签集是预先定义好的(只有把类别划分好了,才能给输入划分类别). 分类任务举例: 判断电子是否是垃圾邮件 从一个固定的主题领域列表里,比如有‘体育’.‘技术’.‘政治’等,来判断新闻报道的主题 判断给定词‘bank’的意思是指河的坡岸.金融机构.还是金融机构里的存储行为 基本分类任务: 多样分类:每个实例可以分配多个标签 开放性分类:标签集没有事先定义 序列分类:输入…
一.选择正确的特征 1.建立分类器的工作中如何选择相关特征,并且为其编码来表示这些特征是首要问题. 2.特征提取,要避免过拟合或者欠拟合 过拟合,是提供的特征太多,使得算法高度依赖训练数据的特性,而对于一般化的新例子不起作用,在小型训练集上通常会出现这种问题. 欠拟合,是特征太少,算法不能很好地反映实例的特性 3.用错误分析的方法来完善特征集,首先选择开发集,其中包含用于创建模型的语料数据.然后开发集分为训练集和开发测试集. >>> train_names = names[1500:]…