背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进.本文主要介绍深度学习技术在文本领域的应用,文本领域大致可分为4个维度:词.句子.篇章.系统级应用. 词.分词方面,从最经典的前后向匹配到条件随机场(Conditional Random Field,CRF)序列标注,到现在Bi-LSTM+CRF模型,已经不需要设计特征,从字粒度就能做到最好的序列标注…
同本文一起发布的另外一篇文章中,提到了 BlueDot 公司,这个公司致力于利用人工智能保护全球人民免受传染病的侵害,在本次疫情还没有引起强烈关注时,就提前一周发出预警,一周的时间,多么宝贵! 他们的 AI 预警系统,就用到了深度学习对文本的处理,这个系统抓取网络上大量的新闻.公开声明等获取到的数十万的信息,对自然语言进行处理,我们今天就聊聊深度学习如何对文本的简单处理. 文本,String 或 Text,就是字符的序列或单词的序列,最常见的是单词的处理(我们暂时不考虑中文,中文的理解和处理与英…
AI面试必备/深度学习100问1-50题答案解析 2018年09月04日 15:42:07 刀客123 阅读数 2020更多 分类专栏: 机器学习   转载:https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/80972658 1.梯度下降算法的正确步骤,(正确步骤dcaeb)(梯度下降法其实是根据函数的梯度来确定函数的极小值),这里的问题与其说是梯度下降算法的步骤不如说类似图图像分类训练的整个流程:网络初始化-输入to输出-期望输…
本文介绍如何将基于深度学习的目标检测算法应用到具体的项目开发中,体现深度学习技术在实际生产中的价值,算是AI算法的一个落地实现.本文算法部分可以参见前面几篇博客: [AI开发]Python+Tensorflow打造自己的计算机视觉API服务 [AI开发]基于深度学习的视频多目标跟踪实现 [AI开发]视频多目标跟踪高级版(离自动驾驶又‘近’了一点点) [AI开发]centOS7.5上基于keras/tensorflow深度学习环境搭建 背景 交通领域是深度学习技术可以发挥强大作用的一个领域.道路交…
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文文本分类万字总结(CNN.TextCNN.BiLSTM.注意力)>,作者: eastmount. 一.文本分类概述 文本分类旨在对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类.文本分类最早可以追溯到上世纪50年代,那时主要通过专家定义规则来进行文本分类:80年代出现了利…
人工智能 人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是对人的意识.思维的信息过程的模拟.人工智能不是人的智能,但能像人那样思考.也可能超过人的智能. 人工智能的定义可以分为两部分,即“人工”和“智能”. 机器学习 1.    什么是机器学习 根据等人事件中判断人是否迟到了解什么是机器学习,具体参见地址:http://www.cnblogs.com/helloche…
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第i层网络 z[i] = W[i]a[i-1] + b[i], a[i] = f[i](z[i]). 其中,z[i]是n[i]*1,W[i]是n[i]*n[i-1],a[i-1]是n[i-1]*1,b[i]是n[i]*1. 对于向量化后的所有样本,第i层网络 Z[i] = W[i]A[i-1] + b…
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第i层网络 z[i] = W[i]a[i-1] + b[i], a[i] = f[i](z[i]). 其中,z[i]是n[i]*1,W[i]是n[i]*n[i-1],a[i-1]是n[i-1]*1,b[i]是n[i]*1. 对于向量化后的所有样本,第i层网络 Z[i] = W[i]A[i-1] + b…
1. 预测房价.广告点击率:典型的神经网络,standard NN. 图像:卷积神经网络,CNN. 一维序列数据,如音频,翻译:循环神经网络,RNN. 无人驾驶,涉及到图像.雷达等更多的数据类型:混合的神经网络. 2. 结构化数据:数据的数据库,每一种特征都有明确的定义,如预测房价.广告点击率.目前主要的营收来源还是处理结构化数据. 非结构化数据:如音频.图像.文本,特征不明显.人类和你擅长处理非结构化数据. 3. 为什么近期神经网络一下子变这么厉害?一个神经网络牛逼的条件:1)神经网络的规模足…
1.将文本数据预处理为有用的数据表示 将文本分割成单词(token),并将每一个单词转换为一个向量 将文本分割成单字符(token),并将每一个字符转换为一个向量 提取单词或字符的n-gram(token),并将每个n-gram转换为一个向量.n-gram是多个连续单词或字符的集合 将向量与标记相关联的方法有:one-hot编码与标记嵌入(token embedding) 具体见https://www.cnblogs.com/nxf-rabbit75/p/9970320.html 2.使用循环神…