【深度学习篇】---CNN和RNN结合与对比，实例讲解

一、前述

CNN和RNN几乎占据着深度学习的半壁江山，所以本文将着重讲解CNN+RNN的各种组合方式，以及CNN和RNN的对比。

二、CNN与RNN对比

1、CNN卷积神经网络与RNN递归神经网络直观图

2、相同点：
    2.1. 传统神经网络的扩展。
    2.2. 前向计算产生结果，反向计算模型更新。
    2.3. 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。

3、不同点
    3.1. CNN空间扩展，神经元与特征卷积；RNN时间扩展，神经元与多个时间输出计算
    3.2. RNN可以用于描述时间上连续状态的输出，有记忆功能，CNN用于静态输出
   3. 3. CNN高级100+深度，RNN深度有限

三、CNN+RNN组合方式

1. CNN 特征提取，用于RNN语句生成图片标注。

2. RNN特征提取用于CNN内容分类视频分类。

3. CNN特征提取用于对话问答图片问答。

四、具体应用

1、图片标注

基本思路
       目标是产生标注的语句，是一个语句生成的任务，LSTM？
       描述的对象大量图像信息，图像信息表达，CNN？
       CNN网络中全连接层特征描述图片，特征与LSTM输入结合。

具体步骤：

1.1 模型设计－特征提取
全连接层特征用来描述原图片
LSTM输入：word＋图片特征；输出下一word。

1.2 模型设计－数据准备

1. 图片CNN特征提取
2. 图片标注生成Word2Vect 向量
3. 生成训练数据：图片特征＋第n单词向量：第n＋1单词向量。

1.3 模型训练：
1. 运用迁移学习，CNN特征，语句特征应用已有模型
2. 最终的输出模型是LSTM，训练过程的参数设定：梯度上限(gradient clipping), 学习率调整(adaptivelearning)
3. 训练时间很长。

1.4 模型运行：

1. CNN特征提取
2. CNN 特征＋语句开头，单词逐个预测

2、视频行为识别：

视频中在发生什么？

2.1常用方法总结：

RNN用于CNN特征融合

1. CNN 特征提取

2. LSTM判断

3. 多次识别结果分析。

不同的特征不同输出。

或者：所有特征作为一个输出。

2.2 RNN用于CNN特征筛选＋融合：

1. 并不是所有的视频图像包含确定分类信息

2. RNN用于确定哪些frame 是有用的

3. 对有用的图像特征融合。

2.3 RNN用于，目标检测：

1. CNN直接产生目标候选区

2. LSTM对产生候选区融合（相邻时刻位置近似）

3. 确定最终的精确位置。

2.4 多种模型综合：

竞赛／应用中，为了产生最好结果，多采用多模型ensemble形式。

3、图片／视频问答

3.1 问题种类

3.2 图片问答意义
1. 是对纯文本语言问答系统的扩展
2. 图片理解和语言处理的深度融合
3. 提高人工智能应用范围－观察，思考，表达

我的博客即将搬运同步至腾讯云+社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=1wzcx9d4ww853

【深度学习篇】---CNN和RNN结合与对比，实例讲解的更多相关文章

[转] 用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
转自知乎上看到的一篇很棒的文章:用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文 ...
深度学习入门: CNN与LSTM(RNN)
1. 理解深度学习与CNN: 台湾李宏毅教授的入门视频<一天搞懂深度学习>:https://www.bilibili.com/video/av16543434/ 其中对CNN算法的矩阵卷积 ...
深度学习之循环神经网络RNN概述，双向LSTM实现字符识别
深度学习之循环神经网络RNN概述,双向LSTM实现字符识别 2. RNN概述 Recurrent Neural Network - 循环神经网络,最早出现在20世纪80年代,主要是用于时序数据的预测和 ...
深度学习之 cnn 进行 CIFAR10 分类
深度学习之 cnn 进行 CIFAR10 分类 import torchvision as tv import torchvision.transforms as transforms from to ...
深度学习篇——Tensorflow配置（傻瓜安装模式）
前言如果你是一个完美主义者,那么请绕过此文,请参考<深度学习篇——Tensorflow配置(完美主义模式)> 安装 pip install tensorflow ok,只要不报错,安装就 ...
【深度学习】CNN 中 1x1 卷积核的作用
[深度学习]CNN 中 1x1 卷积核的作用最近研究 GoogLeNet 和 VGG 神经网络结构的时候,都看见了它们在某些层有采取 1x1 作为卷积核,起初的时候,对这个做法很是迷惑,这是因为之前 ...
用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...
PyTorch中使用深度学习（CNN和LSTM）的自动图像标题
介绍深度学习现在是一个非常猖獗的领域 - 有如此多的应用程序日复一日地出现.深入了解深度学习的最佳方法是亲自动手.尽可能多地参与项目,并尝试自己完成.这将帮助您更深入地掌握主题,并帮助您成为更好的深 ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...

随机推荐

Spring的断言工具类Assert的基本使用
org.springframework.util.Assert; Assert工具类,通常用于数据合法性检查. 平时做判断通常都是这样写: if(message == null || message. ...
纯CSS炫酷的3D旋转
<html><head><meta charset="utf-8"><title>纯CSS炫酷的3D旋转</title> ...
python笔记：#009#判断语句
判断(if)语句目标开发中的应用场景 if 语句体验 if 语句进阶综合应用 01. 开发中的应用场景生活中的判断几乎是无所不在的,我们每天都在做各种各样的选择,如果这样?如果那样?-- 程序 ...
Java数组的复制全解
1.将一个基本数据类型数组的引用赋值给另一个数组 public class Array_copy { int[] array1=new int[]{1,2,3,4,5,6}; int[] array2 ...
lintcode 在O(1)时间复杂度删除链表节点
题目要求给定一个单链表中的一个等待被删除的节点(非表头或表尾).请在在O(1)时间复杂度删除该链表节点. 样例 Linked list is 1->2->3->4, and giv ...
数据准备<3>:数据预处理
数据预处理是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换.衍生.规约等操作的过程.整个数据预处理工作主要包括五个方面内容:简单函数变换.标准化.衍生虚拟变量.离散化.降维.本文将作展开介 ...
连接Access数据遇到的问题总览！
由于要访问一个厂商的access数据,所以要写一个对于access的demo,相对于mysql.sqlserver来说,连接access花费了不少精力,现在将遇到的问题分享出来,以后大家遇到类似问题时 ...
js基础--javaScript数据类型你都弄明白了吗？绝对干货
欢迎访问我的个人博客:http://www.xiaolongwu.cn 数据类型的分类 JavaScript的数据类型分为两大类,基本数据类型和复杂数据类型. 基本数据类型:Null.Undefine ...
Java IO基础总结
Java中使用IO(输入输出)来读取和写入,读写设备上的数据.硬盘文件.内存.键盘......,根据数据的走向可分为输入流和输出流,这个走向是以内存为基准的,即往内存中读数据是输入流,从内存中往外写是 ...
Spring Security 集成 CAS(基于HTTP协议版本)
Spring Security 集成 CAS(基于HTTP协议版本) 近段时间一直研究Spring Security 集成 CAS,网上资料相关资料也很多,不过大都是基于Https的安全认证;使用ht ...

【深度学习篇】---CNN和RNN结合与对比，实例讲解

【深度学习篇】---CNN和RNN结合与对比，实例讲解的更多相关文章

随机推荐

热门专题