2015 经典的ImageCaptioning论文

suwenyuan 2024-09-02 06:53:49 原文

1.Show and Tell: A Neural Image Caption Generator

Google团队的成果

整体处理流程：

1)通过CNN提取到图片的特征，简称feature。

2)而后将feature输入到LSTM中，生成第一个词S0

3)而后每个词Si的生成只需要上一个生成的词Si-1的对应的embedding，直到生成最后一个特殊符号

框架：

生成词的方法

Sampling：softmax取最大值

BeamSearch：每次生成一个单词，保存到目前为止生成的概率最大的K个句子。

实验

作者做了实验在每个时刻生成单词时均喂入image，但是效果较差，是因为网络会利用图片中的噪声，而且很容易过拟合

2.Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

Bengio团队的成果

整体处理流程：

1)通过CNN提取的特征，得到a={a1,a2.....an},a1表示不同位置的特征，a1一个D维的特征，D可以理解为channel的个数

2)而后把a和h(t-1)合并，做一个权重化处理，得到z，

3)把z作为lstm的输入，这样在每个词生成的时候，可以关注图像的不同地方。

解码器框架：

编码器框架和show and tell的框架一样。

两种attention方法

1.Deterministic “Soft” Attention
对CNN生成的整个feature做权重化处理，就是对每个位置ai，softmax(exp(ai)),因此是可以直接求导的，故而这种方法利用的较多。

2.Stochastic “Hard” Attention
随机选择CNN生成的feature的一部分处理，反向传播时需要采用蒙特卡洛方法计算。

2015 经典的ImageCaptioning论文的更多相关文章

2018 经典的CVPR 关于ImageCaptioning论文
1. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text(2018 CVPR) 主要研 ...
2017 经典的CVPR 关于ImageCaptioning论文
1. SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning ...
2019 CVPR 基于GAN的ImageCaptioning论文
1.MSCap: Multi-Style Image Captioning with Unpaired Stylized Text 生成多种风格的caption 当前的image captioning ...
机器学习&深度学习经典资料汇总,data.gov.uk大量公开数据
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...
(zhuan) 126 篇殿堂级深度学习论文分类整理从入门到应用
126 篇殿堂级深度学习论文分类整理从入门到应用 | 干货雷锋网作者: 三川 2017-03-02 18:40:00 查看源网址阅读数:66 如果你有非常大的决心从事深度学习,又不想在这一行打 ...
[转载]机器学习&深度学习经典资料汇总，全到让人震惊
自学成才秘籍!机器学习&深度学习经典资料汇总转自:中国大数据: http://www.thebigdata.cn/JiShuBoKe/13299.html [日期:2015-01-27] 来 ...
五大经典卷积神经网络介绍：LeNet / AlexNet / GoogLeNet / VGGNet/ ResNet
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! LeNet / AlexNet / GoogLeNet / VGG ...
PayPal高级工程总监：读完这100篇论文就能成大数据高手（附论文下载）
100 open source Big Data architecture papers for data professionals. 读完这100篇论文就能成大数据高手作者白宁超 2016年 ...
【转】自学成才秘籍！机器学习&深度学习经典资料汇总
小编都深深的震惊了,到底是谁那么好整理了那么多干货性的书籍.小编对此人表示崇高的敬意,小编不是文章的生产者,只是文章的搬运工. <Brief History of Machine Learn ...

随机推荐

VS2008 激活
序列号:PYHYP-WXB3B-B2CCM-V9DX9-VDY8T 如果没有序列号输入框需要使用crackvs2008forwindows7工具进行修复
剑指offer笔记面试题8----二叉树的下一个节点
题目:给定一棵二叉树和其中的一个节点,如何找出中序遍历序列的下一个节点?树中的节点除了有两个分别指向左.右子节点的指针,还有一个指向父节点的指针. 测试用例: 普通二叉树(完全二叉树,不完全二叉树). ...
C#实现将图片设置成圆形形式显示
首先在Form中添加一个控件,然后将控件的背景BackColor设置成透明 . 然后分别设置控件的Image: Image image = Image.FromFile(UserLoginInfor. ...
ES6-Proxy，代理
proxy 代理 Es6 增强对象和函数(方法) Proxy用于修改某些操作的默认行为,即对编程语言层面进行修改,属于“元编程”, Proxy意思为“代理”,即在访问对象之前建立一道“拦截”,任 ...
通过pipeline实现jenkins的ci/cd功能
pipeline是基于groove进行实现的,不过从jenkins官方的说明中,pipeline分为脚本式和声明式,参见链接.经过对两种的比较,个人比较偏向脚本式的方法.也就是 Jenkinsfile ...
文本切换器（TextSwitcher）的功能与用法
TextSwitcher继承了ViewSwitcher,因此它具有与ViewSwitcher相同的特征:可以在切换View组件时使用动画效果.与ImageSwitcher相似的是,使用TextSwit ...
linux离线安装mysql5.7
下载安装包下载地址:https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.27-1.el7.x86_64.rpm-bundle.tar 上传到 / ...
log file switch (checkpoint incomplete) - 容易被误诊的event
本文转自 https://blogs.oracle.com/database4cn/log-file-switch-checkpoint-incomplete-%e5%ae%b9%e6%98%93%e ...
MVC(实战二：网址映射)
一.默认网址 Global.asax 默认网址配置: 此时打开编辑页面,效果如下: ?后面包含name参数和Email参数在Global中修改网址路由: public static void Re ...
【Postman】举例实战——天气查询
准备工作: 1.下载postman(搜索官网下载即可) 2.接口文档(以聚合上去免费API:天气查询接口) 打开postman: 1.输入url 2.请求方式 3.请求参数 4.在postman中运行 ...