lesson8-图像问答-小象cv

QA即图像问答：覆盖最全面的AI,ai完备性

动态模型：不同任务需要不同模型 or 不同细分任务需要不同模型参数

数据集：

1）VQA，显示图片+抽象场景；每个问题给10个不同答案；含有无图片答案（考察图片和问题的客观性）

为了降低语言偏置、不均衡（language priors）-》一个问题对应2个图片，予以场景相似但是答案不同 ~ 即有时候由于主观想法，对一场景的想法可能大多数都是yes，所以给出对立的图片可以降低偏置问题，只有一个人两个图片都能回答对才算正确，而不是蒙对的

2）Visual7W

图像问答模型：

基本模型结构--》

cnn提取图片特征~vgg倒数第二个全连接层4096输出

rnn提取问题特征~lstm最后一个时刻的隐含状态和记忆状态（一般的是只含记忆状态的）

文本特征embedding~onet-hot编码是高度稀疏的 ~矩阵乘映射，共享特征空间-》变为稠密的；全连接层降维

特征映射：2个1024维的全连接层

特征融合：点乘 2*1024-》1024，图片信息和文本信息融合

特征推理：1个全连接层，1个softmax层 ~1024-》1000，因为答案集是1000，比如频率低于多少的会被滤掉 ~拖尾效应都扔掉

QA的attention机制类似image caption即图像理解：

图像特征~vgg，问题特征~lstm

堆栈注意网络stacked attention network：查询语义相关区域，滤除噪声区域，多步推理，精华查询 ~ cnn/lstm提出问题特征之后，在“图像不同位置的特征中找相似，并赋予权重，拿到权重相加后的综合特征，并送到下一时刻得到增强特征，再送到下一网络做推断

模型增强之注意机制的基本模型结构--》

图片模型结构~vgg，输入488*488，输出最后一个池化层，14*14，特征维数512

图片特征embedding模块~单层神经网络，将图片特征映射到共享特征空间

问题模型结构~lstm，不同单词对应不同时刻，输出最后时刻的隐含状态

文本特征embedding模块，将one-hot编码映射到共享特征空间

堆栈注意网络~不断增强和答案相关区域的特征权重；部分二图片区域特征权重相加后得到”场景特征“；场景特征和问题特征相加后，得到增强特征；一般两步推断性能最好即first/second attention layer，如first关注谁带了帽子，second关注到带的什么帽子

模型增强之外部知识库knowledge base：

MCG算法拿到image的proposals，每个proposal区域拿到标签和属性概率-》max pooling->属性特征

属性特征-》lstm-》5个caption句子

属性特征+内部特征+知识特征，串接合并

官方实验：

vgg+lstm ：是选择的baseline

lesson8-图像问答-小象cv的更多相关文章

OpenCV探索之路（二十五）：制作简易的图像标注小工具
搞图像深度学习的童鞋一定碰过图像数据标注的东西,当我们训练网络时需要训练集数据,但在网上又没有找到自己想要的数据集,这时候就考虑自己制作自己的数据集了,这时就需要对图像进行标注.图像标注是件很枯燥又很 ...
第八讲_图像问答Image Question Answering
第八讲_图像问答Image Question Answering 课程结构图像问答的描述具备一系列AI能力:细分识别,物体检测,动作识别,常识推理,知识库推理..... 先要根据问题,判断什么任务 ...
发现PDF Transformer+转换的图像字体小了如何处理
ABBYY PDF Transformer+转换的原始图像字体太小怎么办?为了获得最佳文本识别效果,请用较高的分辨率扫描用极小字体打印的文档,否则很容易在转换识别时出错.下面小编就给大家讲讲该怎么解决 ...
React问答小demo
在学习react初期,看了一些视频和资料,react基础知识差不多学完,跟着网上的一个教程,做了一个小型的问答demo. 需求看图说: 1.点击"添加"按钮,显示问题输入表单,再次 ...
lesson4-图像分类-小象cv
CNN网络进化:AlexNet->VGG->GoogleNet->ResNet,深度8->19->22->152GoogleNet:Lsplit->trans ...
Android 不规则图像填充小玩着色游戏
转载请标明出处: http://blog.csdn.net/lmj623565791/article/details/45788433: 本文出自:[张鸿洋的博客] 一.概述近期群里偶然看到一哥们在 ...
Python全栈问答小技巧_2
Python全栈测试题(二) 作者:尹正杰声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1. 计算 ...
在windows中使用labelimg工具搭建图像标注小环境
文章分成两个部分,第一部分,labelimg工具的安装:第二部分,labelimg工具的使用方法. 第一部分:工具安装方法一:直接使用网上编译好的Labelimg可执行文件(12.6M),双击执行即 ...
Python全栈问答小技巧_1
Python全栈测试题作者:尹正杰声明:答案如有偏差,欢迎指正!欢迎加入高级运维工程师之路:598432640 本文答题用的Python版本是:Python 3.5.2,请知晓! 1.执行 Pyt ...

随机推荐

svn分支使用 SVN trunk(主线) branch(分支) tag(标记) 用法详解和详细操作步骤
比较好的介绍了分支的创建和使用. 转:http://blog.csdn.net/vbirdbest/article/details/51122637
npm run dev 报错版本太低
解决方案是: 先用命令: npm -v 查看下你的版本(我原来是 V3.1 不行) 然后用 cnpm install -g npm 更新版本 npm - v 变成最新的4.0.4 npm run d ...
web.xml之env-entry
1.目的定义一个jndi变量 2.schemas定义 2.web.xml中定义变量 <web-app> ... <env-entry> <env-entry-name& ...
vue cli搭建的vue项目不小心开了eslint 一直报黄色的警告
报错必须处理,警告也忍不了,发现在bulid -webpack.base.config.js 里找到 const createLintingRule = () => ({ /*test: /\. ...
LY.JAVA面向对象编程.包的概述、导包
2018-07-18 08:46:57 导包:
Daily record-August
August11. A guide dog can guide a blind person. 导盲犬能给盲人引路.2. A guide dog is a dog especially trained ...
learning ddr seft-refresh mode summary
unity鼠标滚轮控制摄像机视野的缩放和按住鼠标控制摄像机移动
//摄像机前进后退的速率 private float view_value=20f; private float maximum = 100; private float minmum = 30; / ...
day22 模块_1
核能来袭--模块 1.简单了解模块 2.Collections 3.Time模块 4.functools 一.初识模块其实之前写的每一个PY文件都是一个模块还有一些我们一直在使用的模块 buil ...
byte[]->new String(byte[]) -> getByte()引发的不一致问题
今天接短信接口,短信接口提供了sdk,我们可以直接用sdk发送请求然后发送对应短信. 但是想使用我们平台自定义的httpUtil实现. 然而忙了1天半,才解决这个问题,还是我同事帮忙找出问题并解决的. ...

lesson8-图像问答-小象cv

lesson8-图像问答-小象cv的更多相关文章

随机推荐

热门专题