lesson7-图像描述 -小象cv

2018-04-25朴素rcnn - 梯度消失严重
LSTM长短时记忆模型，有效捕捉长时记忆
包含四个神经元组：
一个记忆神经元
三个控制门神经元：输入、忘记、输出

注意：输入调制门、输出调制门

3个输入：前一时刻的隐藏状态h、前一时刻的记忆状态c、当前时刻的输入x
2个输出：当前时刻的隐含状态h，当前时刻的记忆状态c
i、f、o、gt对应的都是xt、ht-1的矩阵乘和偏置
以7个时间片为例-黑白：输入们、输出们关闭时不输出当前时刻、忘却门打开时可以向下一个时刻传递

记忆状态cell state：记忆的核心
控制门：配有sigmoid函数的神经元，【0，1】
忘记门：sigmoid激活
tanh激活：压缩记忆状态【-1，1】
记忆状态更新：1)选择性移除前一时刻的旧信息~记忆状态2）选择性添加当前时刻的新信息~调制输入

Lstm的变种：
peephole：窥视，ft和it加入Ct-1
coupled耦合的忘记-输入门：Ct
GRU门限递归单元：新增重置门和更新门，合并输入们和忘记们，合并记忆状态和隐藏状态

lstm&gru：后者更适合小规模数据，参数少、拟合能力相对弱

image captioning图说模型：
模型策略：
传统的分段处理：
1）图片内容-》文本标签-》描述语句
2）将图片和文本映射到同一共享空间下，翻译图片特征-》语言描述 ~黑箱严重
state-of-the-art模型：
dnn框架：cnn~图片理解~vgg、resnet
rnn~语言理解~multimodal-rnn、lstm~一个就够、gru~一个就够
特殊功能模块~attention

show and tell模型：
from google，cnn+lstm

--》

cnn采用inception v3生成图片特征，cnn特征作为第一个词，句子中的词作为后续序列

特征映射矩阵：将文本映射到图片特征空间 ~lstm单元的输入

文本编码是one-hot ~ 45万个次，哪个词对应位置就为 1

beam search：尺寸为1即为贪心算法，show and tell模型中尺寸为3，每一步获取top3概率的词作为备选

注意机制的cnn特征：SAT即show，attention，tell模型

--》

在show and tell的基础上增加第三输入即基于attention的图片特征

vgg最后卷积层输出14*14*512 -》196*512（拉伸排列），512列是特征数量

特征融合：每个权重（由权重推断得到，softmax）w1-w196会和每一个特征相乘，最终得到1*512

代码：

# TFRecord文件中的shards数量 ~一个shard相当于一个数据组切片文件，一个切片对应一个tf文件~train数据拆分成256个tf文件，即256个shard

tf.flags.DEFINE_string("unknown_word", "<UNK>",
"Special word meaning 'unknown'.") ~如低频词就不放入词典，设为UNK

# 图片集Metadata类型定义 .metadata

# 关闭写文件器writer.close()
sys.stdout.flush() ~写到磁盘

caption data是jason文件，解析-》id，filename
一个id即一个图片对应5个caption

metadata数据列表转为tfrecords文件：
将图片复制5个，每个caption一个
16万数据，8个线程，每个线程负责两万数据，traing 256个tfrecords，每个线程需要生成32个，且2万个数据集，生成的文件格式train-0001-of-00256，训练集-第几个-of-共多少
生成tf.train.Features对象：_int64_feature，_bytes_feature分别为整形、字符串编码

tf.contrib.slim函数接口

图片扭曲：扭曲的方式与线程奇数偶数有关，包括扭曲饱和度等

mask记录了那些Input seqs和target seqs用到的位置，这样在后续乘法中浮点数乘法在mask=0 的位置就直接不计算

https://blog.csdn.net/chengshuhao1991/article/details/78656724
https://blog.csdn.net/xierhacker/article/details/72357651
构造每个样本的Example协议块
tf.train.Feature(**options) ，options可以选择如下三种格式数据：
bytes_list = tf.train.BytesList(value = [Bytes])
int64_list = tf.train.Int64List(value = [Value])
float_list = tf.trian.FloatList(value = [Value])

从JSON文件中读取图片的metadata数据：
metadate-描述数据的数据，也叫元数据通常我们身边的所有文件图片、视频、word文档等等等都包含了元数据。

configuration：
    # 每个TFRecord文件的大约数量
    self.values_per_input_shard = 2300
    # Minimum number of shards to keep in the input queue.
    # 输入队列的最少shards数量
    self.input_queue_capacity_factor = 2

math.ceil(x) 函数返回一个大于或等于 x 的的最小整数

perplexity = math.exp(sum_losses / sum_weights)
tf.logging.info("Perplexity = %f (%.2g sec)", perplexity, eval_time)

参考

https://blog.csdn.net/shenxiaolu1984/article/details/51493673

lesson7-图像描述 -小象cv的更多相关文章

lesson4-图像分类-小象cv
CNN网络进化:AlexNet->VGG->GoogleNet->ResNet,深度8->19->22->152GoogleNet:Lsplit->trans ...
lesson8-图像问答-小象cv
QA即图像问答:覆盖最全面的AI,ai完备性动态模型:不同任务需要不同模型 or 不同细分任务需要不同模型参数数据集: 1)VQA,显示图片+抽象场景:每个问题给10个不同答案:含有无图片答案(考 ...
lesson5-图像检测-小象cv
R-CNN: 2014,cnn为Alexnet 训练流程: 1)在imagenet上对cnn模型pre-train 2)使用所有ss生成区域对1)进行fine-tune ~softmax改为21维度 ...
resNet代码-小象/cv
C:\yyy\ml\dengsong\ChinaHadoop\ChinaHadoop_C4-master\ChinaHadoop_C4-master\C4_ResNet_TF http://blog. ...
Android开发学习—— ContentProvider内容提供者
* 应用的数据库是不允许其他应用访问的* 内容提供者的作用就是让别的应用访问到你的数据库.把私有数据暴露给其他应用,通常,是把私有数据库的数据暴露给其他应用. Uri:包含一个具有一定格式的字符串的对 ...
Android基础总结（十）
内容提供者(掌握) 应用的数据库是不允许其他应用访问的内容提供者的作用就是让别的应用访问到你的私有数据自定义内容提供者,继承ContentProvider类,重写增删改查方法,在方法中写增删改查数 ...
openCV C++ 代码笔记
代码片段1 cv_contourMask_step_tmp=cv_contourMask.clone(); cv::Mat maskImage; UIImageToMat(pathimg, maskI ...
Android应用开发基础之九：内容提供者（ContentProvider）
内容提供者应用的数据库是不允许其他应用访问的内容提供者的作用:就是让别的应用访问到你的数据库自定义内容提供者,继承ContentProvider类,重写增删改查方法,在方法中写增删改查数据库的代 ...
android 学习随笔二十一（内容提供者）
一.内容提供者* 应用的数据库是不允许其他应用访问的* 内容提供者的作用就是让别的应用访问到你的私有数据* 自定义内容提供者,继承ContentProvider类,重写增删改查方法,在方法中写增删改查 ...

随机推荐

auxre7使用安装
auxre7安装 1● auxre7下载 2● 安装 D:\soft axureuser 8wFfIX7a8hHq6yAy6T8zCz5R0NBKeVxo9IKu+kgKh79FL6IyP ...
git merge branch
git branch look at your branches git branch newbranch git checkout newbrach do something git check ...
linux 添加php gd扩展（linux添加PHP扩展）
首先最基本的第一:先安装库 yum -y install libjpeglibjpeg-devel libpng libpng-devel freetype freetype-devel 第二:进入 ...
linux：scp从入门到刚入门
[温馨提示] 此文和ssh配合食用更佳. 首先请小伙伴们连上你要传文件的那台机,用ssh可以免密登录. [传送文件] 我们一般发文件的话可以scp来发一发,比如说我现在要向多个扔很多tomcat包,我 ...
每天CSS学习之text-shadow
今天学习的是CSS3的一个属性text-shadow.该属性能映射出文字的阴影. text-shadow一共就四个属性: text-shadow: h-shadow v-shadow [blur] ...
python字符串转换成数字
Action(){ int i; char *s="{str}"; i=atoi(lr_eval_string(s)); lr_output_message("%d&qu ...
特殊权限set_gid
set gid: 权限说明: set gid权限可以作用在文件上(二进制可执行文件),也可以作用在目录上.当作用在文件上时,其功能和set,uid一样,它会使文件在执行阶段具有文件所属组的权限.目录被 ...
oracle 12c 警告日志位置
Oracle 12c环境下查询,alert日志并不在bdump目录下,看到网上和书上都写着可以通过初始化参数background_dump_dest来查看alter日志路径,还说警告日志文件的缺省位置 ...
合并k个有序数组
给定K个有序数组,每个数组有n个元素,想把这些数组合并成一个有序数组可以利用最小堆完成,时间复杂度是O(nklogk),具体过程如下: 创建一个大小为n*k的数组保存最后的结果创建一个大小为k的最小 ...
base64encode 编码原理
Base64编码,是我们程序开发中经常使用到的编码方法.它是一种基于用64个可打印字符来表示二进制数据的表示方法.它通常用作存储.传输一些二进制数据编码方法!也是MIME(多用途互联网邮件扩展,主要用 ...

lesson7-图像描述 -小象cv

lesson7-图像描述 -小象cv的更多相关文章

随机推荐

热门专题