Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 2018-08-10 10:15:06 Paper (ICML-2015):http://proceedings.mlr.press/v37/xuc15.pdf Theano (Offical Implementation): https://github.com/kelvinxu/arctic-captions TensorFlow: htt…
论文链接:https://arxiv.org/pdf/1502.03044.pdf 代码链接:https://github.com/kelvinxu/arctic-captions & https://github.com/yunjey/show-attend-and-tell & https://github.com/jazzsaxmafia/show_attend_and_tell.tensorflow 主要贡献 在这篇文章中,作者将“注意力机制(Attention Mechanism…
Link of the Paper: https://arxiv.org/pdf/1502.03044.pdf Main Points: Encoder-Decoder Framework: Encoder uses a convolutional neural network to extract a set of feature vectors which the authors refer to as annotation vectors. The extractor produces L…
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention-阅读总结 笔记不能简单的抄写文中的内容,得有自己的思考和理解. 一.基本信息 **\1.标题:**Show, Attend and Tell: Neural Image Caption Generation with Visual Attention **\2.作者:**Kelvin Xu,Jimmy Lei Ba,Ryan Kiros,Kyu…
Show and Tell: A Neural Image Caption Generator-阅读总结 笔记不能简单的抄写文中的内容,得有自己的思考和理解. 一.基本信息 标题 作者 作者单位 发表期刊/会议 发表时间 Show and Tell: A Neural Image Caption Generator Oriol Vinyals vinyals@google.com Alexander Toshevtoshev@google.com Samy Bengio bengio@googl…
Link of the Paper: https://arxiv.org/abs/1411.4555 Main Points: A generative model ( NIC, GoogLeNet + LSTM ) based on a deep recurrent architecture: the model is trained to maximize the likelihoodP(S|I) of the target description sentence given the tr…
论文信息 论文标题:Bilinear Graph Neural Network with Neighbor Interactions论文作者:Hongmin Zhu, Fuli Feng, Xiangnan He, Xiang Wang, Yan Li, Kai Zheng, Yongdong Zhang论文来源:2019, NeurIPS论文地址:download 论文代码:download 1 Introduction GNNs 中的图卷积操作可以认为是对目标节点的邻居特征线性聚合(加权和)…
0. 前面的话 建丁让我写一篇深度学习相关小文章,目标读者是国内的开发者.刚接到这个任务时我是颇为忐忑的,写文章要讲究厚积薄发,如果“水之积也不厚”,“则其负大舟也无力”.因为我自知水平很有限,又不是在学校和科研机构做研究,只不过因为工作和个人的兴趣,对深度学习有一点点粗浅的了解,所以担心写出来的东西不但于人无益,甚至还让人误入歧途.但后来又一想,如果把自己作为一个深度学习的学习者,和对它感兴趣的普通开发者分享一些学习的经历,包括学习过程中遇到的问题,可能也是有一些意义的.毕竟读论文或者听学术大…
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也是将目光按照某种次序(例如,从上倒下,从左到右等等)在图像上进行扫描,然后从一个区域转移到另一个区域.这么一个一个的区域,就是定义的part,或者说是 glimpse.然后将这些区域的信息结合起来用于整体的判断和感受. 站在某个底层的角度,物体的显著性已经将这个物体研究的足够透彻.本文就是从这些东西…
Link of the Paper: https://ieeexplore.ieee.org/document/7298856/ A Correlative Paper: Learning a Recurrent Visual Representation for Image Caption Generation (Link of the Paper: https://arxiv.org/abs/1411.5654) Main Points: A bi-directional mapping m…