源地址 arXiv:1712.07465: Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition 简介 识别图像中的多个标签是计算机视觉中的一项基本但具有挑战性的任务.针对现有方法计算成本高.不能有效利用空间上下文的问题,论文提出了循环迭代的结合注意力机制的强化学习框架,并进行了对应的熔断测试. 框架结构 输入部分 将图片放缩至W*H的大小,送入FCN(VGG16 ConvNet)产生特征图\…
原文: A Discriminative Feature Learning Approach for Deep Face Recognition 用于人脸识别的center loss. 1)同时学习每个类的深度特征的中心点 2)对深度特征和其对应的类中心的距离有一定的惩罚 提出的center loss函数在CNN中可以训练并且很容易优化. 联合softmax loss和center loss,可以同时增加类间分散程度(inter-class dispension)与类内紧凑程度(intra-cl…
文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://github.com/YingZhangDUT/Deep-Mutual-Learning…
4 Dynamic Graph Representation Learning Via Self-Attention Networks link:https://arxiv.org/abs/1812.09430 Abstract 提出了在动态图上使用自注意力 Conclusion 本文提出了使用自注意力的网络结构用于在动态图学习节点表示.具体地说,DySAT使用(1)结构邻居和(2)历史节点表示上的自我注意来计算动态节点表示,虽然实验是在没有节点特征的图上进行的,但DySAT可以很容易地推广到特…
作者:Yong Wang, Zhihua Jin, Qianwen Wang, Weiwei Cui, Tengfei Ma and Huamin Qu 本文发表于VIS2019, 来自于香港科技大学的可视化小组(屈华民教授领导)的研究 1. 简介 图数据广泛用于各个领域,例如生物信息学,金融和社交网络分析.在过去的五十年中,已经提出了许多图布局算法,来满足所需的视觉要求,例如更少的边缘交叉,更少的节点遮挡以及更好的聚团保护.传统的图布局算法大致可以分为两个方向:基于弹簧,能量模型和基于降维模型…
关于论文的阅读笔记 论文的题目是“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”,翻译成中文为 基于注意力的视听融合技术实现鲁棒自动语音识别 (这是用谷歌翻译的.....)   摘要 文章介绍提出了一种音-视融合方案,这种方案超越了简单的特征融合,可以实现两种模式的自动对齐,进而实现了不论在嘈杂还是安静环境下识别精度的提高.文章在TCD-TIMIT和LRS2数据集上进行了测试,其中这两个数据…
想着CSDN还是不适合做论文类的笔记,那里就当做技术/系统笔记区,博客园就专心搞看论文的笔记和一些想法好了,[]以后中框号中间的都算作是自己的内心OS 有时候可能是问题,有时候可能是自问自答,毕竟是笔记嘛 心路历程记录:然后可能有很多时候都是中英文夹杂,是因为我觉得有些方法并没有很好地中文翻译的意思(比如configuration space),再加上英文能更好的搜索.希望大家能接受这种夹杂写法,或者接受不了的话直接关掉这个看原文 前言:这是一篇02年的关于Motion Planning - P…
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…
目录 摘要部分: I. Introduction II. Related Work III. Method **IMPORTANT PART A. RL agent training [第一步] B. PRM construction C. PRM-RL Querying IV. Results A. Indoor Navigation 1) Roadmap construction evaluation 2) Expected trajectory characteristics 3) Act…
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop  Paper : https://arxiv.org/pdf/1611.03718v1.pdf Project Page : https://github.com/imatge-upc/detection-2016-nipsws  摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Object  De…
摘要 神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RNN,以使得生成得到的模型在验证集上取得最大的准确率. 在 CIFAR-10数据集上,基于本文提出的方法生成的模型在测试集上得到结果优于目前人类设计的所有模型.测试集误差率为3.65%,比之前使用相似结构的最先进的模型结构还有低0.09%,速度快1.05倍. 在 Penn Treebank数据集上,根据本文算法得到的模型能够生成一个新…
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介 该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke…
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd  论文:   temporal credit assignment in reinforcement learning http://incompleteideas.net/publications.html#PhDthesis 最近在做强化学习方面的课题, 发现在强化学习方面被称作强化学习之父的  Sutton  确实很厉害, TD算法和策略梯度策略算法都是他所提出…
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53  这篇文章的 Motivation 来自于 MDNet: 本文所提出的 framework 为:…
(缺少一些公式的图或者效果图,评论区有惊喜) (个人学习这篇论文时进行的翻译[谷歌翻译,你懂的],如有侵权等,请告知) StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning 摘要 近年来,实时策略游戏一直是游戏人工智能的重要领域.本文提出了一个强化学习和课程转换学习方法来控制星际争霸微操作中的多个单位.我们定义了一个有效的状态表示,它可以打破游戏环境中大型状态空间造成的复杂性.…
 论文阅读:Face Recognition: From Traditional to Deep Learning Methods  <人脸识别综述:从传统方法到深度学习>     一.引言     1.探索人脸关于姿势.年龄.遮挡.光照.表情的不变性,通过特征工程人工构造feature,结合PCA.LDA.支持向量机等机器学习算法.     2.流程 人脸检测,返回人脸的bounding box 人脸对齐,用2d或3d的参考点,去对标人脸 人脸表达,embed 人脸匹配,匹配分数 二.人脸识…
论文阅读([CVPR2018]Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision) 本文针对低层视觉问题,提出了一般性的用于解决低层视觉问题的对偶卷积神经网络.作者认为,低层视觉问题,如常见的有超分辨率重建.保边滤波.图像去雾和图像去雨等,这些问题经常涉及到估计目标信号的两个成分:结构和细节.因此,文章提出DualCNN,它包含两个平行的分支来分别恢复结构和细节信息. 具体内容参见https…
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 解决异构网络上的节点嵌入问题. 论文中指出了异构网络嵌入的两个关键问题: 在异构网络中,如何定义和建模节点邻域的概念? 如何优化嵌入模型,使得其能够有效的保留多种类型的节点和边的结构和语义信息. (2) 主要贡献 Contribution 1: 定义了异构网络表示学…
[论文阅读笔记] node2vec:Scalable Feature Learning for Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 由于DeepWalk的随机游走是完全无指导的随机采样,即随机游走不可控.本文从该问题出发,设计了一种有偏向的随机游走策略,使得随机游走可以在DFS和BFS两种极端搜索方式中取得平衡. (2) 主要贡献 Contribution: 本篇论文主要的创新点在于改进了随机游走的策略,定义了两个参数p和q,使得随机游走在BFS…
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的异构网络(HIN)嵌入方法本质上可以归结为两个步骤(1)正样本生成和负样本生成(2)在这些样本上训练模型优化目标函数以得到更合适的节点嵌入.目前主流的异构网络嵌入方法存在以下几个问题: Problem 1: 首先,这些算法一般从原始网络中随机选择节点与中心节点组合生成正样本或者负样本,即,…
[论文阅读笔记] Adversarial Mutual Information Learning for Network Embedding 本文结构 解决问题 主要贡献 算法原理 实验结果 参考文献 (1) 解决问题 现有的基于GAN的方法大多都是先假设服从一个高斯分布,然后再来学习节点嵌入(匹配节点嵌入向量服从这个假设的先验分布). 这可能存在两个问题: 一个问题是(由于真实数据是有很多噪声的,所以会为GAN模型学习的分布带来很多噪声)很难从节点向量表示中区分出噪声节点,因为所有节点都是服从…
<Learning to warm up cold Item Embeddings for Cold-start Recommendation with Meta Scaling and Shifting Networks>论文阅读 (i)问题背景: 工业界的推荐系统/广告系统现在都会用embedding技术生成物品/用户的向量.通俗点讲就是build一个向量嵌入层,把带有原始特征的输入向量转换成一个低维度的dense向量表示.推荐系统的模型一般有向量嵌入层和深度模型层两部分组成,向量嵌入层的…
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function. 这个设计的主要特色在于 generalize learning across actions w…
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很多共同的 idea:一个 online 的 agent 碰到的观察到的数据序列是非静态的,然后就是,online的 RL 更新是强烈相关的.通过将 agent 的数据存储在一个 experience replay 单元中,数据可以从不同的时间步骤上,批处理或者随机采样.这种方法可以降低 non-st…
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimation…
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方法,利用强化学习的方法,直接从高维的感知输入中学习控制策略.模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function.将此方法应用到 Atari 2600 games 上来,进行测试,发现在所有游戏中都比之前的方法有效,甚至在…
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算是火了一把,在Google Deep Mind的主页上,更是许多关于此的paper,基本都发在ICML,AAAI,IJCAI等各种人工智能,机器学习的牛会顶刊,甚至是Nature,可以参考其官方publication page: https://www.deepmind.com/publicatio…
Towards end-to-end reinforcement learning of dialogue agents for information access KB-InfoBot 与知识库交互的多轮对话模型,放弃符号式的查询语句,转而在知识库上使用soft后验分布来寻找概率最大的信息. 知识库 知识库的数据是常见的(实体关系 head, relation,tail)三元组,本文将其做了一步转化,将三元组数据库转化成表格形式:行为实体(head)的属性(tail),列为关系(relati…
Deep Attentive Tracking via Reciprocative Learning 2018-11-14 13:30:36 Paper: https://arxiv.org/abs/1810.03851 Project page: https://ybsong00.github.io/nips18_tracking/index Code: https://github.com/shipubupt/NIPS2018 是的,我跟好多人一样,被标题中的 “Reciprocative…