论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning

论文地址：https://arxiv.org/abs/1709.06030

1. 论文思想

利用强化学习，对网络进行裁剪，从Layer Removal和Layer Shrinkage两个维度进行裁剪。一个是对层判断是否进行裁剪，一个是判断一层中的参数的裁剪。

2. 原理图

3. 实现细节

将层信息进行编码表示，然后送入双端的LSTM中，最后通过Softmax学出多个行为的概率。然后来决定层的裁剪信息。

4. 结果

ResNet-34上实现了10倍的压缩。

论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning的更多相关文章

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C（3）
在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们 ...
论文笔记之：Progressive Neural Network Google DeepMind
Progressive Neural Network Google DeepMind 摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic f ...
论文笔记：Attentional Correlation Filter Network for Adaptive Visual Tracking
Attentional Correlation Filter Network for Adaptive Visual Tracking CVPR2017 摘要:本文提出一种新的带有注意机制的跟踪框架, ...
论文笔记：Cross-Domain Visual Matching via Generalized Similarity Measure and Feature Learning
Cross-Domain Visual Matching,即跨域视觉匹配.所谓跨域,指的是数据的分布不一样,简单点说,就是两种数据「看起来」不像.如下图中,(a)一般的正面照片和各种背景角度下拍摄的照 ...
论文笔记：多标签学习综述（A review on multi-label learning algorithms）
2014 TKDE(IEEE Transactions on Knowledge and Data Engineering) 张敏灵,周志华简单介绍传统监督学习主要是单标签学习,而现实生活中目标样 ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
论文笔记之：Active Object Localization with Deep Reinforcement Learning
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算 ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...

随机推荐

Excel 2010 如何快速统计一列中相同数值出现的个数很不错
https://jingyan.baidu.com/article/9113f81b2c16822b3214c785.html 最近经常看到论坛和百度知道的朋友提问关于“excel中如何快速统计一列中 ...
Cookie/Session机制详解 <转>
会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话.常用的会话跟踪技术是Cookie与Session.Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端 ...
有关InitialContext()的困惑 <转>
Context initial = new InitialContext();Object objref = initial.lookup("java:comp/env/ejb/Simple ...
【BZOJ2314】士兵的放置树形DP
[BZOJ2314]士兵的放置 Description 八中有N个房间和N-1双向通道,任意两个房间均可到达.现在出了一件极BT的事,就是八中开始闹鬼了.老大决定加强安保,现在如果在某个房间中放一个士 ...
【Android】保存Bitmap到SD卡
1.打开读写SD卡的权限需要在AndroidManifest.xml加入如下代码: <uses-permission android:name="android.permission ...
gradle多项目构建及依赖
上项目结构图: idea里面一个project其实相当于eclipse的一个workspace,这样一来就很好理解了,我们新建了两个module,相当于eclipse的两个项目工程主要看配置:bui ...
Oracle Database Memory Structures
Oracle Database creates and uses memory structures for various purposes. For example, memory stores ...
Composer 添加 Laravel-china 的国内源
不知道由于什么原因,原来的 Composer 的国内镜像 https://pkg.phpcomposer.com/ 不能正常使用,经常连不上. 找了半天,发现还有一个 laravel-china 的国 ...
Django - rest - framework - 下
一.视图三部曲 https://www.cnblogs.com/wupeiqi/articles/7805382.html 使用混合(mixins) 之前得视图部分 # urls.py from dj ...
SDL结合QWidget的简单使用说明(2)
上篇主要讲了针对yv12流数据的渲染,但有时候我们显示视频还要求加一些信息,比如头像,昵称等等.一般的想法是在渲染窗口之上做一个小控件来负责: 但是很遗憾,你会发现你的控件被SDL的渲染完全遮住了,渲 ...

论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning

1. 论文思想

2. 原理图

3. 实现细节

4. 结果

论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning的更多相关文章

随机推荐

热门专题