论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

一、概述

　　这个是最近的核心工作了，基本上都是靠着这篇paper的model过日子了啊..

　　论文主要讲的是hand gesture recognition，实际上是用googlenet做的一个classification的工作，他的工作也就是在googlenet上做了fine-tuning，那么论文的关键是什么呢...当然就是标题啦..关键工作是CNN+EM，通过EM算法对隐变量参数进行预测，用CNN代替stepE的高斯模型的预测，这样迭代下来，最终训练了在这个值标记了3000张但是有1 Million的数据集上训练了一个CNN模型。

二、state-of-the-Art

　　最牛逼的地方在于解决了对大量continuous且weakly labeled的数据的处理，这个在其他地方也会有很好的应用，所以得了CVPR 2016的oral啊..

　　1. 首次在CNN上用weakly labelled data sets 来训练

　　2.第一次使用posture and pose-independent hand shape classification，也就是当你的pose(手势)固定以后，把它作为一个符号，即使你旋转或者翻转，只要作为刚体的pose不变，那么就是一类的，这个在手语识别和一些其他地方还是有不错的用处的。

　　3.其他都是在自吹自擂..

三、weakly supervised CNN training

　　对他的算法进行了说明，对于一个视频序列而言，首先提取手部画面，然后他对每个image有一个标记，其中识别不出来的术语garbage class，然后通过CNN+Em来迭代计算，这里就是之前说的，用CNN来预测类别来代替传统EM中用Guassian mixtures做概率预测，每次迭代的时候，都会有个新的预测，有时候可能会改变之前的label。然后关键也是每个类别之间的boundaries的改变。

　　然后这里有一句对整体算法最好的一个概括:we solve the problem in an iterative fashion withthe EM algorithm in a HMM setting and use the CNN for modelling p(k|x).

四、一堆废话以及没搞懂的HMM在其中的应用。

　　　　有时间要去彻底弄懂HMM。

五、整体流程

　　1、数据准备

　　　　在数据集上跑我之前的一篇dp跟踪手的程序，得到手部画面的数据集。

　　2、建立字典

　　　　个人理解是不同的数据集的表示不同。这里是把他们统一起来，可能有问题。

　　3、初始化算法

　　　　随机的对整个视频序列进行label，并且认为每个video的开始和结束时garbage class

　　4.隐马尔科夫模型的设置

　　　　这里它是基于一个RASR的开源软件，具体不是很清楚

　　5、CNN训练

　　　　CNN训练的一些tricks

六、拓展-手语识别

　　这里话是前面工作的衍生了，首先把最后fc变回了1024层，整个CNN作为了一个feature提取的工具，然后通过PCA降维到200，具体的实现方法他也是参考的另一篇paper，以后要是用到这里可以去看一下。

七、总结

　　总的来说两点是state of art 的：1、用CNN+EM的方法对大量连续弱标记数据的处理

　　　　　　　　　　　　　　　　　2、在手势识别的时候是pose-independt的。

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记
论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin ...
[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析（转）
https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
论文笔记——Rethinking the Inception Architecture for Computer Vision
1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果用5G的计算量和25M的参数. ...
论文笔记：Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...
论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware
ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...
论文笔记：DARTS: Differentiable Architecture Search
DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...
论文笔记：Progressive Neural Architecture Search
Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...
论文笔记：Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...
论文笔记系列-DARTS: Differentiable Architecture Search
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

python简介,数据类型,input,if语句
1. python的起源 python的创始人为吉多·范罗苏姆(龟叔Guido van Rossum),1989年的圣诞节期间,龟叔为了在阿姆斯特丹打发时间决心开发一个新的脚本程序解释器,作为A ...
MySQL数据库 : 自关联,视图,事物,索引
自关联查询(自身id关联自身id(主键),查询的时候可以逻辑分为两个表,然后分别起一个别名来区分) select * from areas as cityinner join areas as pro ...
php-5.6.26源代码 - opcode处理器，“函数调用opcode”处理器，如何调用扩展模块的函数
// opcode处理器 --- ZEND_DO_FCALL_SPEC_CONST_HANDLER实现在 php-5.6.26\Zend\zend_vm_execute.h static int ZE ...
Mysql：case when then end 的用法
0.创建一张数据表表名为 test_when_case CREATE TABLE `test_when_case` ( `id` int(11) unsigned NOT NULL AUTO_INC ...
编辑工具_vi
vi/vim平时经常会用到,但是一直没有时间系统的整理下,今天看到了一篇不错的介绍文章.引用下,就当做笔记了,但是不晓得该怎么填引用路径,如有侵权请告知,补上引用路径 01. vi 简介 1.1 学习 ...
IDA 对 so 的动态调试
将IDAPro根目录下dbgsrv 目录下的android_server(模拟器用android_x86_server,这里还是用真机好点)文件push 到安卓设备(比如/data/local/tmp ...
sparkStreaming统计各平台最近一分钟实时注册收入时间段，平台，金额，订单数
样例数据: __clientip=10.10.9.153&paymentstatus=0&__opip=&memberid=89385239&iamount=1& ...
TP-常见错误1
1.无法加载模块 FILE: D:\wamp64\www\www.test_shop.com\ThinkPHP\Library\Think\Dispatcher.class.php LINE: 178 ...
01，jupyter环境安装
jupyter notebook环境安装一.什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序.其可被应用于全过程计算:开发.文 ...
convlstm学习资料
https://guanfuchen.github.io/post/markdown_blog_ws/markdown_blog_2017_11/convolutional_lstm_network_ ...

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

随机推荐

热门专题