论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

一、概述

　　这个是最近的核心工作了，基本上都是靠着这篇paper的model过日子了啊..

　　论文主要讲的是hand gesture recognition，实际上是用googlenet做的一个classification的工作，他的工作也就是在googlenet上做了fine-tuning，那么论文的关键是什么呢...当然就是标题啦..关键工作是CNN+EM，通过EM算法对隐变量参数进行预测，用CNN代替stepE的高斯模型的预测，这样迭代下来，最终训练了在这个值标记了3000张但是有1 Million的数据集上训练了一个CNN模型。

二、state-of-the-Art

　　最牛逼的地方在于解决了对大量continuous且weakly labeled的数据的处理，这个在其他地方也会有很好的应用，所以得了CVPR 2016的oral啊..

　　1. 首次在CNN上用weakly labelled data sets 来训练

　　2.第一次使用posture and pose-independent hand shape classification，也就是当你的pose(手势)固定以后，把它作为一个符号，即使你旋转或者翻转，只要作为刚体的pose不变，那么就是一类的，这个在手语识别和一些其他地方还是有不错的用处的。

　　3.其他都是在自吹自擂..

三、weakly supervised CNN training

　　对他的算法进行了说明，对于一个视频序列而言，首先提取手部画面，然后他对每个image有一个标记，其中识别不出来的术语garbage class，然后通过CNN+Em来迭代计算，这里就是之前说的，用CNN来预测类别来代替传统EM中用Guassian mixtures做概率预测，每次迭代的时候，都会有个新的预测，有时候可能会改变之前的label。然后关键也是每个类别之间的boundaries的改变。

　　然后这里有一句对整体算法最好的一个概括:we solve the problem in an iterative fashion withthe EM algorithm in a HMM setting and use the CNN for modelling p(k|x).

四、一堆废话以及没搞懂的HMM在其中的应用。

　　　　有时间要去彻底弄懂HMM。

五、整体流程

　　1、数据准备

　　　　在数据集上跑我之前的一篇dp跟踪手的程序，得到手部画面的数据集。

　　2、建立字典

　　　　个人理解是不同的数据集的表示不同。这里是把他们统一起来，可能有问题。

　　3、初始化算法

　　　　随机的对整个视频序列进行label，并且认为每个video的开始和结束时garbage class

　　4.隐马尔科夫模型的设置

　　　　这里它是基于一个RASR的开源软件，具体不是很清楚

　　5、CNN训练

　　　　CNN训练的一些tricks

六、拓展-手语识别

　　这里话是前面工作的衍生了，首先把最后fc变回了1024层，整个CNN作为了一个feature提取的工具，然后通过PCA降维到200，具体的实现方法他也是参考的另一篇paper，以后要是用到这里可以去看一下。

七、总结

　　总的来说两点是state of art 的：1、用CNN+EM的方法对大量连续弱标记数据的处理

　　　　　　　　　　　　　　　　　2、在手势识别的时候是pose-independt的。

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记
论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin ...
[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析（转）
https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
论文笔记——Rethinking the Inception Architecture for Computer Vision
1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果用5G的计算量和25M的参数. ...
论文笔记：Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...
论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware
ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...
论文笔记：DARTS: Differentiable Architecture Search
DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...
论文笔记：Progressive Neural Architecture Search
Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...
论文笔记：Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...
论文笔记系列-DARTS: Differentiable Architecture Search
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

Java数据处理
对于形如“(TYPE=SITA##)&&(((CTYP=FPL##)||(CTYP=CHG##)||(CTYP=CNL##)||(CTYP=DLA##)||(CTYP=DL##)||( ...
OracleWeblogic12C安装教程
一,安装WebLogic Server 1. 双击exe安装文件 2.准备安装文件 3. 生成向导序列 4. 选择安装路径 5. 开始安装经过以上步骤,weblogic已经成功安装到了你的电脑上,但 ...
柱状图多系列php动态实现（ec）
<?php require_once 'data.php'; $arr1=$a->sum('answer','ask_id=1'); $arr2=$a->sum('answer',' ...
Git的基本命令介绍
Git的安装进入官网下载系统所需要的版本官网地址:https://git-scm.com/downloads 点击下载按钮官方网站一般会根据操作系统的自动下载所需要的Git版本. 下载完成后,点 ...
Highest Tower 18中南多校第一场H题
一.题意给出N个方块,要求给出一个方案,使得1. 所有方块都被使用到(题目数据保证这点) 2.所有方块垒成一个塔,且上面的方块宽度小于下面的方块 3.每个方块只能用一次,可以横着或者竖着. n范围5 ...
安装python 第三方库遇到的安装问题 microsoft visual studio c++ 10.0 is required，Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
问题一: microsoft visual studio c++ 10.0 is required 安装scrapy时候出现需要vc c++ 10,有时安装其他也会有. 解决方法:安装vc 2010, ...
Android面试收集录4 Fragment详解
1.什么是Fragment? 你可以简单的理解为,Fragment是显示在Activity中的Activity. 它可以显示在Activity中,然后它也可以显示出一些内容. 因为它拥有自己的生命周期 ...
2，MongoDB之增删改查及pymongo的使用
本章我们来学习一下关于 MongoDB的增删改查一.MongoDB操作之原生ORM,根本不存在SQL语句创建数据库:这里和一般的关系型数据库一样,都要先建立一个自己的数据库空间是的,Mong ...
Java架构师必会的技能
Java架构师必会的技能我把它分为了五大专题工程化专题工程化专题 git git安装使用 git日常使用:fetch/pull/push/revert/rebase git分支管理git flo ...
编译gearman提示缺少boost
编译german时提示缺少boost: checking for boostlib >= 1.39... configure: We could not detect the boost lib ...

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

随机推荐

热门专题