一、概述

  这个是最近的核心工作了,基本上都是靠着这篇paper的model过日子了啊..

  论文主要讲的是hand gesture recognition,实际上是用googlenet做的一个classification的工作,他的工作也就是在googlenet上做了fine-tuning,那么论文的关键是什么呢...当然就是标题啦..关键工作是CNN+EM,通过EM算法对隐变量参数进行预测,用CNN代替stepE的高斯模型的预测,这样迭代下来,最终训练了在这个值标记了3000张但是有1 Million的数据集上训练了一个CNN模型。

二、state-of-the-Art

  最牛逼的地方在于解决了对大量continuous且weakly labeled的数据的处理,这个在其他地方也会有很好的应用,所以得了CVPR 2016的oral啊..

  1. 首次在CNN上用weakly labelled data sets 来训练

  2.第一次使用posture and pose-independent hand shape classification,也就是当你的pose(手势)固定以后,把它作为一个符号,即使你旋转或者翻转,只要作为刚体的pose不变,那么就是一类的,这个在手语识别和一些其他地方还是有不错的用处的。

  3.其他都是在自吹自擂..

三、weakly supervised CNN training

  对他的算法进行了说明,对于一个视频序列而言,首先提取手部画面,然后他对每个image有一个标记,其中识别不出来的术语garbage class,然后通过CNN+Em来迭代计算,这里就是之前说的,用CNN来预测类别来代替传统EM中用Guassian mixtures做概率预测,每次迭代的时候,都会有个新的预测,有时候可能会改变之前的label。然后关键也是每个类别之间的boundaries的改变。

    

  然后这里有一句对整体算法最好的一个概括:we solve the problem in an iterative fashion withthe EM algorithm  in a HMM setting and use the CNN for modelling p(k|x).


四、一堆废话以及没搞懂的HMM在其中的应用。

     有时间要去彻底弄懂HMM。

五、整体流程

  1、数据准备

    在数据集上跑我之前的一篇dp跟踪手的程序,得到手部画面的数据集。

  2、建立字典

    个人理解是不同的数据集的表示不同。这里是把他们统一起来,可能有问题。

  3、初始化算法

    随机的对整个视频序列进行label,并且认为每个video的开始和结束时garbage class

  4.隐马尔科夫模型的设置

    这里它是基于一个RASR的开源软件,具体不是很清楚

  5、CNN训练

    CNN训练的一些tricks

六、拓展-手语识别

  这里话是前面工作的衍生了,首先把最后fc变回了1024层,整个CNN作为了一个feature提取的工具,然后通过PCA降维到200,具体的实现方法他也是参考的另一篇paper,以后要是用到这里可以去看一下。

七、总结

  总的来说两点是state of art 的:1、用CNN+EM的方法对大量连续弱标记数据的处理

                 2、在手势识别的时候是pose-independt的。

论文笔记《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》的更多相关文章

  1. 《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

    论文题目:<Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition> 论文作者:Qibin ...

  2. [place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析(转)

    https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...

  3. 论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation

    Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...

  4. 论文笔记——Rethinking the Inception Architecture for Computer Vision

    1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果 用5G的计算量和25M的参数. ...

  5. 论文笔记:Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells

    Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...

  6. 论文笔记:ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware

    ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...

  7. 论文笔记:DARTS: Differentiable Architecture Search

    DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...

  8. 论文笔记:Progressive Neural Architecture Search

    Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...

  9. 论文笔记:Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation

    Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...

  10. 论文笔记系列-DARTS: Differentiable Architecture Search

    Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

  1. c#字符显示转换{0:d} string.Format()

    这一篇实际和前几个月写的没什么本质上的区别.但是这篇更明确一点,学起来easy c#字符显示转换{0:d} C#:String.Format数字格式化输出 : int a = 12345678; // ...

  2. javascript中string对象方法中的slice、substring、substr的区别联系

    1.slice.substring.snustr均属于String的对象方法,用于截取或提取字符串片段,三者均布破坏原先的字符串,而是以新的字符串返回被提取的部分. <script> va ...

  3. python学习之列表和元组

    配置环境:python 3.6 python编辑器:pycharm,代码如下: #!/usr/bin/python # -*- coding: UTF-8 -*- # list:是一种有序的集合,可以 ...

  4. 各种Nand的总结

    1. 微观 NAND闪存NAND是非易失性存储技术,NAND闪存由多个存放以位(bit)为单位的单元构成,这些位通过电荷被打开或关闭,如何组织这些开关单元来储存在SSD上的数据,也决定了NAND闪存的 ...

  5. hdoj 1237 模拟

    计算器 Problem Description 读入一个只包含 +, -, *, / 的非负整数计算表达式,计算该表达式的值.   Input 测试输入包含若干测试用例,每个测试用例占一行,每行不超过 ...

  6. IDA 对 SO 的逆向

    ApkTool对apk进行解包,在解包后的lib目录中找到so文件 so文件大概有以下几种 armeabi: 第5代.第6代的ARM处理器,早期的手机用的比较多. armeabiv-v7a:第7代及以 ...

  7. Androd安全——混淆技术完全解析

    .前言 在上一篇Androd安全--反编译技术完全解析中介绍了反编译方面的知识,因此我们认识到为了安全我们需要对代码进行混淆. 混淆代码并不是让代码无法被反编译,而是将代码中的类.方法.变量等信息进行 ...

  8. Atom使用插件精选(FE)

    [转]原文https://zhuanlan.zhihu.com/p/24753739?refer=AlenQi Atom琳琅满目的插件中,为前端coder推荐一些实用的插件. sync-setting ...

  9. Java学习笔记23---内部类之局部内部类只能访问final的局部变量

    局部内部类是定义在方法体或代码块中的类,在笔记19中已有过简单介绍. 今天要讨论的是局部内部类为什么只能访问为常量的局部变量. 作者: 博客园--蝉蝉 请尊重作者劳动成果,转载请在标题注明“转载”字样 ...

  10. PJSIP-PJMEDIA【使用pjmedia 播放wav格式的音乐】

    应宝哥建议以及更好的交流学习,这篇开始使用中文,英语就先放一放吧! 要使用PJSIP中的PJMEDIA首先我们需要搭建好它所需要的环境. [环境搭建与调试] 1 在 工具 加入pjmedia所需要的包 ...