Valse2019笔记——弱监督视觉理解

程明明（南开大学）：面向开放环境的自适应视觉感知

（图片来自valse2019程明明老师ppt）

面向识别与理解的神经网络共性技术
- 深度神经网络通用架构 —— VggNet（ICLR’15）、ResNet（CVPR‘16）、DenseNet（CVPR’17）、DLA（CVPR‘18）、Res2Net（）富尺度空间的深度神经网络通用架构
- 富尺度空间的深度神经网络通用架构
  
  网络结构：
  
  应用：检测任务、分类任务、分割任务
通用视觉基元属性感知
- 显著性物体检测技术
  
  A Simple Pooling-Based Design for Real-Time Salient Object Detection；
  
  Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection（RGBD显著性物体检测）难点：深度图质量、多模态融合机制，利用对比度先验；
  
  S4Net: Single Stage Salient-Instance Segmentation（显著性Instance检测）。
- 边缘检测技术
  
  Richer Convolutional Features for Edge Detection
关键机器学习算法到多种行业应用
- 面向行业开放应用场景，而非传统实验环境下的高可靠、高通用性基础算法。
- 相关论文
  
  Self-Erasing Network for Integral Object Attention](http://mmcheng.net/SeeNet)（视觉注意机制与弱监督语义分割）；
  
  Deeply supervised salient object detection with short connections（基元属性和互联网大数据的自主学习）；
  
  Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation（面向普适应用的关键机器学习方法）；
  
  Sketch2Photo: Internet Image Montage（利用互联网大数据的自主学习）
总结
- 通过引入层内分层递进残差链接，实现富尺度空间的深度神经网络通用架构，并通过多任务协同求解提高鲁棒性;
- 通过预先构建显著性物体检测、边缘提取等任务类别无关的基元属性感知能力，减少具体任务中的数据依赖，实现“举一反三”；
- 利用互联网海量多媒体数据，减少对人工标注数据的依赖，自主地学习目标类别的识别与检测模型，实现系统智能的自主发育。

叶齐祥（中国科学院大学）：从弱监督到自学习视觉目标建模 —— weakly supervised object detection, localization, and instance segmentation

引子
- 存在问题：
  
  有监督的目标检测和实例分割的主要流程
  
  （图片来自valse2019叶齐祥老师ppt）
  
  从上图看出，数据集的制作需要对大量数据从不同方面进行标注。
- 解决方法
  
  如何实现 “ 图像数据库 → 训练数据集 ”？
  - 人工标注：耗时耗力
  - 弱监督的数据标注 → 弱监督学习：高效低耗
弱监督学习
- 相关论文：
  
  CVPR18: Min-entropy Latent Model (MELM)
  
  PAMI2019: Recurrent Learning(MELM+RecurrentLearning)
  
  CVPR19: Continuation Multiple Instance Learning(CMIL)
  
  ICCV17: Soft Proposal Network(SPN)
  
  CVPR18:PeakResponseMapping(PRM)
  
  CVPR19:InstanceActivationMap(IAM)
- 论文详解
  
  问题提出：隐变量学习、多实例学习
```
      往往无法学习到全局最优结果
```
  解决方法：
  
  如上图所示，针对无法得到全局最优问题，提出了convex regularization和continuation optimization两种方法。
  - convex regularization(Min-entropy Latent Model for Weakly Supervised object Detection CVPR2018)
  - continuation optimization(CMIL: Continuation Multiple Instance Learningfor Weakly Supervised object Detection CVPR2019)
  - Recurrent Learning(Min-entropy Latent Model for Weakly Supervised object Detection PAMI2019)
  - soft proposal network(Soft Proposal Network for Weakly Supervised Object Localization ICCV2017)
  - Peak Response Mapping(Weakly Supervised Instance Segmentation using Class Peak Response CVPR2018)
  - learning Instance Activation Maps(Learning Instance Activation Maps for Weakly Supervised Instance Segmentation CVPR2019)
- 未来发展方向：
  - Beyond regularization and continuation optimization
  - Beyond weakly supervised detection and segmentation
  - Fill the gap of supervised and weakly supervised methods
  - Weakly supervised detection meets X (Self-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model)
    
    X= Few-shot Active Learning | Online Feedback | Temporal

魏秀参（旷视科技）：Weakly-supervised object discovery based on pre-trained deep CNNs

引子

Deep learning三驾马车

许多可用的预训练好的深度学习模型

深度学习模型的训练还需要大量标记的数据
图像检索（Image Retrieval）

一般图像检索流程：

（图片来自valse2019魏秀参老师ppt）
- 细粒度的图像检索（Fine-grained image retrieval）
- 基于深度学习的图像检索（Deep learning for image retrieval）
  - Selective Constitutional Descriptor Aggregation（SCDA）
    
    通过对所有特征图的加权求和得到最后的响应图
  - Unsupervised Object Discovery and Co-Localization by Deep Descriptor Transformation（DDT）

黄圣君（南京航空航天大学）：Cost-Sensitive Active Learning

引子
- 一个传统的有监督学习
- 有标签的数据非常重要
当m越大，表示估计的模型越接近真实模型。
- 有标签的数据非常稀少
- 有标签的数据非常昂贵：耗时、专业知识人才、耗资

Active Learning —— 可以用更少的标注数据进行学习

Cost Sensitive Active Learning

标记代价 ≠ 查询数量（查询次数越多不代表所查的东西代价越大）

影响标记代价因素：实例——用于视频推荐的多视角主动学习（instances ——multi-view active learning for video recommendation）

              特征——有监督矩阵补全的主动特征获取（features——active feature acquisition with supervised matrix completion）

              标签——主动查询分层多标签学习（labels——active querying for hierarchical multi-label learning）

              oracles- 积极学习各种不完美的oracles（Oracles——active learning from diverse and imperfect oracles）

影响标记代价因素详细介绍
- instances ——multi-view active learning for video recommendation
  
  视频推荐：协同过滤（冷门启动问题）/基于内容的过滤（需要大量数据训练）
  
  多视角视频表示：视觉特征、文本特征、用户特征、标签
  
  motivation：在视频推荐任务中，文本特征（即评论）获取需要很大代价，视觉特征不需要人力代价。
  
  idea： Visual to text Mapping
- features——active feature acquisition with supervised matrix completion
  
  问题：现实应用中往往会出现特征丢失现象，通常导致学习性能下降
  
  motivation： SMC——supervised matrix completion（exploit the label information / Trace-norm for low-rank assumption）
```
        AFA——Active Feature Acquisition（minimize the feature acquisition cost / contribute to both recovering missing entries and classification）
```
  idea：（这部分设计太多专业基础知识，不太明白）
- labels——active querying for hierarchical multi-label learning
  
  标签有层次结构
  
  平衡成本和信息
- Oracles——active learning from diverse and imperfect oracles
  
  不同的oracles有不同的价格
  
  同时选择instance和oracle
  
  准确而便宜的标签
总结

主动学习：用最少的标签代价训练一个高效的模型

代价和不同的 instances/features/labels/oracles 有关系

魏云超（UIUC）：Towards Weakly Supervised Object Recognition and Scene Parsing

Valse2019笔记——弱监督视觉理解的更多相关文章

CVPR2020：点云弱监督三维语义分割的多路径区域挖掘
CVPR2020:点云弱监督三维语义分割的多路径区域挖掘 Multi-Path Region Mining for Weakly Supervised 3D Semantic Segmentation ...
化繁为简，弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL) | CVPR 2020
论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT ...
CVPR2022 | 弱监督多标签分类中的损失问题
前言本文提出了一种新的弱监督多标签分类(WSML)方法,该方法拒绝或纠正大损失样本,以防止模型记忆有噪声的标签.由于没有繁重和复杂的组件,提出的方法在几个部分标签设置(包括Pascal VOC 20 ...
Deep learning for visual understanding: A review 视觉理解中的深度学习：回顾之一
Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 ABSTRACT: Deep learning algorithms ar ...
【转载】MDX Step by Step 读书笔记(三) - Understanding Tuples (理解元组)
1. 在 Analysis Service 分析服务中,Cube (多维数据集) 是以一个多维数据空间来呈现的.在Cube 中,每一个纬度的属性层次结构都形成了一个轴.沿着这个轴,在属性层次结构上的每 ...
go笔记--几个例子理解context的作用
目录 go笔记--几个例子理解context的作用 context interface 先看一个简单的例程 context的作用 contxt相关函数 go笔记--几个例子理解context的作用经 ...
读书笔记之《深入理解Java虚拟机》不完全学习总结
写在前面: 之所以称作不完全总结,因为我其实没有完完全全地看完此书,但是涵盖了大部分重要章节:同时以下总结是我自己认为很重要知识,细枝末节处难免遗漏,还请详细参考原著. 转载请注明原文出处:http: ...
读书笔记，《深入理解java虚拟机》，第三章垃圾收集器与内存分配策略
要实现虚拟机,其实人们主要考虑完成三件事情: 第一,哪些内存需要回收: 第二,什么时候回收: 第三,如何回收. 第二节,对象已死吗垃圾收集其实主要是针对java堆里面的数据来说的,传统的垃圾收 ...
[原创]java WEB学习笔记27：深入理解面向接口编程
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...

随机推荐

tfs权限设置
需求,管理员用户可以看到tfs里面的所有项目,现在需要给某个开发人员设置权限,只让其看到其中某一个项目. 一.tfs服务器设置 1.在服务器管理器中的[本地用户和组]中添加一个新用户,并在“组”将新用 ...
Mac上安装Charles进行抓包全流程设置
安装 -- 官网下载最新版的Charles版本,按照提示安装即可破解 -- https://blog.csdn.net/qq_25821067/article/details/79848589. M ...
2017(2)数据库设计，数据库设计过程，ER模型，规范化理论
试题二(共 25 分〉阅读以下关于系统数据分析与建模的叙述,在答题纸上回答问题1 至问题 3. [说明] 某软件公司受快递公司委托,拟开发一套快递业务综合管理系统,实现快递单和物流信息的综合管理.项 ...
attr 和 prop的使用区别
自带的属性,用prop:自定义的属性,用attr.
20175211 2018-2019-2 《Java程序设计》第五周学习总结
目录教材学习内容总结第六章接口与实现教材学习中的问题和解决过程代码调试中的问题和解决过程代码托管上周考试错题总结学习进度条参考资料教材学习内容总结第六章接口与实现 6.1 接口 ...
Oracle 12C执行root.sh CLSRSC-119 CRS-8503 CLSRSC-366
1.环境 OS:SUSE Linux Enterprise 12 SP3 X86_64 (Kernel: 4.4.162-94.69.2) DB:12.2.0.1 两节点RAC 参考文档:在 SLES ...
IBM服务器安装Ubuntu Linux server 64以及网络配置
最近在部署AC环境,云AC要求软件环境为Ubuntu 14.04 版本的服务器Linux操作系统,下面是环境部署的准备工作: 一.下载文件 (1)下载系统文件地址:http://mirrors.16 ...
Python科学计算学习之高级数组（二）
代码性能和向量化背景:Python是一种解释型的编程语言,基本的python代码不需要任何中间编译过程来得到机器代码,而是直接执行.而对于C.C++等编译性语言就需要在执行代码前将其编译为机器指令. ...
全志A33移植LCD驱动(ILI9806E)
0x00 环境说明: 所使用的开发板为锐尔威视的插针版A33_Vstar 屏幕是买的第三方的KD050FWFPA011-C009A,其中LCD驱动IC为ILI9806E,所使用的接口为RGB666 0 ...
Oracle游标介绍
Oracle游标使用详解: 游标: 用来查询数据库,获取记录集合(结果集)的指针,我们所说的游标通常是指显式游标,因此从现在起没有特别指明的情况,我们所说的游标都是指显式游标.要在程序中使用游标,必须 ...