一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

论文urlhttps://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html

论文简述

论文提出了一种用于多视角行人检测的深度学习模型,旨在提高模型在不同摄像机数量、不同摄像机配置和新场景下的泛化能力。

总体框架图

输入

$ {N} $ 个校准的RGB摄像头图像,图像尺寸为( 3 , $ {H}{i} $ , $ {W} $),其中 $ {H}{i} $ 和 $ {W} $ 分别代表图像的高度和宽度。

DropView Regularization

  • 操作:在训练过程中,对于每批次视角样本,随机选择一个或多个视角进行丢弃,即不使用这些视角图进行训练。
  • 作用:迫使模型学习到不依赖于任何单一视角的特征表示,这一操作也可以看作数据增强,模拟了在实际应用中可能遇到的摄像头失效或视角遮挡等情况,从而使模型在面对不完整数据时仍能保持性能。提高了鲁棒性,增强了泛化能力。

特征提取模块(Feature Extraction)

  • 操作:使用ResNet18作为特征提取的主干网络,并将最后三层的步长大卷积替换为空洞卷积(dilated convolutions),以获得更高空间分辨率的特征图。
  • 输出: $ {N} $ 个摄像头视图的特征,尺寸为( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ ),其中 $ {C} $ 是通道数(特征数), $ {H}{f} $ 和 $ {W} $ 是提取的特征图的高度和宽度。

透视变换(Perspective Transformation)

  • 对于每个视角的特征图,使用透视变换将其从相机坐标系映射到世界坐标系中的地面平面(鸟瞰图)上。
  • 透视变换考虑了相机的内参 $ {K} $ 和外参 $ {[R|t]} $,其中内参包括焦距和主点坐标,外参包括旋转和平移向量。
  • 变换过程中,定义一个地面平面,通常假设为 $ {Z=0} $ 的平面,即 $ {W = (X, Y, 0, 1)^T} $ 。每个像素点 $ {(x, y)} $ 从图像坐标系通过以下变换映射到地面平面坐标系:



    其中 $ {s} $ 是缩放因子, $ {P} $ 是透视变换矩阵,$ {(X, Y, Z)} $ 是世界坐标系中的点。
  • 输出:投影到地面平面上的 $ {N} $ 个特征图,尺寸为 $ {(N, C, H_{g}, W_{g})} $ ,其中 $ {H}{g} $ 和 $ {W} $ 是地面平面网格的高度和宽度。

平均池化(Average Pooling)

  • 对所有视图的投影特征图进行平均池化,得到最终的鸟瞰图特征表示 $ {F} $ ,尺寸为 $ {(C, H_{g}, W_{g})} $ 。
  • 特点:在多视角检测中,摄像头的物理排列可能会变化,但模型应该能够独立于特定的摄像头排列来检测行人。平均池化操作是排列不变的,这意味着无论摄像头的输入顺序如何,模型的输出都是一致的,从而提高了模型的泛化能力。

占用图预测(Occupancy Map Prediction)

  • 使用三层空洞卷积层去预测行人占用概率图,输出尺寸为 $ {(H_{g}, W_{g})} $ 。(参考MVDet

损失函数设计

  • 输入:模型输出的概率占用图 $ {(p)} $ 和真实标注的占用图 $ {(g)} $ 。
  • 结合KL散度(KLDiv)和皮尔逊交叉相关系数(CC)作为损失函数,公式如下:



    $ {σ(p,g)} $ 是 $ {p,g} $ 的协方差, $ {σ(p)} $ 是 $ {p} $ 的标准差, $ {σ(g)} $ 是 $ {g} $ 的标准差。

后记

  • 有意思的是该作者不仅仅使用了MultiViewX和WildTrack这两个普遍的数据集,并且还用GTAV里面的拍照模式采样了一些样本。

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection的更多相关文章

  1. 一种用单片机AD采样方式来检测交流市电电压的方法

    下面介绍一种用单片机AD采样的方式检测市电电压的方法  要检测交流市电的电压,通常有两种方法 一.通过频繁的采样后再求平均值来获得实际电压值 二.通过采样交流市电的峰值,再通过算法得出实际电压值 这里 ...

  2. paper 86:行人检测资源(上)综述文献【转载,以后使用】

    行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域.从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,主要还是在性能和速度方面还不能达到一个 ...

  3. 行人检测(Pedestrian Detection)资源整合

    一.纸 评论文章分类: [1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intellig ...

  4. CVPR 2019 行人检测新思路:

    CVPR 2019 行人检测新思路:高级语义特征检测取得精度新突破 原创: CV君 我爱计算机视觉 今天 点击我爱计算机视觉置顶或标星,更快获取CVML新技术 今天跟大家分享一篇昨天新出的CVPR 2 ...

  5. paper 87:行人检测资源(下)代码数据【转载,以后使用】

    这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...

  6. 行人检测(Pedestrian Detection)资源

    一.论文 综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...

  7. 目标检测之行人检测(Pedestrian Detection)---行人检测之简介0

    一.论文 综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...

  8. 【计算机视觉】行人检测(Pedestrian Detection)资源

    一.论文 综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...

  9. 深度学习-09(目标检测:Object Detection)

    文章目录 目标检测(Object Detection) 一 .基本概念 1. 什么是目标检测 2. 目标检测的核心问题 3. 目标检测算法分类 4. 目标检测应用 目标检测原理 1.候选区域产生 1 ...

  10. Hog SVM 车辆 行人检测

    HOG SVM 车辆检测 近期需要对卡口车辆的车脸进行检测,首先选用一个常规的检测方法即是hog特征与SVM,Hog特征是由dalal在2005年提出的用于道路中行人检测的方法,并且取的了不错的识别效 ...

随机推荐

  1. [.Net]使用Soa库+Abp搭建微服务项目框架(三):项目改造

    ​上一章我们说道,如果要使各模块之间解耦,使得各自独立成服务,首先要解除各个模块之间的引用关系. 还记得上一章我们的小项目吗 ?们回到之前的代码上来,当前的项目架构如下图: ​ 这次的任务是将它改造成 ...

  2. maven打包出现 ����applets.user.service.UserService����-2022新项目

    一.问题由来 新项目的框架刚搭建好,还不能正常的运行,我们这边就开始写代码,因为项目还在设计阶段,很多东西比如说需求 都还在讨论之中.分层架构采用的是cola4.0的架构,具体的代码由我们自己来进行实 ...

  3. Kinaba discover查询语法

    1.要搜索一个确切的字符串,即精确搜索,需要使用双引号引起来:path:"/app/logs/nginx/access.log" 2.如果不带引号,将会匹配每个单词:uid tok ...

  4. Android源码在线查看网站

    一.aospxref http://aospxref.com/ 优点:更新速度快 缺点:历史版本较少 二.androidxref http://androidxref.com/ 优点:历史版本较多 缺 ...

  5. 【2012 Asia ChangChun Regional Contes】 [Math Magic] 动态规划

    题目链接: https://acm.hdu.edu.cn/showproblem.php?pid=4427 解法: 题目m范围较小$m\leq 1000$,n 范围也较小 $n\leq 1000$, ...

  6. 《世嘉新人培训教材—游戏开发》2DGraphics1项目cmake构建

    <世嘉新人培训教材-游戏开发>作为经典的游戏开发教程,提供了相关样例代码供我们进行开发使用.但是该样例是基于VS进行编写构建的,而本人日常喜欢CLion进行C/C++开发,于是准备使用cm ...

  7. 在Blazor中使用Chart.js快速创建图表

    前言 BlazorChartjs是一个在Blazor中使用Chart.js的库(支持Blazor WebAssembly和Blazor Server两种模式),它提供了简单易用的组件来帮助开发者快速集 ...

  8. AI金融预测领域综述文章筛选,附论文及代码链接,2021年版

    21年的综述最近读了3篇,总结笔记如下: (2021)Systematic Literature Review: Stock Price Prediction Using Machine Learni ...

  9. Rust使用Sauron实现Web界面交互

    目录 简介 架构 Application 和组件 简单入门示例 先决条件 创建新项目 编译库文件 引用库文件 运行项目 界面交互示例 创建项目 编译库文件 引用库文件 引用库文件 运行项目 参考资料 ...

  10. 鸿蒙HarmonyOS实战-ArkUI组件(GridRow/GridCol)

    一.GridRow/GridCol 1.概述 栅格布局是一种通用的辅助定位工具,可以帮助开发人员解决多尺寸多设备的动态布局问题.通过将页面划分为等宽的列数和行数,栅格布局提供了可循的规律性结构,方便开 ...