一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

论文url： https://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html

论文简述

论文提出了一种用于多视角行人检测的深度学习模型，旨在提高模型在不同摄像机数量、不同摄像机配置和新场景下的泛化能力。

总体框架图

输入

$ {N} $ 个校准的RGB摄像头图像，图像尺寸为( 3 , $ {H}{i} $ , $ {W} $)，其中 $ {H}{i} $ 和 $ {W} $ 分别代表图像的高度和宽度。

DropView Regularization

操作：在训练过程中，对于每批次视角样本，随机选择一个或多个视角进行丢弃，即不使用这些视角图进行训练。
作用：迫使模型学习到不依赖于任何单一视角的特征表示，这一操作也可以看作数据增强，模拟了在实际应用中可能遇到的摄像头失效或视角遮挡等情况，从而使模型在面对不完整数据时仍能保持性能。提高了鲁棒性，增强了泛化能力。

特征提取模块（Feature Extraction）

操作：使用ResNet18作为特征提取的主干网络，并将最后三层的步长大卷积替换为空洞卷积（dilated convolutions），以获得更高空间分辨率的特征图。
输出： $ {N} $ 个摄像头视图的特征，尺寸为( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ )，其中 $ {C} $ 是通道数（特征数）， $ {H}{f} $ 和 $ {W} $ 是提取的特征图的高度和宽度。

透视变换（Perspective Transformation）

对于每个视角的特征图，使用透视变换将其从相机坐标系映射到世界坐标系中的地面平面（鸟瞰图）上。
透视变换考虑了相机的内参 $ {K} $ 和外参 $ {[R|t]} $，其中内参包括焦距和主点坐标，外参包括旋转和平移向量。
变换过程中，定义一个地面平面，通常假设为 $ {Z=0} $ 的平面，即 $ {W = (X, Y, 0, 1)^T} $ 。每个像素点 $ {(x, y)} $ 从图像坐标系通过以下变换映射到地面平面坐标系：

其中 $ {s} $ 是缩放因子, $ {P} $ 是透视变换矩阵，$ {(X, Y, Z)} $ 是世界坐标系中的点。
输出：投影到地面平面上的 $ {N} $ 个特征图，尺寸为 $ {(N, C, H_{g}, W_{g})} $ ，其中 $ {H}{g} $ 和 $ {W} $ 是地面平面网格的高度和宽度。

平均池化（Average Pooling）

对所有视图的投影特征图进行平均池化，得到最终的鸟瞰图特征表示 $ {F} $ ，尺寸为 $ {(C, H_{g}, W_{g})} $ 。
特点：在多视角检测中，摄像头的物理排列可能会变化，但模型应该能够独立于特定的摄像头排列来检测行人。平均池化操作是排列不变的，这意味着无论摄像头的输入顺序如何，模型的输出都是一致的，从而提高了模型的泛化能力。

占用图预测（Occupancy Map Prediction）

使用三层空洞卷积层去预测行人占用概率图，输出尺寸为 $ {(H_{g}, W_{g})} $ 。（参考MVDet）

损失函数设计

输入：模型输出的概率占用图 $ {(p)} $ 和真实标注的占用图 $ {(g)} $ 。
结合KL散度(KLDiv)和皮尔逊交叉相关系数(CC)作为损失函数，公式如下：

$ {σ(p,g)} $ 是 $ {p,g} $ 的协方差， $ {σ(p)} $ 是 $ {p} $ 的标准差， $ {σ(g)} $ 是 $ {g} $ 的标准差。

后记

有意思的是该作者不仅仅使用了MultiViewX和WildTrack这两个普遍的数据集，并且还用GTAV里面的拍照模式采样了一些样本。

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection的更多相关文章

一种用单片机AD采样方式来检测交流市电电压的方法
下面介绍一种用单片机AD采样的方式检测市电电压的方法要检测交流市电的电压,通常有两种方法一.通过频繁的采样后再求平均值来获得实际电压值二.通过采样交流市电的峰值,再通过算法得出实际电压值这里 ...
paper 86：行人检测资源（上）综述文献【转载，以后使用】
行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域.从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,主要还是在性能和速度方面还不能达到一个 ...
行人检测(Pedestrian Detection)资源整合
一.纸评论文章分类: [1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intellig ...
CVPR 2019 行人检测新思路：
CVPR 2019 行人检测新思路:高级语义特征检测取得精度新突破原创: CV君我爱计算机视觉今天点击我爱计算机视觉置顶或标星,更快获取CVML新技术今天跟大家分享一篇昨天新出的CVPR 2 ...
paper 87：行人检测资源（下）代码数据【转载，以后使用】
这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...
行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
目标检测之行人检测（Pedestrian Detection）---行人检测之简介0
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
【计算机视觉】行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
深度学习-09(目标检测:Object Detection)
文章目录目标检测(Object Detection) 一 .基本概念 1. 什么是目标检测 2. 目标检测的核心问题 3. 目标检测算法分类 4. 目标检测应用目标检测原理 1.候选区域产生 1 ...
Hog SVM 车辆行人检测
HOG SVM 车辆检测近期需要对卡口车辆的车脸进行检测,首先选用一个常规的检测方法即是hog特征与SVM,Hog特征是由dalal在2005年提出的用于道路中行人检测的方法,并且取的了不错的识别效 ...

随机推荐

【Azure 应用服务】Web App Service 中的应用程序配置(Application Setting) 怎么获取key vault中的值
问题描述 App Service中,如何通过 Application Setting 来配置 Key Vault中的值呢? 问题解答首先,App Service服务可以直接通过引用的方式,无需代码的 ...
【Azure 应用服务】记一次Azure Spring Cloud 的部署错误 (az spring-cloud app deploy -g dev -s testdemo -n demo -p ./hellospring-0.0.1-SNAPSHOT.jar --->>> Failed to wait for deployment instances to be ready)
问题描述使用Azure Spring Cloud服务,在部署时候失败,收到错误消息为: c:\project\hellospring>az spring-cloud app deploy -g ...
【Azure 微服务】Azure Service Fabric 因证书问题而使得 Node 一直处于 Down 状态
问题描述 Service Fabric 集群更新证书后,重启Node后就变为Down的状态,反复 Restart 结果反复Down 问题分析根据Service Fabric的文档表示,修改证书时一定 ...
使用beyond compare或kompare作为git的对比、合并工具
两种方法方法1: 直接使用命令 # 执行下面命令,参看支持对比合并工具名称,比如bc就是指beyond compare(收费软件,推荐使用开源的kompare) $ git difftool --t ...
Java 重写引入
1 package com.bytezero.override; 2 /* 3 * 方法的重新(override/overwrite) 4 * 5 * 1.重写:子类继承父类以后,可以对父类中同名同参 ...
python 微信自动发图片，批量发送
自动发送批量的图片给微信联系人,可为自己的文件传输助手已实现: 可设置发送时间间隔发送图片数量指定接收人下载链接: python批量自动连发图片给微信好友自动发图片-Python文档类资源-C ...
专访容智信息柴亚团：最低调的公司如何炼成最易用的RPA?
专访容智信息柴亚团:最低调的公司如何炼成最易用的RPA? 专访容智信息柴亚团:终极愿景是助力天下企业成为数字化孪生组织文/王吉伟 6月,容智信息(容智)正式发布了全新的移动端RPA产品iBot Mo ...
foundation部分学习记录（更正更新中……）
foundation部分学习记录(更新中--) 从FDB的角度看,它对上层只提供有序+事务+KV存储的抽象. 设计原则模块化分割,尽量细分且模块之间相互解耦例如事务系统内,其提交(write pa ...
VSCode 配置 Spring Boot 项目开发环境
神器IDEA在升级到2023之后越发卡顿, EDU邮箱也不能用了, 照现在这个JDK版本的升级速度, 神器不升级也不行, 需要开始物色替代品. 其它IDE我用得少, VSCode还是比较熟悉的, 可以 ...
基于RocketMQ实现分布式事务
背景在一个微服务架构的项目中,一个业务操作可能涉及到多个服务,这些服务往往是独立部署,构成一个个独立的系统.这种分布式的系统架构往往面临着分布式事务的问题.为了保证系统数据的一致性,我们需要确保这些 ...

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

论文简述

总体框架图

输入

DropView Regularization

特征提取模块（Feature Extraction）

透视变换（Perspective Transformation）

平均池化（Average Pooling）

占用图预测（Occupancy Map Prediction）

损失函数设计

后记

一种提升深度多视角行人检测的泛化性能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection的更多相关文章

随机推荐

热门专题