无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

论文url：https://arxiv.org/abs/2305.12457

论文简述

该论文提出了一种名为Unsupervised Multi-view Pedestrian Detection (UMPD)的新方法，旨在通过多视角视频监控数据准确地定位行人，而无需依赖于人工标注的视频帧和相机视角。

总体框架图

当我第一时间看到这个框架图，顿时感觉头发都掉了好几根，他这个设计确实有点复杂，并且和之前看的多视角检测方法很不一样，可能有些理解偏差，欢迎指正。

输入

不同视角下多个摄像头的同步图像数据

语义感知迭代分割 Semantic-aware Iterative Segmentation(SIS)

PS: 该模块所在部分就是上图绿色框部分，该模块主要分为两个部分，一个是PCA主成分迭代分析生成前景掩码部分，一个是零样本分类视觉-语言模型CLIP部分生成 $ {S}^{human} $ 语意掩码选择PCA的前景掩码部分。

PCA主成分迭代分析:
- 首先，多个摄像头的同步图像数据通过无监督模型提取预训练特征，将所有图像的预训练特征向量集合并成一个更大的特征矩阵，在这个矩阵中，每一行代表一个图像的特征向量，每一列代表特征向量中的一个维度。（猜测具体操作应该是模型中的最后一个卷积层的特征图进行展平操作，变成一个一维特征向量。将所有的一维特征向量堆叠起来就形成了一个二维的特征矩阵。）
- 然后将这个二维的特征矩阵进行PCA降维操作，PCA的目的是找到一个新的低维特征空间，其中第一个主成分捕捉原始高维特征中的最大方差。通过PCA，数据被投影到第一个主成分（即PCA向量）上，生成一个新的一维特征表示。这个一维表示是每个原始高维特征向量在PCA方向上的投影长度。
- 根据一维PCA值为每个视角生成初步的行人掩膜（即二值图像，设定一个阈值，其中行人前景（大于阈值）被标记为1，背景（小于等于阈值）为0）。
零样本分类视觉-语言模型CLIP:

CLIP拥有两个模块
- CLIP Visual Encoder
  
  输入的是多个摄像头的同步图像数据
  
  输出是视觉特征图
- CLIP Text Encoder
  
  输入是与行人相关的文本描述
  
  生成语言特征向量
- 将语言特征向量与视觉特征图进行余弦相似度计算，得出图 $ {S}^{human} $
两模块结合操作:
- 将CLIP生成的 $ {S}^{human} $ 与PCA生成的前景掩码进行重叠，来判断哪些前景掩码属于行人前景，然后将这些前景掩码继续用PCA进行迭代以及CLIP判断直到规定的迭代次数将前景掩码输入到下一部分作为伪标签。

几何感知体积探测器 Geometric-aware Volume-based Detector(GVD)

PS: 该模块所在部分就是第一张图红色框部分

2D特征提取：每个视角拍摄的图都用ResNet Visual Encoder进行特征提取。
2D到3D的几何投影：提取的特征随后被映射到3D空间中。这一步骤涉及到使用相机的内参和外参矩阵，将2D图像中的像素点映射到3D空间中的体素上。这个过程基于针孔相机模型，通过几何变换将2D图像中的信息转换为3D体积的一部分。
3D体积融合：由于每个视角都会生成一个3D体积，GVD模块需要将这些体积融合成一个统一的3D体积。这通常通过一个Soft-Max Volume Feat. Fusion函数来实现，该函数可以对来自不同视角的3D体积进行加权和融合。
3D卷积网络解码器：融合后的3D体积被送入一个3D卷积网络解码器，该解码器负责预测每个体素的密度和颜色。这个解码器通常由一系列3D卷积层组成，能够学习从2D图像到3D体积的复杂映射关系。（论文中没有给出该解码器具体是怎么设计的）
3D渲染为2D：作者用PyTorch3D可微分渲染框架将预测的3D密度 $ {D} $ 渲染为2D掩码 $\tilde{M}$ ，并且将预测的3D颜色 $ {C} $ 渲染为2D图像 $\tilde{I}$ ， $ {M} $ 为SIS输出的前景掩码， $ {I} $ 论文中说是根据前景掩码得出的颜色图像（猜测应该是前景图像中为1的部分才保留原图颜色）。

垂直感知BEV正则化 Vertical-aware BEV Regularization

通过GVD得出的3D体积中的密度信息沿着Z轴（垂直轴）进行最大值投影，以生成BEV(Bird Eye View)表示。这样可以得到一个二维平面图，其中高密度区域表示行人的位置，得出结果。
并且为了应对出现的行人躺着或者斜着的情况（在大多数情况下，行人的姿态是接近垂直的），论文提出了Vertical-aware BEV Regularization（VBR）方法。通过计算 $ {L}_{VBR} $ 损失函数来优化这个影响。
损失函数

运用了Huber Loss

效果图

后记

作者最后应该还做了些后处理，但是论文中没有提及具体内容。该篇内容细节很多，公式变换复杂，有些细节我做了一定的省略，建议结合着论文原文来看。

ps：终于干完这篇了，鼠鼠我要逝了

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection的更多相关文章

paper 87：行人检测资源（下）代码数据【转载，以后使用】
这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...
解读ICDE'22论文：基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法
摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架. 本文分享自华为云社区<解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法&g ...
kaggle信用卡欺诈看异常检测算法——无监督的方法包括：基于统计的技术，如BACON *离群检测多变量异常值检测基于聚类的技术；监督方法：神经网络 SVM 逻辑回归
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
使用GAN进行异常检测——可以进行网络流量的自学习哇，哥哥，人家是半监督，无监督的话，还是要VAE，SAE。
实验了效果,下面的还是图像的异常检测居多. https://github.com/LeeDoYup/AnoGAN https://github.com/tkwoo/anogan-keras 看了下,本 ...
无监督︱异常、离群点检测一分类——OneClassSVM
OneClassSVM两个功能:异常值检测.解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM:OneClassSV ...
无监督异常检测之卷积AE和卷积VAE
尝试用卷积AE和卷积VAE做无监督检测,思路如下: 1.先用正常样本训练AE或VAE 2.输入测试集给AE或VAE,获得重构的测试集数据. 3.计算重构的数据和原始数据的误差,如果误差大于某一个阈值, ...
Approach for Unsupervised Bug Report Summarization 无监督bug报告汇总方法
AUSUM: approach for unsupervised bug report summarization 1. Abstract 解决的bug被归类以便未来参考缺点是还是需要手动的去细读很 ...
行人检测(Pedestrian Detection)资源整合
一.纸评论文章分类: [1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intellig ...
行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
目标检测之行人检测（Pedestrian Detection）---行人检测之简介0
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...

随机推荐

【Azure 服务总线】Azure.Messaging.ServiceBus 多次发送消息报超时错误，是否可以配置重新发送？是否有内置重试机制？
问题描述使用 Azure Service Bus,提供应用程序之间松耦合的消息交换,但是有时候发送消息多次出现超时错误. A connection attempt failed because th ...
【Azure Redis 缓存】Azure Cache for Redis 服务的导出RDB文件无法在自建的Redis服务中导入
问题描述使用微软云的Redis服务,导出它的RDB文件后,想把数据恢复到本地自建的Redis服务中,发现出现如下错误: 15000:S 21 Jun 08:14:11.199 * Retrying ...
【Azure API 管理】API Management service (APIM) 如何实现禁止外网访问
问题描述 API Management service 设置禁止外网访问,请求通过外网(Internet)将无法解析到APIM的网关地址,只能通过APIM所集成的内网(Virtual Network) ...
苏宁基于 AI 和图技术的智能监控体系的建设
汤泳,苏宁科技集团智能监控与运维产研中心总监,中国商业联合会智库顾问,致力于海量数据分析.基于深度学习的时间序列分析与预测.自然语言处理和图神经网络的研究.在应用实践中,通过基于 AI 的方式不断完善 ...
协程的async使用
async与launch一样都是开启一个协程,但是async会返回一个Deferred对象,该Deferred也是一个job async函数类似于 launch函数.它启动了一个单独的协程,这是一个轻 ...
SpringCloud Nacos
1.Nacos简介 SpringCloud Alibaba 由来: 因为原先Spring Cloud 的许多组件都是对Netflix 公司的各种框架进行封装, 然后因为Netflix公司对后续更新的各 ...
C++ //统计元素个数 //统计内置数据类型 //统计自定义数据类型
1 //统计元素个数 2 3 #include<iostream> 4 #include<string> 5 #include<vector> 6 #include ...
linux 前端 jenkins打包失败 permission 权限安装 root 安装nodejs，没有权限，另一个账号，需要chmod将文件权限打开
linux 前端 jenkins打包失败 permission 权限安装 root 安装nodejs,没有权限,另一个账号,需要chmod将文件权限打开开始以为nodejs版本问题最后发现是安装n ...
LINQ 学习之路
一.为什么要使用 LINQ 要理解为什么使用 LINQ,先来看下下面的例子例子:要统计字符串中每个字母出现的频率(忽略大小写),然后按照从高到低的顺序输出出现频率高于2次和其出现的的频率.如果用传统 ...
FLTK基于cmake编译以及使用（Windows、macOS以及Linux）
最近因为一些学习的原因,需要使用一款跨平台的轻量级的GUI+图像绘制 C/C++库.经过一番调研以后,最终从GTK+.FLTK中选出了FLTK,跨平台.够轻量.本文将在Windows.macOS以及L ...

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

论文简述

总体框架图

输入

语义感知迭代分割 Semantic-aware Iterative Segmentation(SIS)

几何感知体积探测器 Geometric-aware Volume-based Detector(GVD)

垂直感知BEV正则化 Vertical-aware BEV Regularization

效果图

后记

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection的更多相关文章

随机推荐

热门专题