无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

论文url：https://arxiv.org/abs/2305.12457

论文简述

该论文提出了一种名为Unsupervised Multi-view Pedestrian Detection (UMPD)的新方法，旨在通过多视角视频监控数据准确地定位行人，而无需依赖于人工标注的视频帧和相机视角。

总体框架图

当我第一时间看到这个框架图，顿时感觉头发都掉了好几根，他这个设计确实有点复杂，并且和之前看的多视角检测方法很不一样，可能有些理解偏差，欢迎指正。

输入

不同视角下多个摄像头的同步图像数据

语义感知迭代分割 Semantic-aware Iterative Segmentation(SIS)

PS: 该模块所在部分就是上图绿色框部分，该模块主要分为两个部分，一个是PCA主成分迭代分析生成前景掩码部分，一个是零样本分类视觉-语言模型CLIP部分生成 $ {S}^{human} $ 语意掩码选择PCA的前景掩码部分。

PCA主成分迭代分析:
- 首先，多个摄像头的同步图像数据通过无监督模型提取预训练特征，将所有图像的预训练特征向量集合并成一个更大的特征矩阵，在这个矩阵中，每一行代表一个图像的特征向量，每一列代表特征向量中的一个维度。（猜测具体操作应该是模型中的最后一个卷积层的特征图进行展平操作，变成一个一维特征向量。将所有的一维特征向量堆叠起来就形成了一个二维的特征矩阵。）
- 然后将这个二维的特征矩阵进行PCA降维操作，PCA的目的是找到一个新的低维特征空间，其中第一个主成分捕捉原始高维特征中的最大方差。通过PCA，数据被投影到第一个主成分（即PCA向量）上，生成一个新的一维特征表示。这个一维表示是每个原始高维特征向量在PCA方向上的投影长度。
- 根据一维PCA值为每个视角生成初步的行人掩膜（即二值图像，设定一个阈值，其中行人前景（大于阈值）被标记为1，背景（小于等于阈值）为0）。
零样本分类视觉-语言模型CLIP:

CLIP拥有两个模块
- CLIP Visual Encoder
  
  输入的是多个摄像头的同步图像数据
  
  输出是视觉特征图
- CLIP Text Encoder
  
  输入是与行人相关的文本描述
  
  生成语言特征向量
- 将语言特征向量与视觉特征图进行余弦相似度计算，得出图 $ {S}^{human} $
两模块结合操作:
- 将CLIP生成的 $ {S}^{human} $ 与PCA生成的前景掩码进行重叠，来判断哪些前景掩码属于行人前景，然后将这些前景掩码继续用PCA进行迭代以及CLIP判断直到规定的迭代次数将前景掩码输入到下一部分作为伪标签。

几何感知体积探测器 Geometric-aware Volume-based Detector(GVD)

PS: 该模块所在部分就是第一张图红色框部分

2D特征提取：每个视角拍摄的图都用ResNet Visual Encoder进行特征提取。
2D到3D的几何投影：提取的特征随后被映射到3D空间中。这一步骤涉及到使用相机的内参和外参矩阵，将2D图像中的像素点映射到3D空间中的体素上。这个过程基于针孔相机模型，通过几何变换将2D图像中的信息转换为3D体积的一部分。
3D体积融合：由于每个视角都会生成一个3D体积，GVD模块需要将这些体积融合成一个统一的3D体积。这通常通过一个Soft-Max Volume Feat. Fusion函数来实现，该函数可以对来自不同视角的3D体积进行加权和融合。
3D卷积网络解码器：融合后的3D体积被送入一个3D卷积网络解码器，该解码器负责预测每个体素的密度和颜色。这个解码器通常由一系列3D卷积层组成，能够学习从2D图像到3D体积的复杂映射关系。（论文中没有给出该解码器具体是怎么设计的）
3D渲染为2D：作者用PyTorch3D可微分渲染框架将预测的3D密度 $ {D} $ 渲染为2D掩码 $\tilde{M}$ ，并且将预测的3D颜色 $ {C} $ 渲染为2D图像 $\tilde{I}$ ， $ {M} $ 为SIS输出的前景掩码， $ {I} $ 论文中说是根据前景掩码得出的颜色图像（猜测应该是前景图像中为1的部分才保留原图颜色）。

垂直感知BEV正则化 Vertical-aware BEV Regularization

通过GVD得出的3D体积中的密度信息沿着Z轴（垂直轴）进行最大值投影，以生成BEV(Bird Eye View)表示。这样可以得到一个二维平面图，其中高密度区域表示行人的位置，得出结果。
并且为了应对出现的行人躺着或者斜着的情况（在大多数情况下，行人的姿态是接近垂直的），论文提出了Vertical-aware BEV Regularization（VBR）方法。通过计算 $ {L}_{VBR} $ 损失函数来优化这个影响。
损失函数

运用了Huber Loss

效果图

后记

作者最后应该还做了些后处理，但是论文中没有提及具体内容。该篇内容细节很多，公式变换复杂，有些细节我做了一定的省略，建议结合着论文原文来看。

ps：终于干完这篇了，鼠鼠我要逝了

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection的更多相关文章

paper 87：行人检测资源（下）代码数据【转载，以后使用】
这是行人检测相关资源的第二部分:源码和数据集.考虑到实际应用的实时性要求,源码主要是C/C++的.源码和数据集的网址,经过测试都可访问,并注明了这些网址最后更新的日期,供学习和研究进行参考.(欢迎补充 ...
解读ICDE'22论文：基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法
摘要:本文提出了两个用于无监督的具备可解释性和鲁棒性时间序列离群点检测的自动编码器框架. 本文分享自华为云社区<解读ICDE'22论文:基于鲁棒和可解释自编码器的无监督时间序列离群点检测算法&g ...
kaggle信用卡欺诈看异常检测算法——无监督的方法包括：基于统计的技术，如BACON *离群检测多变量异常值检测基于聚类的技术；监督方法：神经网络 SVM 逻辑回归
使用google翻译自:https://software.seek.intel.com/dealing-with-outliers 数据分析中的一项具有挑战性但非常重要的任务是处理异常值.我们通常将异 ...
使用GAN进行异常检测——可以进行网络流量的自学习哇，哥哥，人家是半监督，无监督的话，还是要VAE，SAE。
实验了效果,下面的还是图像的异常检测居多. https://github.com/LeeDoYup/AnoGAN https://github.com/tkwoo/anogan-keras 看了下,本 ...
无监督︱异常、离群点检测一分类——OneClassSVM
OneClassSVM两个功能:异常值检测.解决极度不平衡数据因为之前一直在做非平衡样本分类的问题,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM:OneClassSV ...
无监督异常检测之卷积AE和卷积VAE
尝试用卷积AE和卷积VAE做无监督检测,思路如下: 1.先用正常样本训练AE或VAE 2.输入测试集给AE或VAE,获得重构的测试集数据. 3.计算重构的数据和原始数据的误差,如果误差大于某一个阈值, ...
Approach for Unsupervised Bug Report Summarization 无监督bug报告汇总方法
AUSUM: approach for unsupervised bug report summarization 1. Abstract 解决的bug被归类以便未来参考缺点是还是需要手动的去细读很 ...
行人检测(Pedestrian Detection)资源整合
一.纸评论文章分类: [1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intellig ...
行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
目标检测之行人检测（Pedestrian Detection）---行人检测之简介0
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...

随机推荐

D3.js 力导向图的显示优化（二）- 自定义功能
摘要: 在本文中,我们将借助 D3.js 的灵活性这一优势,去新增一些 D3.js 本身并不支持但我们想要的一些常见的功能:Nebula Graph 图探索的删除节点和缩放功能. 文章首发于 Nebu ...
mysql-添加、删除索引
-- 添加联合唯一索引 alter table b_report_file add unique index nc (name, code, org_id); -- 删除索引 ALTER TABLE ...
Java 对属性赋值的位置执行的先后顺序
1 package com.bytezreo.block; 2 3 /** 4 * 5 * @Description 对属性赋值的位置: 6 * @author Bytezero·zhenglei! ...
【译】32位 .NET Framework 项目的 WinForm 设计器选择
在客户反馈的推动下,Visual Studio 2022 向64位架构过渡,标志着增强开发体验的关键一步.正如 Klaus Loffelmann 在他的博客文章中所描述的那样,这种转换增强了整体性能和 ...
Go语言VSCode开发环境配置
最近学习Golang,先把开发环境配置好. 一.安装Go语言开发包 https://golang.google.cn/dl/ 按步骤安装即可,安装完成后需要设置Windows环境变量配置好,做个测试 ...
一文学会JDBC实现java和mySQL的数据连接(尚硅谷学习课程代码+笔记+思路总结)
JDBC是指数据库连接技术,用于java连接mySQL等数据库.本文详细介绍了尚硅谷课程中JDBC的学习内容和补充知识. 概述 java语言只提供规范接口,存在于java.sql.javax.sql包 ...
Leetcode 1161 最大层内元素和
一.题目给你一个二叉树的根节点 root.设根节点位于二叉树的第1层,而根节点的子节点位于第2层,依此类推. 请返回层内元素之和最大的那几层(可能只有一层)的层号,并返回其中最小的那个. 示 ...
市场主流的G-sensor芯片盘点
一前记 1.简介随着可穿戴智能硬件的广泛发展,G-sensor成了一个必不可少的器件.梳理,测试和运用这些传感器.是做可穿戴产品必不可少的环节. 二产品解析 1.ST的G-sensor型号LIS ...
在后台运行 django的基本方法
在后台运行 django: nohup python manage.py runserver 0.0.0.0:9000 &ps:&可以不写,这样启动测试服务器后,就可以常驻后台运行了. ...
Codeforces Round #844:C. Equal Frequencies
一.来源:Problem - C - Codeforces 二.题面三.思路先考虑一个子问题模型:我们现在有用$m_1$种随机字母组成的n个数,各字母个数未定,现在需要使这n个数变为\(m_2 ...

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection

论文简述

总体框架图

输入

语义感知迭代分割 Semantic-aware Iterative Segmentation(SIS)

几何感知体积探测器 Geometric-aware Volume-based Detector(GVD)

垂直感知BEV正则化 Vertical-aware BEV Regularization

效果图

后记

无监督多视角行人检测 Unsupervised Multi-view Pedestrian Detection的更多相关文章

随机推荐

热门专题