[AI开发]基于深度学习的视频多目标跟踪实现

据我目前了解掌握，多目标跟踪大概有两种方式：

Option1

基于初始化帧的跟踪，在视频第一帧中选择你的目标，之后交给跟踪算法去实现目标的跟踪。这种方式基本上只能跟踪你第一帧选中的目标，如果后续帧中出现了新的物体目标，算法是跟踪不到的。这种方式的优点是速度相对较快。缺点很明显，不能跟踪新出现的目标。

Option2

基于目标检测的跟踪，在视频每帧中先检测出来所有感兴趣的目标物体，然后将其与前一帧中检测出来的目标进行关联来实现跟踪的效果。这种方式的优点是可以在整个视频中跟踪随时出现的新目标，当然这种方式要求你前提得有一个好的“目标检测”算法。

本文主要讲述Option2的实现原理，也就是Tracking By Detecting的跟踪方式。这篇文章没有源码链接，关于“目标检测”算法的源码可以参见我上一篇文章，至于“轨迹跟踪”算法的源码实现很简单，看完本文相信大家都能写出来，Python实现大概200行不到。

Tracking By Detecting的跟踪过程

Step1：使用目标检测算法将每帧中感兴趣的目标检测出来，得到对应的(位置坐标, 分类, 可信度)，假设检测到的目标数量为M；

Step2：通过某种方式将Step1中的检测结果与上一帧中的检测目标(假设上一帧检测目标数量为N)一一关联起来。换句话说，就是在M*N个Pair中找出最像似的Pair。

对于Step2中的“某种方式”，其实有多种方式可以实现目标的关联，比如常见的计算两帧中两个目标之间的欧几里得距离(平面两点之间的直线距离)，距离最短就认为是同一个目标，然后通过匈牙利算法找出最匹配的Pair。当让，你还可以加上其他的判断条件，比如我用到的IOU，计算两个目标Box(位置大小方框)的交并比，该值越接近1就代表是同一个目标。还有其他的比如判断两个目标的外观是否相似，这就需要用到一种外观模型去做比较了，可能耗时更长。

在关联的过程中，会出现三种情况：

1）在上一帧中的N个目标中找到了本次检测到的目标，说明正常跟踪到了；

2）在上一帧中的N个目标中没有找到本次检测到的目标，说明这个目标是这一帧中新出现的，所以我们需要把它记录下来，用于下下一次的跟踪关联；

3）在上一帧中存在某个目标，这一帧中并没有与之关联的目标，那么说明该目标可能从视野中消失了，我们需要将其移除。(注意这里的可能，因为有可能由于检测误差，在这一帧中该目标并没有被检测到)

存在的问题

上面提到的跟踪方法在正常情况下都能够很好的工作，但是如果视频中目标运动得很快，前后两帧中同一个目标运动的距离很远，那么这种跟踪方式就会出现问题。

如上图，实线框表示目标在第一帧的位置，虚线框表示目标在第二帧的位置。当目标运行速度比较慢的时候，通过之前的跟踪方式可以很准确的关联(A, A’)和(B, B’)。但是当目标运行速度很快（或者隔帧检测）时，在第二帧中，A就会运动到第一帧中B的位置，而B则运动到其他位置。这个时候使用上面的关联方法就会得到错误的结果。

那么怎样才能更加准确地进行跟踪呢？

基于轨迹预测的跟踪方式

既然通过第二帧的位置与第一帧的位置进行对比关联会出现误差，那么我们可以想办法在对比之前，先预测目标的下一帧会出现的位置，然后与该预测的位置来进行对比关联。这样的话，只要预测足够精确，那么几乎不会出现前面提到的由于速度太快而存在的误差。

如上图，我们在对比关联之前，先预测出A和B在下一帧中的位置，然后再使用实际的检测位置与预测的位置进行对比关联，可以完美地解决上面提到的问题。理论上，不管目标速度多么快，都能关联上。那么问题来了，怎么预测目标在下一帧的位置？

方法有很多，可以使用卡尔曼滤波来根据目标前面几帧的轨迹来预测它下一帧的位置，还可以使用自己拟合出来的函数来预测下一帧的位置。实际过程中，我是使用拟合函数来预测目标在下一帧中的位置。

如上图，通过前面6帧的位置，我可以拟合出来一条（T->XY）的曲线（注意不是图中的直线），然后预测目标在T+1帧的位置。具体实现很简单，Python中的numpy库中有类似功能的方法。

仍然存在的不足

即使如此完美了，还是存在不足。

轨迹预测的前提是需要知道目标前面若干帧的轨迹信息，因此在刚开始，目标的轨迹是预测不到的，或者说预测得不准。所以在刚开始的几帧，我们还是需要使用原来的方式进行对比关联。

[AI开发]基于深度学习的视频多目标跟踪实现的更多相关文章

[AI开发]将深度学习技术应用到实际项目
本文介绍如何将基于深度学习的目标检测算法应用到具体的项目开发中,体现深度学习技术在实际生产中的价值,算是AI算法的一个落地实现.本文算法部分可以参见前面几篇博客: [AI开发]Python+Tenso ...
[AI开发]基于DeepStream的视频结构化解决方案
视频结构化的定义利用深度学习技术实时分析视频中有价值的内容,并输出结构化数据.相比数据库中每条结构化数据记录,视频.图片.音频等属于非结构化数据,计算机程序不能直接识别非结构化数据,因此需要先将这些 ...
AI面试必备/深度学习100问1-50题答案解析
AI面试必备/深度学习100问1-50题答案解析 2018年09月04日 15:42:07 刀客123 阅读数 2020更多分类专栏: 机器学习转载:https://blog.csdn.net ...
基于深度学习的人脸性别识别系统（含UI界面，Python代码）
摘要:人脸性别识别是人脸识别领域的一个热门方向,本文详细介绍基于深度学习的人脸性别识别系统,在介绍算法原理的同时,给出Python的实现代码以及PyQt的UI界面.在界面中可以选择人脸图片.视频进行检 ...
基于深度学习的安卓恶意应用检测----------android manfest.xml + run time opcode, use 深度置信网络（DBN）
基于深度学习的安卓恶意应用检测 from:http://www.xml-data.org/JSJYY/2017-6-1650.htm 苏志达, 祝跃飞, 刘龙摘要: 针对传统安卓恶意程序检测 ...
基于深度学习的病毒检测技术无需沙箱环境，直接将样本文件转换为二维图片，进而应用改造后的卷积神经网络 Inception V4 进行训练和检测
话题 3: 基于深度学习的二进制恶意样本检测分享主题:全球正在经历一场由科技驱动的数字化转型,传统技术已经不能适应病毒数量飞速增长的发展态势.而基于沙箱的检测方案无法满足 APT 攻击的检测需求,也 ...
【RS】Deep Learning based Recommender System: A Survey and New Perspectives - 基于深度学习的推荐系统：调查与新视角
[论文标题]Deep Learning based Recommender System: A Survey and New Perspectives ( ACM Computing Surveys ...
回望2017，基于深度学习的NLP研究大盘点
回望2017,基于深度学习的NLP研究大盘点雷锋网百家号01-0110:31 雷锋网 AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 ...
行人重识别(ReID) ——基于深度学习的行人重识别研究综述
转自:https://zhuanlan.zhihu.com/p/31921944 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视 ...

随机推荐

Windows上设置Mozilla Thunderbird邮件客户端后台运行
作者:荒原之梦操作系统: Windows 10 Thunderbird版本: 52.6.0(32-bit) Thunderbird官网页面:https://www.mozilla.org/zh-CN ...
Fedora Linux中解决“xxx不在sudoers文件中”
问题描述: 在Fedora中执行一些操作时需要使用root权限,当我使用命令: sudo 想在普通用户中临时获得root权限时,却被提示: "xxx 不在 sudoers 文件中.此事将被报 ...
.NET Orm 性能测试
.NET Orm 性能测试简介 OrmBenchmark 这个项目主要是为了测试主要的Orm对于 SqlServer 数据库的查询并将数据转换成所需 POCO 对象的耗时情况(好吧,实际上不完全or ...
FPGA学习笔记（一）——初识FPGA
###### [该随笔部分内容转载自小梅哥] ######### FPGA(Field-Programmable Gate Array,现场可编程门阵列),正如其名,FPGA内部有大量的可 ...
在Ubuntu16.04上配置.Net Core 2 环境
一.安装.Net Core SDK 按照官方文档,执行以下命令安装SDK curl https://packages.microsoft.com/keys/microsoft.asc | gpg -- ...
ucloud中的udisk错误“Read-only file system”修复指南
当udisk写入数据提示错误:"Read-only file system",按照下面的方法修复: 1. 停止使用对应udisk的业务如果有未知的进程正在操作这个硬盘,可使用命 ...
css3绘制三角形
将div的宽和高设置为0:利用border-width.border-style.border-color属性绘制不同位置边框的样式.将不需要展示的三角颜色填充为transparent透明即可,就能得 ...
【BZOJ 4016】 [FJOI2014]最短路径树问题
题目链接: TP 题解: 我就是个智障.明明是道大水题,硬是拖了6h. 关于这道题我唯一想说的就是,记得更新拆分后的子树大小!!!我就是ZZ恒(QwQ. 代码: #define Troy 10/26 ...
【BZOJ 4010】 [HNOI2015]菜肴制作
Description 知名美食家小 A被邀请至ATM 大酒店,为其品评菜肴. ATM 酒店为小 A 准备了 N 道菜肴,酒店按照为菜肴预估的质量从高到低给予1到N的顺序编号,预估质量最高的菜肴编号为 ...
Bot Framework 搭建聊天机器人
这周我来跟大家分享的是在Microsoft Build 2016上发布的微软聊天机器人的框架. 现如今,各种人工智能充斥在我们的生活里.最典型的人工智能产品就是聊天机器人,它既可以陪我们聊天,也可以替 ...

[AI开发]基于深度学习的视频多目标跟踪实现

[AI开发]基于深度学习的视频多目标跟踪实现的更多相关文章

随机推荐

热门专题