目标检测数据集The Object Detection Dataset

在目标检测领域，没有像MNIST或Fashion MNIST这样的小数据集。为了快速测试模型，我们将组装一个小数据集。首先，我们使用一个开源的3D Pikachu模型生成1000张不同角度和大小的Pikachu图像。然后，我们收集一系列背景图像，并在每个图像上随机放置一个Pikachu图像。我们使用MXNet提供的im2rec工具将图像转换为二进制RecordIO格式[1]。这种格式可以减少数据集在磁盘上的存储开销，提高读取效率。如果您想了解有关如何读取图像的更多信息，请参阅GluonCV工具包的文档。

1. Downloading the Dataset

可以直接从互联网上下载RecordIO格式的Pikachu数据集。

%matplotlib inline

from d2l import mxnet as d2l

from mxnet import gluon, image, np, npx

import os

npx.set_np()

#@save

d2l.DATA_HUB['pikachu'] = (d2l.DATA_URL + 'pikachu.zip',

'68ab1bd42143c5966785eb0d7b2839df8d570190')

2. Reading the Dataset

我们将通过创建实例imageDediter来读取对象检测数据集。名称中的“Det”是指检测。我们将随机读取训练数据集。因为数据集的格式是RecordIO，所以我们需要图像索引文件'train.idx'读取随机的小批量。此外，对于训练集的每个图像，我们将使用随机裁剪，并要求裁剪后的图像至少覆盖每个对象的95%。由于裁剪是随机的，这一要求并不总是满足的。我们将随机裁剪尝试的最大次数设置为200次。如果它们都不符合要求，图像将不会被裁剪。为了确保输出的确定性，我们不会随机裁剪测试数据集中的图像。我们也不需要随机读取测试数据集。

#@save

def load_data_pikachu(batch_size, edge_size=256):

"""Load the pikachu dataset."""

data_dir = d2l.download_extract('pikachu')

train_iter = image.ImageDetIter(

path_imgrec=os.path.join(data_dir, 'train.rec'),

path_imgidx=os.path.join(data_dir, 'train.idx'),

batch_size=batch_size,

data_shape=(3, edge_size, edge_size), # The shape of the output image

shuffle=True, # Read the dataset in random order

rand_crop=1, # The probability of random cropping is 1

min_object_covered=0.95, max_attempts=200)

val_iter = image.ImageDetIter(

path_imgrec=os.path.join(data_dir, 'val.rec'), batch_size=batch_size,

data_shape=(3, edge_size, edge_size), shuffle=False)

return train_iter, val_iter

下面，我们阅读一个小批量，并打印图像和标签的形状。图像的形状与前一个实验中相同（批量大小、通道数、高度、宽度）(batch size, number of channels, height, width)。标签的形状是（批量大小，m，5）(batch size, mm, 5)，其中m等于数据集中单个图像中包含的最大边界框数。虽然小批量的计算非常高效，但它要求每个图像包含相同数量的边界框，以便将它们放置在同一批中。因为每个图像可能有不同数量的边界框，我们可以添加非法的边界框到少于m边界框，直到每个图像包含m边界框。因此，我们每次都可以读取一小批图像。图像中每个边界框的标签由长度为5的数组表示。数组中的第一个元素是边界框中包含的对象的类别。当值为-1时，边界框是非法的填充边界框。数组的其余四个元素表示x、y、边界框左上角和边界框右下角的轴坐标（值范围在0和1之间）。这里的Pikachu数据集每个图像只有一个边界框，因此m=1。

batch_size, edge_size = 32, 256

train_iter, _ = load_data_pikachu(batch_size, edge_size)

batch = train_iter.next()

batch.data[0].shape, batch.label[0].shape

Downloading ../data/pikachu.zip from http://d2l-data.s3-accelerate.amazonaws.com/pikachu.zip...

((32, 3, 256, 256), (32, 1, 5))

3. Demonstration

我们有十张图片，上面有边框。我们可以看到Pikachu的角度、大小和位置在每个图像中都是不同的。当然，这是一个简单的人工数据集。在实际操作中，数据通常要复杂得多。

imgs = (batch.data[0][0:10].transpose(0, 2, 3, 1)) / 255

axes = d2l.show_images(imgs, 2, 5, scale=2)

for ax, label in zip(axes, batch.label[0][0:10]):

d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])

4. Summary

The Pikachu dataset we synthesized can be used to test object detection models.
The data reading for object detection is similar to that for image classification. However, after we introduce bounding boxes, the label shape and image augmentation (e.g., random cropping) are changed.

目标检测数据集The Object Detection Dataset的更多相关文章

第三十四节，目标检测之谷歌Object Detection API源码解析
我们在第三十二节,使用谷歌Object Detection API进行目标检测.训练新的模型(使用VOC 2012数据集)那一节我们介绍了如何使用谷歌Object Detection API进行目标检 ...
项目总结三：目标检测项目（Car detection with YOLOv2）
1. the YOLO model (YOLO ,you only look once) (1)We will use 5 anchor boxes. So you can think of the ...
faster-rcnn 目标检测数据集制作
本文的目标是制作目标检测的数据集使用的工具是 python + opencv 实现目标 1.批量图片重命名,手动框选图片中的目标,将目标框按照一定格式保存到txt中图片名格式(批量) .jpg . ...
第三十二节，使用谷歌Object Detection API进行目标检测、训练新的模型(使用VOC 2012数据集)
前面已经介绍了几种经典的目标检测算法,光学习理论不实践的效果并不大,这里我们使用谷歌的开源框架来实现目标检测.至于为什么不去自己实现呢?主要是因为自己实现比较麻烦,而且调参比较麻烦,我们直接利用别人的 ...
ILSVRC2016目标检测任务回顾——视频目标检测（VID）
转自知乎<深度学习大讲堂> 雷锋网(公众号:雷锋网)按:本文作者王斌,中科院计算所前瞻研究实验室跨媒体计算组博士生,导师张勇东研究员.2016年在唐胜副研究员的带领下,作为计算所MCG-I ...
AI佳作解读系列(五) －目标检测二十年技术综述
计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶.视频监控.机器人视觉等,而被研究学者广泛关注. 上周四,arXiv新出一篇目标检测文献<Object Detection ...
ICCV2021 | TOOD：任务对齐的单阶段目标检测
前言单阶段目标检测通常通过优化目标分类和定位两个子任务来实现,使用具有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位.本文提出了一种任务对齐的一阶段目标检测(TOOD) ...
CVPR2020论文解读：3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
ICCV2019论文点评：3D Object Detect疏密度点云三维目标检测
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测 STD: Sparse-to-Dense 3D Object Detector for Point Cloud 论文链 ...

随机推荐

hdu2067 简单dp或者记忆化搜索
题意: 小兔的棋盘 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Sub ...
WAF、流控设备、堡垒机
目录 WAF 流控设备堡垒机 WAF WAF(Web Application Firewall):web防火墙,WAF是通过执行一系列针对HTTP/HTTPS的安全策略来专门对web应用提供保护的一 ...
POJ2431贪心（最少加油次数）
题意: 给一个终点,然后给你一个卡车距离终点的距离,还有其他个加油站距离终点的距离,然后每走一个单位距离要花费一个单位油,卡车的邮箱是无限大的,而每个加油站的油量是有限的,整个路径是一个 ...
Windows PE导出表编程3（暴力覆盖导出函数）
今天要尝试的导出表相关编程内容是:覆盖函数地址部分的指令代码. 这种覆盖技术,是将AddressOfFunctions指向的地址空间指令字节码实施覆盖,这种技术又繁衍出两种: 暴力覆盖,即将所有的代码 ...
Python中根据库包名学习使用该库包
目录 Python库包模块 import 语句 from-import 语句搜索路径 PYTHONPATH 变量命名空间和作用域查看模块中所有变量和函数,以及查看具体函数的用法 globals( ...
.Net 中两分钟集成敏感词组件
现如今大部分服务都会有用户输入,为了服务的正常运行,很多时候不得不针对输入进行敏感词的检测.替换.如果人工做这样的工作,不仅效率低,成本也高.所以,先让代码去处理输入,成为了经济方便的途径.水弟在这里 ...
JAVA8 lambda表达式权威教程！
Java 8新特性----Stream流 jdk8是Java 语言开发的一个主要版本,它支持函数式编程,新的 JavaScript 引擎,新的日期 API,新的Stream API 等等.今天就重点介 ...
CRM系统实施中如何避免“踩雷”
CRM系统实施后,效果没有达到预期是很多企业出现的情况.而最主要的原因就是在实施之前没有足够的思考和相应的计划.那么,企业应如何避免CRM系统实施时"踩雷"?这里有几条建议希望可以 ...
深入源码，深度解析Java 线程池的实现原理
java 系统的运行归根到底是程序的运行,程序的运行归根到底是代码的执行,代码的执行归根到底是虚拟机的执行,虚拟机的执行其实就是操作系统的线程在执行,并且会占用一定的系统资源,如CPU.内存.磁盘.网 ...
[Python] 地图API
请求位置信息 https://restapi.amap.com/v3/place/text?keywords=北京大学&city=beijing&output=xml&offs ...

目标检测数据集The Object Detection Dataset

目标检测数据集The Object Detection Dataset的更多相关文章

随机推荐

热门专题