coco2017 Dataset EDA

对coco数据集的分析，近期忙着写论文，空余时间很少能写博文了。

EDA的代码放在结尾了，Github仓库里也有。仓库里还有其他的一些EDA分析，不定时更新。

训练集所有类别的数量分布情况：

训练集所有类别的尺寸分布情况：

验证集所有类别的数量分布情况：

验证集所有类别的尺寸分布情况：

EDA代码：

import os

import seaborn as sns

import pycocotools.coco

import matplotlib.pyplot as plt

root_dir = os.getcwd()

train_ann_fp = os.path.join(root_dir, 'annotations', 'instances_train2017.json')

val_ann_fp = os.path.join(root_dir, 'annotations', 'instances_val2017.json')

class COCO_EDA:

    def __init__(self, json_file, type='train'):

        self.COCO_SMALL_SCALE = 32

        self.COCO_MEDIUM_SCALE = 96

        self.json_file = json_file

        coco = pycocotools.coco.COCO(json_file)

        self.type = type

        self.imgs = coco.dataset['images']

        self.anns = coco.dataset['annotations']

        self.cats = coco.dataset['categories']

        self.img_ids = coco.getImgIds()

        self.ann_ids = coco.getAnnIds()

        self.cat_ids = coco.getCatIds()

        self.cat2imgs = coco.catToImgs

        self.img2anns = coco.imgToAnns

        self.imgs_num = len(self.imgs)

        self.objs_num = len(self.anns)

        # data to be collected

        self.small_objs_num = 0

        self.medium_objss_num = 0

        self.large_objss_num = 0

        self.small_objs = []

        self.medium_objs = []

        self.large_objs = []

        self.cat2objs = {}

        self.small_cat2objs = {}  # small objects classes distribution

        self.medium_cat2objs = {}  # medium objects classes distribution

        self.large_cat2objs = {}  # large objects classes distribution

        self.cat2objs_num = {}  # objects classes distribution

        self.small_cat2objs_num = {}  # small objects classes distribution

        self.medium_cat2objs_num = {}  # medium objects classes distribution

        self.large_cat2objs_num = {}  # large objects classes distribution

        # plot use data

        self.catid2name = {}  # 用于绘图中显示类别名字

        self.cats_plot = []  # coco 所有尺寸目标的类别分布

        self.small_cats_plot = []  # 小目标中每个类的分布情况

        self.medium_cats_plot = []  # 中目标中每个类的分布情况

        self.large_cats_plot = []  # 大目标中每个类的分布情况

        # 每个类的小，中，大目标的数量

        self.size_distribution = {}

def collect_data(coco):

    # collect small, medium, large objects

    for ann in coco.anns:

        if ann['area'] < coco.COCO_SMALL_SCALE ** 2:

            coco.small_objs_num += 1

            coco.small_objs.append(ann)

        elif ann['area'] < coco.COCO_MEDIUM_SCALE ** 2:

            coco.medium_objs.append(ann)

            coco.medium_objss_num += 1

        else:

            coco.large_objs.append(ann)

            coco.large_objss_num += 1

    for i in coco.cat_ids:

        coco.cat2objs[i] = []

        coco.small_cat2objs[i] = []

        coco.medium_cat2objs[i] = []

        coco.large_cat2objs[i] = []

        coco.cat2objs_num[i] = 0

        coco.small_cat2objs_num[i] = 0

        coco.medium_cat2objs_num[i] = 0

        coco.large_cat2objs_num[i] = 0

        coco.size_distribution[i] = []

    for i in coco.cats:

        coco.catid2name[i['id']] = i['name']

    # collect small, medium, large class distribution

    for i in coco.anns:

        coco.cat2objs[i['category_id']].append(i)

        coco.cat2objs_num[i['category_id']] += 1

        coco.cats_plot.append(coco.catid2name[i['category_id']])

        if i['area'] < coco.COCO_SMALL_SCALE ** 2:

            coco.small_cat2objs[i['category_id']].append(i)

            coco.small_cat2objs_num[i['category_id']] += 1

            coco.small_cats_plot.append(coco.catid2name[i['category_id']])

            coco.size_distribution[i['category_id']].append('s')

        elif i['area'] < coco.COCO_MEDIUM_SCALE ** 2:

            coco.medium_cat2objs[i['category_id']].append(i)

            coco.medium_cat2objs_num[i['category_id']] += 1

            coco.medium_cats_plot.append(coco.catid2name[i['category_id']])

            coco.size_distribution[i['category_id']].append('m')

        else:

            coco.large_cat2objs[i['category_id']].append(i)

            coco.large_cat2objs_num[i['category_id']] += 1

            coco.large_cats_plot.append(coco.catid2name[i['category_id']])

            coco.size_distribution[i['category_id']].append('l')

    assert len(coco.small_objs) == coco.small_objs_num == sum(coco.small_cat2objs_num.values())

    assert len(coco.medium_objs) == coco.medium_objss_num == sum(coco.medium_cat2objs_num.values())

    assert len(coco.large_objs) == coco.large_objss_num == sum(coco.large_cat2objs_num.values())

    assert len(coco.anns) == coco.objs_num == sum(coco.cat2objs_num.values())

def plot_coco_class_distribution(plot_data, plot_order, save_fp, plot_title, plot_y_heigh,

                                 plot_y_heigh_residual=[1800, 100]):

    # 绘制coco数据集的类别分布

    sns.set_style("whitegrid")

    plt.figure(figsize=(15, 8))  # 图片的宽和高，单位为inch

    plt.title(plot_title, fontsize=9)  # 标题

    plt.xlabel('class', fontsize=8)  # x轴名称

    plt.ylabel('counts', fontsize=8)  # y轴名称

    plt.xticks(rotation=90, fontsize=8)  # x轴标签竖着显示

    plt.yticks(fontsize=8)

    for x, y in enumerate(plot_y_heigh):

        if 'train' in save_fp:

            plt.text(x, y + plot_y_heigh_residual[0], '%s' % y, ha='center', fontsize=7, rotation=90)

        else:

            plt.text(x, y + plot_y_heigh_residual[1], '%s' % y, ha='center', fontsize=7, rotation=90)

    ax = sns.countplot(x=plot_data, palette="PuBu_r", order=plot_order)  # 绘制直方图，palette调色板，蓝色由浅到深渐变。

    # palette样式：https://blog.csdn.net/panlb1990/article/details/103851983

    plt.savefig(os.path.join(save_fp), dpi=500)

    plt.show()

def plot_size_distribution(plot_data, save_fp, plot_title, plot_order=['s', 'm', 'l']):

    sns.set_style("whitegrid")

    plt.figure(figsize=(21, 35))  # 图片的宽和高，单位为inch

    plt.subplots_adjust(left=0.1, bottom=0.1, right=0.9, top=0.9, wspace=1, hspace=1.5)  # 调整子图间距

    for idx, size_data in enumerate(plot_data.values()):

        plt.subplot(10, 8, idx + 1)

        plt.xticks(rotation=0, fontsize=18)  # x轴标签竖着显示

        plt.yticks(fontsize=18)

        plt.xlabel('size', fontsize=20)  # x轴名称

        plt.ylabel('count', fontsize=20)  # y轴名称

        plt.title(plot_title[idx], fontsize=24)  # 标题

        sns.countplot(x=size_data, palette="PuBu_r", order=plot_order)  # 绘制直方图，palette调色板，蓝色由浅到深渐变。

    plt.savefig(save_fp, dpi=500, pad_inches=0)

    plt.show()

def run_plot_coco_class_distribution(coco, save_dir):

    # # 绘制coco数据集的类别分布

    plot_order = [i for i in coco.catid2name.values()]

    plot_heigh = [i for i in coco.cat2objs_num.values()]

    save_fp = os.path.join(save_dir, f'coco_{coco.type}_class_distribution.png')

    plot_coco_class_distribution(coco.cats_plot, plot_order, save_fp, 'COCO train2017 class distribution', plot_heigh,

                                 plot_y_heigh_residual=[1800, 100])

    plot_heigh = [i for i in coco.small_cat2objs_num.values()]

    save_fp = os.path.join(save_dir, f'coco_{coco.type}_small_class_distribution.png')

    plot_coco_class_distribution(coco.small_cats_plot, plot_order, save_fp, 'COCO train2017 small class distribution',

                                 plot_heigh,

                                 plot_y_heigh_residual=[900, 50])

    plot_heigh = [i for i in coco.medium_cat2objs_num.values()]

    save_fp = os.path.join(save_dir, f'coco_{coco.type}_medium_class_distribution.png')

    plot_coco_class_distribution(coco.medium_cats_plot, plot_order, save_fp, 'COCO train2017 medium class distribution',

                                 plot_heigh, plot_y_heigh_residual=[900, 50])

    plot_heigh = [i for i in coco.large_cat2objs_num.values()]

    save_fp = os.path.join(save_dir, f'coco_{coco.type}_large_class_distribution.png')

    plot_coco_class_distribution(coco.large_cats_plot, plot_order, save_fp, 'COCO train2017 large class distribution',

                                 plot_heigh,

                                 plot_y_heigh_residual=[900, 50])

def run_plot_coco_size_distribution(coco, save_dir):

    # 绘制coco数据集各类别的尺寸分布

    plot_order = [i for i in coco.catid2name.values()]

    save_fp = os.path.join(save_dir, f'coco_{coco.type}_size_distribution.png')

    plot_size_distribution(coco.size_distribution, save_fp, plot_order)

if __name__ == '__main__':

    print("analyze coco train dataset...")

    print("-" * 50)

    coco_train = COCO_EDA(train_ann_fp, type='train')

    collect_data(coco_train)

    print("coco train images num:", coco_train.imgs_num)

    print("coco train objects num:", coco_train.objs_num)

    print("coco small objects num:", coco_train.small_objs_num)

    print("coco medium objects num:", coco_train.medium_objss_num)

    print("coco large objects num:", coco_train.large_objss_num)

    print("coco small objects percent:", coco_train.small_objs_num / coco_train.objs_num)

    print("coco medium objects percent:", coco_train.medium_objss_num / coco_train.objs_num)

    print("coco large objects percent:", coco_train.large_objss_num / coco_train.objs_num)

    run_plot_coco_class_distribution(coco_train, ".\\EDA")

    run_plot_coco_size_distribution(coco_train, ".\\EDA")

    print("-" * 50)

    print()

    print("analyze coco val dataset...")

    print("-" * 50)

    coco_val = COCO_EDA(val_ann_fp, type='val')

    collect_data(coco_val)

    print("coco val images num:", coco_val.imgs_num)

    print("coco val objects num:", coco_val.objs_num)

    print("coco small objects num:", coco_val.small_objs_num)

    print("coco medium objects num:", coco_val.medium_objss_num)

    print("coco large objects num:", coco_val.large_objss_num)

    print("coco small objects percent:", coco_val.small_objs_num / coco_val.objs_num)

    print("coco medium objects percent:", coco_val.medium_objss_num / coco_val.objs_num)

    print("coco large objects percent:", coco_val.large_objss_num / coco_val.objs_num)

    run_plot_coco_class_distribution(coco_val, ".\\EDA")

    run_plot_coco_size_distribution(coco_val, ".\\EDA")

    print("-" * 50)

coco2017 Dataset EDA的更多相关文章

斯坦福【概率与统计】课程笔记（二）：从EDA开始
探索性数据分析(Exploratory Data Analysis) 本节课程先从统计分析四步骤中的第二步:EDA开始. 课程定义了若干个术语,如果学习过机器学习的同学,应该很容易类比理解: popu ...
【机器学习入门与实践】数据挖掘-二手车价格交易预测（含EDA探索、特征工程、特征优化、模型融合等）
[机器学习入门与实践]数据挖掘-二手车价格交易预测(含EDA探索.特征工程.特征优化.模型融合等) note:项目链接以及码源见文末 1.赛题简介了解赛题赛题概况数据概况预测指标分析赛题数 ...
HTML5 数据集属性dataset
有时候在HTML元素上绑定一些额外信息,特别是JS选取操作这些元素时特别有帮助.通常我们会使用getAttribute()和setAttribute()来读和写非标题属性的值.但为此付出的代价是文档将 ...
C#读取Excel,或者多个excel表，返回dataset
把excel 表作为一个数据源进行读取 /// <summary> /// 读取Excel单个Sheet /// </summary> /// <param name=& ...
DataTable DataRow DataColumn DataSet
1.DataTable 数据表(内存) 2.DataRow DataTable 的行 3.DataColumn DataTable 的列 4.DataSet 内存中的缓存
C# DataSet装换为泛型集合
1.DataSet装换为泛型集合(注意T实体的属性其字段类型与dataset字段类型一一对应) #region DataSet装换为泛型集合 /// <summary> /// 利用反射和 ...
读取Simulink中Dataset类型的数据
http://files.cnblogs.com/files/pursuiting/%E5%80%92%E7%AB%8B%E6%91%86%E6%8E%A7%E5%88%B6%E7%B3%BB%E7% ...
RDD/Dataset/DataFrame互转
1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Datase ...
asp.net dataset 判断是否为空？
1,if(ds == null) 这是判断内存中的数据集是否为空,说明DATASET为空,行和列都不存在!! 2,if(ds.Tables.Count == 0) 这应该是在内存中存在一个DATASE ...
C#遍历DataSet中数据的几种方法总结
//多表多行多列的情况foreach (DataTable dt in YourDataset.Tables) //遍历所有的datatable{foreach (DataRow dr in dt.R ...

随机推荐

k8s实战之MySQL单实例部署
前面我们学习了k8s入门系列文章,了解了k8s的一些基础概念以及怎么使用.本篇文章将进行一个小小的实战,使用k8s来部署单机版的mysql数据库,基本涵盖到前面讲到的Namespace.Pod.Dep ...
Go和TinyGo
Go和TinyGo是两种不同的Go语言编译器,它们之间有以下几点区别: 目标平台: Go:Go语言编译器主要面向通用计算机平台,如Windows.Linux.macOS等. TinyGo:TinyGo ...
nginx部署SSL证书后，使用域名访问报错-net::ERR_SSL_PROTOCOL_ERROR
一.问题由来最近在做一个小程序的后台,自己去微信官网上查看了相关的规定,小程序正式发布时,要求比较严格,必须是使用https+域名访问,自己在阿里云购买了一个域名,可是没有备案.SSL证书去阿里云 ...
[非常重要] 通过ssh的方式提交github
通过ssh的方式提交github - 重要文章!!vscode提交github 原因: github的https的clone项目报错,所以改用ssh的方式 1 本地创建ssh秘钥目录是 .ssh 我 ...
C#项目管理引用的dll文件
这篇文章主要简单记录一下C#项目的dll文件管理方法,以便后期使用. 设置dll路径参考C#开发奇技淫巧三:把dll放在不同的目录让你的程序更整洁中间的方法一:配置App.config文件的pri ...
python librosa 实例解析
一概念 librosa是一个用于音乐和音频分析的python包.它提供了创建音乐信息检索系统所需的构建块. 核心函数: 二实例解析实例A,确认是否安装成功: import librosa ...
MediaCodec 低延时解码
介绍我们在使用Android的硬解进行解码时,如果是Android11以上则可以使用其特性低延迟,谷歌官方文档以下是Android 11支持的低时延特性: ANGLE支持:Android 11引入 ...
简单使用vim编辑器的用法
vim的使用笔记可以涵盖很多内容,以下是一些基本操作和常见命令的简要总结: 启动Vim 打开或创建文件:vim filename 基本模式切换正常模式(Normal Mode):启动时默认进入此模式 ...
虚幻引擎UE4如何实现打包后播放片头？其实超简单！
虚幻引擎作为一款全球性的3D实时开发工具,不仅在游戏行业,其在建筑.影视.医疗等行业也被广泛使用.作为开发人员,有时开发的UE虚幻引擎项目比较大,开始运行项目时需要等待较长的时间,还有些公司要求添加片 ...
3DCAT v2.1.3新版本发布，这三大功能更新你不容错过！
3DCAT实时渲染云在近期发布了新的公有云v2.1.3的版本,本次主要更新了应用页的三项功能「语音交互设置」.「多点触控」.「音频信号位深」. 小编将对这三项更新进行讲解: 1. 调整语音通讯机制新 ...

coco2017 Dataset EDA

训练集所有类别的数量分布情况：

训练集所有类别的尺寸分布情况：

验证集所有类别的数量分布情况：

验证集所有类别的尺寸分布情况：

EDA代码：

coco2017 Dataset EDA的更多相关文章

随机推荐

热门专题