YOLO数据集划分（测试集和验证集）

在目标检测任务中，数据集的划分通常分为训练集和验证集，以便在训练模型时评估模型的性能。这个过程对于有效训练和评估目标检测模型非常重要。下面是划分目标检测数据集的一般步骤：``

数据集组织：

确保你的数据集中包含图像文件（通常为 ".jpg" 或 ".png"）和相应的标签文件，用于描述图像中的目标位置和类别。标签文件可以是类似于 YOLO 格式的 ".txt" 文件，也可以是其他目标检测任务中使用的格式。
划分比例选择：

确定训练集和验证集的划分比例。通常，常见的比例为 80-90% 的数据用于训练，而剩下的 10-20% 用于验证。这个比例可以根据你的数据量和任务的特性进行调整。
数据集划分代码：

编写代码来将数据集划分为训练集和验证集。这通常涉及将图像文件和相应的标签文件分别移动到两个不同的文件夹中。
文件夹结构：

为了方便管理，创建一个包含两个子文件夹（例如 "images" 和 "labels"）的文件夹，分别用于存储图像和标签文件。训练集和验证集各自都应该有这样的文件夹结构。
随机化和保持一一对应：

在划分数据集之前，通常会对数据集进行随机化处理，以确保训练集和验证集中的样本都是随机选择的。在划分过程中，要保持图像和标签的一一对应关系，以确保训练和验证的一致性。
数据集划分结果验证：

验证划分的结果是否符合预期。你可以检查训练集和验证集的文件数量，确保图像和标签仍然保持一一对应，并且确保文件夹结构正确。

import os

import random

import shutil

def split_dataset(srcDir, trainDir, valDir, split_ratio=0.9):

    """

    将数据集划分为训练集和验证集，并保存到相应的文件夹中。

    Parameters:

    - srcDir: 原始数据集文件夹路径，包含图像和标签文件。

    - trainDir: 训练集文件夹路径，包含 'images' 和 'labels' 子文件夹。

    - valDir: 验证集文件夹路径，包含 'images' 和 'labels' 子文件夹。

    - split_ratio: 数据集划分比例，默认为 0.9，表示将 90% 的数据用于训练集，10% 用于验证集。

    """

    os.makedirs(os.path.join(trainDir, 'images'), exist_ok=True)

    os.makedirs(os.path.join(trainDir, 'labels'), exist_ok=True)

    os.makedirs(os.path.join(valDir, 'images'), exist_ok=True)

    os.makedirs(os.path.join(valDir, 'labels'), exist_ok=True)

    # 获取数据集中所有文件的列表

    file_list = os.listdir(srcDir)

    random.shuffle(file_list)

    # 根据划分比例计算训练集和验证集的边界索引

    split_index = int(len(file_list) * split_ratio)

    train_files = file_list[:split_index]

    val_files = file_list[split_index:]

    # 将训练集数据移动到相应文件夹

    for file in train_files:

        if file.endswith('.jpg'):

            img_src = os.path.join(srcDir, file)

            label_src = os.path.join(srcDir, file[:-4] + '.txt')

            shutil.move(img_src, os.path.join(trainDir, 'images', file))

            shutil.move(label_src, os.path.join(trainDir, 'labels', file[:-4] + '.txt'))

    # 将验证集数据移动到相应文件夹

    for file in val_files:

        if file.endswith('.jpg'):

            img_src = os.path.join(srcDir, file)

            label_src = os.path.join(srcDir, file[:-4] + '.txt')

            shutil.move(img_src, os.path.join(valDir, 'images', file))

            shutil.move(label_src, os.path.join(valDir, 'labels', file[:-4] + '.txt'))

if __name__ == '__main__':

    # 输入文件夹路径

    srcDir = r"C:\Users\86159\Desktop\hat\all_data"

    trainDir = r'C:\Users\86159\Desktop\hat\train'

    valDir = r'C:\Users\86159\Desktop\hat\val'  

    # 调用函数划分数据集

    split_dataset(srcDir, trainDir, valDir)

YOLO数据集划分（测试集和验证集）的更多相关文章

【ML入门系列】（一）训练集、测试集和验证集
训练集.验证集和测试集这三个名词在机器学习领域极其常见,但很多人并不是特别清楚,尤其是后两个经常被人混用. 在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train ...
Matlab划分测试集和训练集
% x是原数据集,分出训练样本和测试样本 [ndata, D] = size(X); %ndata样本数,D维数 R = randperm(ndata); %1到n这些数随机打乱得到的一个随机数字序列 ...
9. 获得图片路径，构造出训练集和验证集，同时构造出相同人脸和不同人脸的测试集，将结果存储为.csv格式 1.random.shuffle(数据清洗) 2.random.sample(从数据集中随机选取2个数据) 3. random.choice(从数据集中抽取一个数据) 4.pickle.dump(将数据集写成.pkl数据)
1. random.shuffle(dataset) 对数据进行清洗操作参数说明:dataset表示输入的数据 2.random.sample(dataset, 2) 从dataset数据集中选取2 ...
LUA中将未分类数据分为测试集和训练集
require 'torch' require 'image' local setting = {parent_root = '/home/pxu/image'} function list_chil ...
使用KFold进行训练集和验证集的拆分，使用准确率和召回率来挑选合适的阈值(threshold) 1.KFold(进行交叉验证) 2.np.logical_and(两bool数组都是正即为正) 3.np.logical_not(bool数组为正即为反，为反即为正)
---恢复内容开始--- 1. k_fold = KFold(n_split, shuffle) 构造KFold的索引切割器 k_fold.split(indices) 对索引进行切割. 参数说明:n ...
csv数据集按比例分割训练集、验证集和测试集，即分层抽样的方法
一.一种比较通俗理解的分割方法 1.先读取总的csv文件数据: import pandas as pd data = pd.read_csv('D:\BaiduNetdiskDownload\weib ...
使用sklearn进行数据挖掘-房价预测(2)—划分测试集
使用sklearn进行数据挖掘系列文章: 1.使用sklearn进行数据挖掘-房价预测(1) 2.使用sklearn进行数据挖掘-房价预测(2)-划分测试集 3.使用sklearn进行数据挖掘-房价预 ...
sklearn数据集划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
ML基础 : 训练集，验证集，测试集关系及划分 Relation and Devision among training set, validation set and testing set
首先三个概念存在于有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...
[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习使用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验 ...

随机推荐

针对Python基本数据类型的操作
在学习Python语法前,请大家务必注意,Python是通过缩进来定义代码层次的,即同一层次的代码都是左对齐,而下个层次的代码块与当前代码块相比,会有4个空格的缩进. 这里缩进的空格数是约定俗成的,当 ...
ios-class-guard - iOS代码混淆与加固实践
目录 ios-class-guard - iOS代码混淆与加固实践摘要引言一.class-dump 二.ios-class-guard 混淆原理三.ios-class-guard 混淆结果 ...
开发中history和location
如何通过canvas实现电子签名
想要实现一个电子签名,可以支持鼠标签名,还能类似书法效果线条有粗有细,同时可以导出成图片. 一.实现连贯的划线 1)首先需要注册鼠标下压.鼠标放开.鼠标移出和鼠标移动事件,通过鼠标下压赋值downFl ...
单线程 Redis 如此快的 4 个原因
本文翻译自国外论坛 medium,原文地址:https://levelup.gitconnected.com/4-reasons-why-single-threaded-redis-is-so-fas ...
OpenShift image registry 概述
0. 前言 docker 镜像管理之 overlay2 最佳实践中介绍了 image 的底层逻辑联合文件系统和分层结构. image 存储在 registry 中,对于不同平台使用 registry ...
latex · markdown | 如何写矩阵和大公式
1 \left[\begin{array}{c} a & b \\ c & d \end{array}\right] 效果: \[\left[\begin{array}{c} a &a ...
深入理解Kafka核心设计及原理（六）：Controller选举机制，分区副本leader选举机制，再均衡机制
转载请注明出处:https://www.cnblogs.com/zjdxr-up/p/15026824.html 目录: 6.1.Kafka核心总控制器Controller 6.2.Controlle ...
MoeCTF 2023(西电CTF新生赛)WP
个人排名签到 hello CTFer 1.题目描述: [非西电] 同学注意: 欢迎你来到MoeCTF 2023,祝你玩的开心! 请收下我们送给你的第一份礼物: https://cyberchef.o ...
javase项目正常导入jar 包
1,在 java project 目录下新建 lib 文件夹 2,将 mysql 的 jar 包复制到新建的 lib 文件夹 3,选中 lib 下的 jar 包 , 右键点击选择 build pa ...

YOLO数据集划分（测试集和验证集）

YOLO数据集划分（测试集和验证集）的更多相关文章

随机推荐

热门专题