【猫狗数据集】pytorch训练猫狗数据集之创建数据集

数据集下载地址：

链接：https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw
提取码：2xq4

猫狗数据集的分为训练集25000张，在训练集中猫和狗的图像是混在一起的，pytorch读取数据集有两种方式，第一种方式是将不同类别的图片放于其对应的类文件夹中，另一种是实现读取数据集类，该类继承torch.utils.Dataset，并重写__getitem__和__len__。

先将猫和狗从训练集中区分开来，分别放到dog和cat文件夹下：

import glob

import shutil

import os

#数据集目录

path = "./ml/dogs-vs-cats/train"

#训练集目录

train_path = path+'/train'

#测试集目录

test_path = path+'/test'

#将某类图片移动到该类的文件夹下

def img_to_file(path):

    print("=========开始移动图片============")

    #如果没有dog类和cat类文件夹，则新建

    if not os.path.exists(path+"/dog"):

            os.makedirs(path+"/dog")

    if not os.path.exists(path+"/cat"):

            os.makedirs(path+"/cat")

    print("共：{}张图片".format(len(glob.glob(path+"/*.jpg"))))

    #通过glob遍历到所有的.jpg文件

    for imgPath in glob.glob(path+"/*.jpg"):

        #print(imgPath)

        #使用/划分

        img=imgPath.strip("\n").replace("\\","/").split("/")

        #print(img)

        #将图片移动到指定的文件夹中

        if img[-1].split(".")[0] == "cat":

            shutil.move(imgPath,path+"/cat")

        if img[-1].split(".")[0] == "dog":

            shutil.move(imgPath,path+"/dog")

    print("=========移动图片完成============")

img_to_file(train_path)

print("训练集猫共：{}张图片".format(len(glob.glob(train_path+"/cat/*.jpg"))))

print("训练集狗共：{}张图片".format(len(glob.glob(train_path+"/dog/*.jpg"))))

然后从dog中和cat中分别抽取1250张，共2500张图片作为测试集。

import random

def split_train_test(fileDir,tarDir):

        if not os.path.exists(tarDir):

            os.makedirs(tarDir)

        pathDir = os.listdir(fileDir)    #取图片的原始路径

        filenumber=len(pathDir)

        rate=0.1    #自定义抽取图片的比例，比方说100张抽10张，那就是0.1

        picknumber=int(filenumber*rate) #按照rate比例从文件夹中取一定数量图片

        sample = random.sample(pathDir, picknumber)  #随机选取picknumber数量的样本图片

        print("=========开始移动图片============")

        for name in sample:

                shutil.move(fileDir+name, tarDir+name)

        print("=========移动图片完成============")

split_train_test(train_path+'/dog/',test_path+'/dog/')

split_train_test(train_path+'/cat/',test_path+'/cat/')

最终，我们就有以下结构了：

其中train包含22500张图片，其中dog类和cat类各11250张。test包含2500张图片，其中dog类和cat类各1250张。

发现测试集还是有点少，那就再来一遍了。

最后，train包含20250张图片，其中dog类和cat类各10125张。test包含4750张图片，其中dog类和cat类各2375张。

【猫狗数据集】pytorch训练猫狗数据集之创建数据集的更多相关文章

基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层，对每张图片得到一个 4096 维的特征向量，然后我们直接用这个特征向量替代原来的图片，再加若干层全连接的神经网络，对花朵数据集进行训练（属于模型迁移）
基于深度学习和迁移学习的识花实践(转) 深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 Tens ...
万字长文，以代码的思想去详细讲解yolov3算法的实现原理和训练过程，Visdrone数据集实战训练
以代码的思想去详细讲解yolov3算法的实现原理和训练过程,并教使用visdrone2019数据集和自己制作数据集两种方式去训练自己的pytorch搭建的yolov3模型,吐血整理万字长文,纯属干货 ...
Ubuntu14.04+caffe+cuda7.5 环境搭建以及MNIST数据集的训练与测试
Ubuntu14.04+caffe+cuda 环境搭建以及MNIST数据集的训练与测试一.ubuntu14.04的安装: ubuntu的安装是一件十分简单的事情,这里给出一个参考教程: http:/ ...
十折交叉验证10-fold cross validation, 数据集划分训练集验证集测试集
机器学习数据挖掘数据集划分训练集验证集测试集 Q:如何将数据集划分为测试数据集和训练数据集? A:three ways: 1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数 ...
一套兼容win和Linux的PyTorch训练MNIST的算法代码(CNN)
第一次,调了很久.它本来已经很OK了,同时适用CPU和GPU,且可正常运行的. 为了用于性能测试,主要改了三点: 一,每一批次显示处理时间. 二,本地加载测试数据. 三,兼容LINUX和WIN 本地加 ...
R语言实战读书笔记2—创建数据集(上)
第二章创建数据集 2.1 数据集的概念不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字 ...
深度学习识别CIFAR10：pytorch训练LeNet、AlexNet、VGG19实现及比较（三）
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com VGGNet在2014年ImageNet图像分类任务竞赛中有出色的表现.网络结构如下图所示: 同样的, ...
深度学习识别CIFAR10：pytorch训练LeNet、AlexNet、VGG19实现及比较（二）
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com AlexNet在2012年ImageNet图像分类任务竞赛中获得冠军.网络结构如下图所示: 对CIFA ...
STM32之独立看门狗(IWDG)与窗口看门狗(WWDG)总结
一.独立看门狗 STM32 的独立看门狗由内部专门的 40Khz 低速时钟驱动,即使主时钟发生故障,它也仍然有效. 看门狗的原理:单片机系统在外界的干扰下会出现程序跑飞的现象导致出现死循环,看门狗电路 ...

随机推荐

python编程练习题目
github上面的一个项目,分为level1,level2,level3 三个等级的难度. 题目地址一部分中文翻译 python教程剑指offer,python3实现 python进阶练习题1: ...
day05-装饰器作业
装饰器的重要内容 functools.wraps 带参数的装饰器多个装饰器装饰同一个函数一.编写一个装饰器,为多个函数添加登陆认证的功能.具体:只需要登录一次,后面被装饰的函数不需要重新登陆. F ...
Computing Essentials_第一章习题
iOS商城demo、音乐播放器、视频通话、自定义搜索、转场动画等源码
iOS精选源码微信自定义搜索框实现一个商城Demo,持续更新中在Object-C中学习数据结构与算法之排序算法 iOS 音乐播放器之锁屏歌词+歌词解析+锁屏效果 XLsn0wPushTimePi ...
Golang Slice 总结
数组 Go的切片是在数组之上的抽象数据类型,因此在了解切片之前必须要要理解数组.数组类型由指定和长度和元素类型定义.数组不需要显式的初始化:数组元素会自动初始化为零值:Go的数组是值语义.一个数组变量 ...
jenkins配置搭建环境
1.安装及运行 (1)下载 http://updates.jenkins-ci.org/latest/jenkins.war (2)运行两种运行方式:一种是基于tomcat.Jdk启动,一种是基于D ...
springboot oauth 鉴权之——授权码authorization_code鉴权
近期一直在研究鉴权方面的各种案例,这几天有空,写一波总结及经验. 第一步:什么是 OAuth鉴权 OAuth2是工业标准的授权协议.OAuth2取代了在2006创建的原始OAuthTM协议所做的工作. ...
Laravel Study（使用 Laravel ）
開始伺服器及相關工具安裝自行建立,在伺服器跟目錄下有兩種方式建立 Laravel 專案,這裡使用 composer 建立專案使用 composer 要在 PHP 5.3.2 以上才能使用 com ...
Java-Springboot-集成spring-security简单示例(Version-springboot-2-1-3-RELEASE
使用Idea的Spring Initializr或者SpringBoot官网下载quickstart 添加依赖 1234 <dependency><groupId>org.sp ...
ZeroMQ，史上最快的消息队列
一.ZMQ 是什么阅读了 ZMQ 的 Guide 文档后,我的理解是,这是个类似于 Socket 的一系列接口,他跟 Socket 的区别是:普通的 socket 是端到端的(1:1的关系),而 Z ...

【猫狗数据集】pytorch训练猫狗数据集之创建数据集

【猫狗数据集】pytorch训练猫狗数据集之创建数据集的更多相关文章

随机推荐

热门专题