Pytorch自定义数据库

1）前言

虽然torchvision.datasets中已经封装了好多通用的数据集，但是我们在使用Pytorch做深度学习任务的时候，会面临着自定义数据库来满足自己的任务需要。如我们要训练一个人脸关键点检测算法，提供的训练数据标注如下形式，存在CSV文件中：

image_name,part_0_x,part_0_y,part_1_x,part_1_y,part_2_x, ... ,part_67_x,part_67_y

0805personali01.jpg,27,83,27,98, ... 84,134

1084239450_e76e00b7e7.jpg,70,236,71,257, ... ,128,312

在本次教程中，我们需要用到两个额外的包：

scikit-image: 用于图片io和转换
pandas: 用于解析csv文件

首先学习如何使用pandas库解析csv文件

import pandas as pd
landmarks_frame = pd.read_csv('data/faces/face_landmarks.csv')

n = 65

img_name = landmarks_frame.iloc[n, 0]

landmarks = landmarks_frame.iloc[n, 1:].as_matrix()

landmarks = landmarks.astype('float').reshape(-1, 2)

print('Image name: {}'.format(img_name))

print('Landmarks shape: {}'.format(landmarks.shape))

print('First 4 Landmarks: {}'.format(landmarks[:4]))

2）自定义数据库

torch.utils.data.Dataset是一个表示数据库的抽象类，自定义数据库需要继承这个类，并且重写其以下方法：

__len__ ：返回数据库的大小.

__getitem__ ：支持使用下标的方式 如dataset[i] 来获取第i个样本

以下创建人脸特征点检测的数据库。我们将在__init__中解析csv文件，而在__getitem__中读取图片。这样可以在需要图片是才加载，内存效率高。此外，我们还可以先将数据集封装成lmdb数据库，读取速度更快。

import torch.utils.data.Dataset as Dataset

class FaceLandmarksDataset(Dataset):

    """Face Landmarks dataset."""

    def __init__(self, csv_file, root_dir, transform=None):

        """

        Args:

            csv_file (string): 到达标注文件cvs的路径.

            root_dir (string): 所有图片的根目录.

            transform (callable, optional): （可选参数）对每一个样本进行转换.

        """

        self.landmarks_frame = pd.read_csv(csv_file)

        self.root_dir = root_dir

        self.transform = transform

    def __len__(self):

        return len(self.landmarks_frame)

    def __getitem__(self, idx):

        img_name = os.path.join(self.root_dir,self.landmarks_frame.iloc[idx, 0]) #第idx条数据的第一个字段，即文件名称

        image = io.imread(img_name)                           #读取图像数据

        landmarks = self.landmarks_frame.iloc[idx, 1:].as_matrix() #读取第idx条数据的第二个字段及其之后的所有字段，即所有关键点的坐标。然后转成矩阵形式

        landmarks = landmarks.astype('float').reshape(-1, 2)  #将矩阵reshape成n行两列矩阵

        sample = {'image': image, 'landmarks': landmarks}     #封装数据

        if self.transform:

            sample = self.transform(sample)                   #数据转换

        return sample                                         #返回数据

注：__getitem__每次只返回一个条数据，至于batch的封装可以在DataLoader中设置batchsize，至于读取速度可以设置num_worker。

Pytorch自定义数据库的更多相关文章

EF之MSSQL分布式部署一：EFContext自定义数据库链接
不废话,上代码: 来源:http://bbs.csdn.net/topics/390823046 原文地址:EF之MSSQL分布式部署一:EFContext自定义数据库链接 /// <sum ...
Django学习笔记第十二篇--关于自定义数据库字段数据类型
一.需求背景: django的models模块提供了很多数据字段的数据类型field,但是总有写奇葩需求不能依靠默认字段满足,所以需要自定义数据数据库数据字段类型.所有的自定义field应该在app路 ...
ASP.NET Core Identity自定义数据库结构和完全使用Dapper而非EntityFramework Core
前言原本本节内容是不存在的,出于有几个人问到了我:我想使用ASP.NET Core Identity,但是我又不想使用默认生成的数据库表,想自定义一套,我想要使用ASP.NE Core Identi ...
Spring Security教程(二)：自定义数据库查询
Spring Security教程(二):自定义数据库查询 Spring Security自带的默认数据库存储用户和权限的数据,但是Spring Security默认提供的表结构太过简单了,其实就 ...
与你相遇好幸运，Sails.js自定义数据库名
在/api/models/下,自定义的.js文件内容 module.exports = { tableName: '自定义的数据库名', autoCreatedAt: false, //关闭 au ...
wordpress自定义数据库出错页面
wordpress数据连接出错时,会有一个空白页面,有一行字:数据连接错误.这样当然不美观,好在这个页面是可以自定义的. 在/wp-content/目录下创建'db-error.php'文件,当数据库 ...
【Spring Security】三、自定义数据库实现对用户信息和权限信息的管理
一自定义表结构这里还是用的mysql数据库,所以pom.xml文件都不用修改.这里只要新建三张表即可,user表.role表.user_role表.其中user用户表,role角色表为保存用户权限 ...
[转载]pytorch自定义数据集
为什么要定义Datasets: PyTorch提供了一个工具函数torch.utils.data.DataLoader.通过这个类,我们在准备mini-batch的时候可以多线程并行处理,这样可以加快 ...
[pytorch] 自定义激活函数中的注意事项
如何在pytorch中使用自定义的激活函数? 如果自定义的激活函数是可导的,那么可以直接写一个python function来定义并调用,因为pytorch的autograd会自动对其求导. 如果自定 ...

随机推荐

MT【128】不动点指路
已知数列$\{a_n\}$满足$2a_{n+1}=1-a_n^2$,且$0<a_1<1$．求证:当$n\geqslant 3$ 时,\(\left|\dfrac{1}{a_ ...
javascript循环事件只响应最后一次的问题处理
在所有的面向对象编程语言中,只要涉及到逻辑的代码,常见的问题都是循环创建很多个对象UI,在循环体中对这些对象添加事件.如果不做处理,和其他地方一样的添加事件,其结果都是只响应最后一次循环之后的结果.原 ...
java多线程 -- ForkJoinPool 分支/ 合并框架工作窃取
Fork/Join 框架:就是在必要的情况下,将一个大任务,进行拆分(fork)成若干个小任务(拆到不可再拆时),再将一个个的小任务运算的结果进行 join 汇总. Fork/Join 框架与线程池的 ...
bzoj 4519: [Cqoi2016]不同的最小割最小割树
怎么求一张无向图中任意两点之间的最小割? http://fanhq666.blog.163.com/blog/static/8194342620113495335724/ 一张无向图不同的最小割最多有 ...
[学习笔记]平衡树（Splay）——旋转的灵魂舞蹈家
1.简介首先要知道什么是二叉查找树. 这是一棵二叉树,每个节点最多有一个左儿子,一个右儿子. 它能支持查找功能. 具体来说,每个儿子有一个权值,保证一个节点的左儿子权值小于这个节点,右儿子权值大于这 ...
tp 用group去重
$baseGoodIds_arr = [1,2,3,4,5,6,7,8,9];$relate_gimgs = D('GoodsImages')->where(['good_id' => [ ...
Git2：Git基本操作
目录一.git全局配置二.创建一个版本库三.git的常用操作 1.版本提交与回退 1.1.版本提交 1.2.版本回退 2.工作区.版本库与暂存区 2.1.工作区 2.2.版本库 3.管理文件的修 ...
docker日志引擎说明
docker原生支持众多的日志引擎,适用于各种不同的应用场景,本篇文档对其作一个简单的说明. Docker日志引擎说明 docker支持的日志引擎如下: none:关闭docker的回显日志, doc ...
《剑指offer》面试题39 二叉树的深度（java）
摘要: 今天翻到了<剑指offer>面试题39,题目二中的解法二是在函数的参数列表中通过指针的方式进行传值,而java是没有指针的,所以函数要进行改造.然而我翻了下别人的java版本(我就 ...
数据库sharding系列好文收藏
部分摘自于:http://my.oschina.net/u/188625/blog/104743 1. 又拍网架构中的数据库分库设计 . http://blog.csdn.net/nanjingjia ...

Pytorch自定义数据库

1）前言

2）自定义数据库

Pytorch自定义数据库的更多相关文章

随机推荐

热门专题