%matplotlib inline

数据并行（选读）

Authors: Sung Kim and Jenny Kang

在这个教程里，我们将学习如何使用 DataParallel 来使用多GPU。

PyTorch非常容易就可以使用多GPU，用如下方式把一个模型放到GPU上：



    device = torch.device("cuda:0")

    model.to(device)

GPU:

然后复制所有的张量到GPU上：



    mytensor = my_tensor.to(device)

请注意，只调用my_tensor.to(device)并没有复制张量到GPU上，而是返回了一个copy。所以你需要把它赋值给一个新的张量并在GPU上使用这个张量。

在多GPU上执行前向和反向传播是自然而然的事。

但是PyTorch默认将只使用一个GPU。

使用DataParallel可以轻易的让模型并行运行在多个GPU上。



    model = nn.DataParallel(model)

这才是这篇教程的核心，接下来我们将更详细的介绍它。

导入和参数

导入PyTorch模块和定义参数。

import torch

import torch.nn as nn

from torch.utils.data import Dataset, DataLoader

# Parameters and DataLoaders

input_size = 5

output_size = 2

batch_size = 30

data_size = 100

Device

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

虚拟数据集

制作一个虚拟（随机）数据集，

你只需实现 __getitem__

class RandomDataset(Dataset):

    def __init__(self, size, length):

        self.len = length

        self.data = torch.randn(length, size)

    def __getitem__(self, index):

        return self.data[index]

    def __len__(self):

        return self.len

rand_loader = DataLoader(dataset=RandomDataset(input_size, data_size), batch_size=batch_size, shuffle=True)

简单模型

作为演示，我们的模型只接受一个输入，执行一个线性操作，然后得到结果。

说明：DataParallel能在任何模型（CNN，RNN，Capsule Net等）上使用。

我们在模型内部放置了一条打印语句来打印输入和输出向量的大小。

请注意批次的秩为0时打印的内容。

class Model(nn.Module):

    # Our model

    def __init__(self, input_size, output_size):

        super(Model, self).__init__()

        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):

        output = self.fc(input)

        print("\tIn Model: input size", input.size(),

              "output size", output.size())

        return output

创建一个模型和数据并行

这是本教程的核心部分。

首先，我们需要创建一个模型实例和检测我们是否有多个GPU。

如果有多个GPU，使用nn.DataParallel来包装我们的模型。

然后通过mmodel.to(device)把模型放到GPU上。

model = Model(input_size, output_size)

if torch.cuda.device_count() > 1:

  print("Let's use", torch.cuda.device_count(), "GPUs!")

  # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs

  model = nn.DataParallel(model)

model.to(device)

Model(

  (fc): Linear(in_features=5, out_features=2, bias=True)

)

运行模型

现在可以看到输入和输出张量的大小。

for data in rand_loader:

    input = data.to(device)

    output = model(input)

    print("Outside: input size", input.size(),

          "output_size", output.size())

	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

	In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

	In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

结果

当没有或者只有一个GPU时，对30个输入和输出进行批处理，得到了期望的一样得到30个输入和输出，但是如果你有多个GPU，你得到如下的结果。

2 GPUs

~

If you have 2, you will see:

.. code:: bash

# on 2 GPUs

Let's use 2 GPUs!

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])

    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

3 GPUs

~

If you have 3 GPUs, you will see:

.. code:: bash

Let's use 3 GPUs!

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

8 GPUs

~~

If you have 8, you will see:

.. code:: bash

Let's use 8 GPUs!

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])

Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

总结

DataParallel会自动的划分数据，并将作业发送到多个GPU上的多个模型。

并在每个模型完成作业后，收集合并结果并返回。

PyTorch Tutorials 5 数据并行（选读）的更多相关文章

PyTorch Data Parrallel数据并行
PyTorch Data Parrallel数据并行可选择:数据并行处理本文将学习如何用 DataParallel 来使用多 GPU. 通过 PyTorch 使用多个 GPU 非常简单.可以将模型 ...
[源码解析] PyTorch分布式优化器(2)----数据并行优化器
[源码解析] PyTorch分布式优化器(2)----数据并行优化器目录 [源码解析] PyTorch分布式优化器(2)----数据并行优化器 0x00 摘要 0x01 前文回顾 0x02 DP 之 ...
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler
[源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler 目录 [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampl ...
[源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader
[源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 目录 [源码解析] PyTorch 分布式(2) --- 数据加载之DataLoader 0x00 摘要 0x01 ...
C#并行编程之数据并行
所谓的数据并行的条件是: 1.拥有大量的数据. 2.对数据的逻辑操作都是一致的. 3.数据之间没有顺序依赖. 运行并行编程可以充分的利用现在多核计算机的优势.记录代码如下: public class ...
C#并行编程-PLINQ:声明式数据并行
目录 C#并行编程-相关概念 C#并行编程-Parallel C#并行编程-Task C#并行编程-并发集合 C#并行编程-线程同步原语 C#并行编程-PLINQ:声明式数据并行背景通过LINQ可 ...
C#并行编程--命令式数据并行（Parallel.Invoke）---与匿名函数一起理解（转载整理）
命令式数据并行 Visual C# 2010和.NETFramework4.0提供了很多令人激动的新特性,这些特性是为应对多核处理器和多处理器的复杂性设计的.然而,因为他们包括了完整的新的特性,开 ...
深度神经网络DNN的多GPU数据并行框架及其在语音识别的应用
深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点,产生了广泛的应用.DNN具有深层结构.数千万参数需要学习,导致训练非常耗时.GPU有强大的计算能 ...
【深度学习系列2】Mariana DNN多GPU数据并行框架
[深度学习系列2]Mariana DNN多GPU数据并行框架本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架. 深度神经网络( ...

随机推荐

【Java】接口和抽象类总结
一.接口 1.1 成员变量(其实是常量) 1.2 方法二.抽象类 2.1 成员变量 2.2 方法一.接口 1.1 成员变量(其实是常量) 成员变量默认用 public static final修饰 ...
【charlse】charlse功能
(一)主界面介绍一.工具导航栏 Charles 顶部为菜单导航栏,菜单导航栏下面为工具导航栏.视图如下图所示: 工具导航栏中提供了几种常用工具: :清除捕获到的所有请求 :红点状态说明正在捕获请 ...
CentOS7安装CDH 第十章：CDH中安装Spark2
相关文章链接 CentOS7安装CDH 第一章:CentOS7系统安装 CentOS7安装CDH 第二章:CentOS7各个软件安装和启动 CentOS7安装CDH 第三章:CDH中的问题和解决方法 ...
Linux命令——column
参考:Viewing Linux output in columns 功能 column命令把他的输入格式化多列显示.输入可以是文件,也可以是标准输入. 列优先,从左到右显示的时候首先填满最左列,然 ...
Codeforces Round #511 (Div. 2) C. Enlarge GCD （质因数）
题目题意: 给你n个数a[1]...a[n],可以得到这n个数的最大公约数, 现在要求你在n个数中尽量少删除数,使得被删之后的数组a的最大公约数比原来的大. 如果要删的数小于n,就输出要删的数的个 ...
【邻接矩阵+基础BFS】PAT-L3-008. 喊山
L3-008. 喊山一个山头呼喊的声音可以被临近的山头同时听到.题目假设每个山头最多有两个能听到它的临近山头.给定任意一个发出原始信号的山头,本题请你找出这个信号最远能传达到的地方.[何为最远?大致 ...
系统间HTTP调用代码封装
痛点最近接手一个老项目,这个项目几经转手,到我这里时,发现代码的可阅读性实在是很差,对于一个有点代码洁癖的我来说,阅读起来实在是很难受.其中一个痛点,现在就拉出来讲讲.该项目需要与另外一个项目进行业 ...
Session&Cookie&localStorage浅谈
Session&Cookie&localStorage 领导让我开发一个有两张信息表单需要提交页面的网站,我作为一名开发人员,这个需求太简单了,和领导说直接存session sessi ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
大数据之路week06--day07（虚拟机的克隆）
1.安装vmware,务必以管理员身份运行操作系统(CentOS 6.5)的配置准备工作:虚拟机安装三台linux 本次测试是 centos 6.5,(三台虚拟机的系统时间保持一致) *安装jd ...

PyTorch Tutorials 5 数据并行（选读）

数据并行（选读）

导入和参数

虚拟数据集

简单模型

创建一个模型和数据并行

运行模型

结果

总结

PyTorch Tutorials 5 数据并行（选读）的更多相关文章

随机推荐

热门专题