1.DataParallel layers (multi-GPU, distributed) 1)DataParallel CLASS torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=) 实现模块级别的数据并行 该容器是通过在batch维度上将输入分到指定的device中来在给定的module应用上实现并行.在前向传播中,模块module将在每个设备device上都复制一个,然后每个复制体都会处理一部分…