MNIST 源码解析】的更多相关文章

# Copyright 2015 Google Inc. All Rights Reserved. # # Licensed under the Apache License, Version 2.0 (the "License"); # you may not use this file except in compliance with the License. # You may obtain a copy of the License at # # http://www.apa…
[源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 目录 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 0x00 摘要 0x01 Horovod 简介 0x02 Hovorod 机制概述 2.1 Horovod 机制 0x03 示例代码 3.1 摘要代码 3.2 horovodrun 0x04 运行逻辑 4.1 引入python文件 4.2 初始化 in python 4.2.1 引入SO库 4.2.1.1 SO库 4…
[源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer 目录 [源码解析] 深度学习分布式训练框架 horovod (7) --- DistributedOptimizer 0x00 摘要 0x01 背景概念 1.1 深度学习框架 1.2 Tensorflow Optimizer 0x02 总体架构 2.1 总体思路 3.2 总体调用关系 0x04 TensorFlow 1.x 4.1 _DistributedOptimizer 4.2 c…
[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 目录 [源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 0x00 摘要 0x01 背景知识 1.1 Kubernetes 1.2 容器作为调度单元 1.3 Kubeflow 1.4 Tensorflow on Kubeflow 1.5 Operator 1.6 TF-Operator 0x02 TensorFlow 分布…
[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 目录 [源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练 0x00 摘要 0x01 总论 0x02 Sampler 2.1 PyTorch Distributed Optimizer 2.1.1 定义 2.1.2 问题点 2.2 ElasticSampler 2.2.1 定义 2.2.2 弹性方案 2.2.2.1 常规流程 2.2.2.2 异常处理 2.2.1 如何使用 2…
[源码解析] PyTorch 分布式(4)------分布式应用基础概念 目录 [源码解析] PyTorch 分布式(4)------分布式应用基础概念 0x00 摘要 0x01 基本概念 0x02 设计思路 2.1 通信需求 2.2 概念 0x03 设置 0x04 点对点通信 0x05 集合通信 0x06 分布式训练 0x07 Ring-Allreduce 0x08 高级主题 8.1 通信后端 8.1.1 后端种类 8.1.2 使用哪个后端? 8.1.3 Gloo 后端 8.1.4 MPI后端…
[源码解析] PyTorch 分布式(15) --- 使用分布式 RPC 框架实现参数服务器 目录 [源码解析] PyTorch 分布式(15) --- 使用分布式 RPC 框架实现参数服务器 0x00 摘要 0x01 综述 0x02 基础网络 0x03 辅助函数 0x04 启动 4.1 启动方式 4.2 启动脚本 4.3 启动参数服务器 4.4 启动worker 4.5 建立参数服务器 0x05 TrainerNet 5.1 总体代码 5.2 生成参数服务器 5.3 建立rref 5.4 前向…
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 接口规范 2.2 MasterInterface 2.3 调用 3. LocalMaster 3.1 定义 3.2 注册 3.3 查找 3.4 功能 4. GrpcRemoteMaster 4.1 定义 4.2 功能 4.2.1 CreateSession 4.2.2 Master Service…
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache 目录 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache 1. WorkerCache 1.1 如何使用 1.2 配置 1.3 工厂类 1.3.1 ParseChannelSpec 1.3.2 NewGrpcChannelCache 1.3.3 NewGrpcWorkerCacheWithLocalWorker 1.4 WorkerCacheInterface 1.4.1 接口…
[源码解析] TensorFlow 分布式环境(5) --- Session 目录 [源码解析] TensorFlow 分布式环境(5) --- Session 1. 概述 1.1 Session 分类 1.2 会话流程 1.2.1 MasterSession 生命周期 1.2.2 WorkerSession 生命周期 2. GrpcSession 2.1 定义 2.2 注册&工厂类 2.3 创建GrpcSession 2.4 创建MasterSession 2.4.1 GrpcRemoteMa…