四、Tensorflow的分布式训练

TensorFlow中的集群（cluster）指的是一系列能够针对图（Graph）进行分布式计算任务（task）。每个任务是同服务（server）相关联的。TensorFlow中的服务会包含一个用于创建session的主节点和至少一个用于图运算的工作节点，一个集群可以被拆分为一个活着多个作业（job），每个作业可以包含至少一个任务。

以下的例子是一个最简单的例子

1、服务端代码：

import tensorflow as tf

'''

运行命令：

python tensf_server_01 --job_name=ps --task_index=0

python tensf_server_01 --job_name=ps --task_index=0

python tensf_server_01 --job_name=work --task_index=0

python tensf_server_01 --job_name=work --task_index=1

python tensf_server_01 --job_name=work --task_index=2

'''

#1、配置服务器相关信息

#因为tensorflow底层代码中，默认就是使用ps和work分别表示两类不同的工作节点

#ps:变量／张量的初始化，存储相关节点

#work:变量／张量的计算／运算的相关节点

ps_host = ['127.0.0.1:33331','127.0.0.1:33332']

work_hosts = ['127.0.0.1:33333','127.0.0.1:33334','127.0.0.1:33335']

cluster = tf.train.ClusterSpec({'ps':ps_host,'work':work_hosts})

#2、定义一些运行参数（在运行该python文件的时候就可以制定这些参数了）

tf.app.flags.DEFINE_string('job_name',default_value='work',docstring="One of 'ps' or 'work'")

tf.app.flags.DEFINE_integer('task_index',default_value=0,docstring="Index of task within the job")

FLAGS = tf.app.flags.FLAGS

#2、启动服务

#_下划线表示占位符

def main(_):

    print(FLAGS.job_name)

    server = tf.train.Server(cluster,job_name=FLAGS.job_name,task_index=FLAGS.task_index)

    server.join()

if __name__ == '__main__':

    #底层默认会调用main方法

    tf.app.run()

2、client端的代码：

import tensorflow as tf

import numpy as np

#1、构建图

#表示使用ps的job，task:0表示使用第一个配置，也就是127.0.0.1:33331

with tf.device('/job:ps/task:0'):

    #构造函数

    x = tf.constant(np.random.rand(100).astype(np.float32))

with tf.device('/job:ps/task:1'):

    y = y = x * 0.2 +0.3

#2、运行

with tf.Session(target='grpc://127.0.0.1:33335',

                config=tf.ConfigProto(log_device_placement=True)) as sess:

    sess.run(y)

四、Tensorflow的分布式训练的更多相关文章

『TensorFlow』分布式训练_其三_多机分布式
本节中的代码大量使用『TensorFlow』分布式训练_其一_逻辑梳理中介绍的概念,是成熟的多机分布式训练样例一.基本概念 Cluster.Job.task概念:三者可以简单的看成是层次关系,tas ...
[翻译] 使用 TensorFlow 进行分布式训练
本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练,借此进入Strategy世界.
『TensorFlow』分布式训练_其一_逻辑梳理
1,PS-worker架构将模型维护和训练计算解耦合,将模型训练分为两个作业(job): 模型相关作业,模型参数存储.分发.汇总.更新,有由PS执行训练相关作业,包含推理计算.梯度计算(正向/反向 ...
『TensorFlow』分布式训练_其二_单机多GPU并行&GPU模式设定
建议比对『MXNet』第七弹_多GPU并行程序设计一.tensorflow GPU设置 GPU指定占用 gpu_options = tf.GPUOptions(per_process_gpu_mem ...
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 ...
[源码解析] TensorFlow 之分布式变量
[源码解析] TensorFlow 之分布式变量目录 [源码解析] TensorFlow 之分布式变量 1. MirroredVariable 1.1 定义 1.2 相关类 1.2.1 类体系 ...
文本分布式表示（二）：用tensorflow和word2vec训练词向量
看了几天word2vec的理论,终于是懂了一些.理论部分我推荐以下几篇教程,有博客也有视频: 1.<word2vec中的数学原理>:http://www.cnblogs.com/pegho ...
tensorflow分布式训练
https://blog.csdn.net/hjimce/article/details/61197190 tensorflow分布式训练 https://cloud.tencent.com/dev ...
TensorFlow Distribution(分布式中的数据读取和训练)
本文目的在介绍estimator分布式的时候,官方文档由于版本更新导致与接口不一致.具体是:在estimator分布式当中,使用dataset作为数据输入,在1.12版本中,数据训练只是datase ...

随机推荐

CSS中盒模型的理解
今天突然看到一篇关于CSS中盒模型的文章,忽然觉得自己竟然遗忘了很多小的地方,所以写一篇文章来记忆一下 (摘抄于千与千寻写的CSS盒子模型理解,并在自己基础上添加了一些东西,希望更完善,对大家有帮助) ...
.net core 命令行（仅作记录）
命令大全:dotnet 命令创建NuGet包:如何使用 .NET Core 命令行接口 (CLI) 工具创建 NuGet 包
金蝶K3外购入库单单价取数规则调整
涉及界面: 问题:财务抱怨外购入库单价格取错,单价多除了一次税率例如,采购单里面注明了价格是不含税15.3256 结果在外购入库单里面,又自做主张除以税率17%,把采购成本搞成了13.0988, 咨 ...
python崩溃到现在居然还没有放弃的Day07
今天新入一个全新的知识面,叫做深浅拷贝,拷贝英文名copy,俗称复制,作为一个火影迷就会想到拷贝忍者旗木卡卡西,跑题了,在所有的数据存储时,都会有内存地址和存储地址,浅拷贝只拷贝第一层的内存地址,深拷 ...
dicom错误解决
https://github.com/pydicom/pydicom/issues/331 sudo apt-get install python-gdcm
从Linux 与 Unix 异同，看开源世界的发展！
从Linux 与 Unix 异同,看开源世界的发展! 如果你是一名20多岁或30多岁的软件开发人员,那么你已成长在一个由Linux主导的世界中.数十年来,它一直是数据中心的重要参与者,尽管很难找到明确 ...
dump文件解析之探索.Net的内存
前言: 对于需要长时间运行的.net程序,有时需要我们查看内存的使用有没有内存泄露问题. 我们可以从dump文件中找到答案. Dump的看点用dump文件来分析内存,到底我们需要关心哪些点呢? 内存 ...
类String 常用方法
字符串当中的常用方法之比较相关的方法 public boolean equals (object obj):将此字符串与指定的对象进行比较(只有参数是字符串并且内容相同才会返回true) public ...
C# 菜单之递归算法
今天因为菜单的问题, 需要用到递归算法, 在此记录一下: 1.表结构如下:(这里只是展示两个比较重要的字段) ,大家应该都看明白 2.先定义一个菜单结构类. 3.实现递归. private List& ...
03-MySQL表操作
MySQL表操作 1.介绍表就相当于文件,表中的一条记录就相当与文件的一行内容,不同的是,表中的一条记录有对应的标题,成为表的字段. 2.创建表 2.1语法 create table 表名( 字段名 ...

四、Tensorflow的分布式训练

四、Tensorflow的分布式训练的更多相关文章

随机推荐

热门专题