TensorFlow——分布式的TensorFlow运行环境

当我们在大型的数据集上面进行深度学习的训练时，往往需要大量的运行资源，而且还要花费大量时间才能完成训练。

1.分布式TensorFlow的角色与原理

在分布式的TensorFlow中的角色分配如下：

PS：作为分布式训练的服务端，等待各个终端(supervisors)来连接。

worker：在TensorFlow的代码注释中被称为终端(supervisors)，作为分布式训练的计算资源终端。

chief supervisors：在众多的运算终端中必须选择一个作为主要的运算终端。该终端在运算终端中最先启动，它的功能是合并各个终端运算后的学习参数，将其保存或者载入。

每个具体的网络标识都是唯一的，即分布在不同IP的机器上(或者同一个机器的不同端口)。在实际的运行中，各个角色的网络构建部分代码必须100%的相同。三者的分工如下：

服务端作为一个多方协调者，等待各个运算终端来连接。

chief supervisors会在启动时同一管理全局的学习参数，进行初始化或者从模型载入。

其他的运算终端只是负责得到其对应的任务并进行计算，并不会保存检查点，用于TensorBoard可视化中的summary日志等任何参数信息。

在整个过程都是通过RPC协议来进行通信的。

2.分布部署TensorFlow的具体方法

配置过程中，首先建立一个server，在server中会将ps及所有worker的IP端口准备好。接着，使用tf.train.Supervisor中的managed_ssion来管理一个打开的session。session中只是负责运算，而通信协调的事情就都交给supervisor来管理了。

3.部署训练实例

下面开始实现一个分布式训练的网络模型，以线性回归为例，通过3个端口来建立3个终端，分别是一个ps，两个worker，实现TensorFlow的分布式运算。

1. 为每个角色添加IP地址和端口，创建sever，在一台机器上开3个不同的端口，分别代表PS，chief supervisor和worker。角色的名称用strjob_name表示，以ps为例，代码如下：

# 定义IP和端口

strps_hosts = 'localhost:1681'

strworker_hosts = 'localhost:1682,localhost:1683'

# 定义角色名称

strjob_name = 'ps'

task_index = 0

# 将字符串转数组

ps_hosts = strps_hosts.split(',')

worker_hosts = strps_hosts.split(',')

cluster_spec = tf.train.ClusterSpec({'ps': ps_hosts, 'worker': worker_hosts})

# 创建server

server = tf.train.Server({'ps':ps_hosts, 'worker':worker_hosts}, job_name=strjob_name, task_index=task_index)

2为ps角色添加等待函数

ps角色使用server.join函数进行线程挂起，开始接受连续消息。

# ps角色使用join进行等待

if strjob_name == 'ps':

    print("wait")

    server.join()

3.创建网络的结构

与正常的程序不同，在创建网络结构时，使用tf.device函数将全部的节点都放在当前任务下。在tf.device函数中的任务是通过tf.train.replica_device_setter来指定的。在tf.train.replica_device_setter中使用worker_device来定义具体任务名称；使用cluster的配置来指定角色及对应的IP地址，从而实现管理整个任务下的图节点。代码如下：

with tf.device(tf.train.replica_device_setter(worker_device='/job:worker/task:%d'%task_index,

                                              cluster=cluster_spec)):

    X = tf.placeholder('float')

    Y = tf.placeholder('float')

    # 模型参数

    w = tf.Variable(tf.random_normal([1]), name='weight')

    b = tf.Variable(tf.zeros([1]), name='bias')

    global_step = tf.train.get_or_create_global_step()   # 获取迭代次数

    z = tf.multiply(X, w) + b

    tf.summary('z', z)

    cost = tf.reduce_mean(tf.square(Y - z))

    tf.summary.scalar('loss_function', cost)

    learning_rate = 0.001

    optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost, global_step=global_step)

    saver = tf.train.Saver(max_to_keep=1)

    merged_summary_op = tf.summary.merge_all()  # 合并所有summary

    init = tf.global_variables_initializer()

4.创建Supercisor，管理session

在tf.train.Supervisor函数中，is_chief表明为是否为chief Supervisor角色，这里将task_index=0的worker设置成chief Supervisor。saver需要将保存检查点的saver对象传入。init_op表示使用初始化变量的函数。

training_epochs = 2000

display_step = 2

sv = tf.train.Supervisor(is_chief=(task_index == 0),# 0号为chief

                         logdir='log/spuer/',

                         init_op=init,

                         summary_op=None,

                         saver=saver,

                         global_step=global_step,

                         save_model_secs=5)

# 连接目标角色创建session

with sv.managed_session(saver.target) as sess:

5迭代训练

session中的内容与以前一样，直接迭代训练即可。由于使用了supervisor管理session，将使用sv.summary_computed函数来保存summary文件。

print('sess ok')

    print(global_step.eval(session=sess))

    for epoch in range(global_step.eval(session=sess), training_epochs*len(train_x)):

        for (x, y) in zip(train_x, train_y):

            _, epoch = sess.run([optimizer, global_step], feed_dict={X: x, Y: y})

            summary_str = sess.run(merged_summary_op, feed_dict={X: x, Y: y})

            sv.summary_computed(sess, summary_str, global_step=epoch)

            if epoch % display_step == 0:

                loss = sess.run(cost, feed_dict={X:train_x, Y:train_y})

                print("Epoch:", epoch+1, 'loss:', loss, 'W=', sess.run(w), w, 'b=', sess.run(b))

    print(' finished ')

    sv.saver.save(sess, 'log/linear/' + "sv.cpk", global_step=epoch)

sv.stop()

（1）在设置自动保存检查点文件后，手动保存仍然有效，

（2）在运行一半后，在运行supervisor时会自动载入模型的参数，不需要手动调用restore。

（3）在session中不需要进行初始化的操作。

6.建立worker文件

新建两个py文件，设置task_index分别为0和1，其他的部分和上述的代码相一致。

strjob_name = 'worker'

task_index = 1

strjob_name = 'worker'

task_index = 0

7.运行

我们分别启动写好的三个文件，在运行结果中，我们可以看到循环的次数不是连续的，显示结果中会有警告，这是因为在构建supervisor时没有填写local_init_op参数，该参数的含义是在创建worker实例时，初始化本地变量，上述代码中没有设置，系统会自动初始化，并给出警告提示。

分布运算的目的是为了提高整体运算速度，如果同步epoch的准确率需要牺牲总体运行速度为代价，自然很不合适。

在ps的文件中，它只是负责连接，并不参与运算。

TensorFlow——分布式的TensorFlow运行环境的更多相关文章

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇目录 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 1. ...
[源码解析] TensorFlow 分布式之 MirroredStrategy
[源码解析] TensorFlow 分布式之 MirroredStrategy 目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 1. 设计&思路 1.1 ...
[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算
[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算 0x1. 运行 ...
[源码解析] TensorFlow 分布式之 ClusterCoordinator
[源码解析] TensorFlow 分布式之 ClusterCoordinator 目录 [源码解析] TensorFlow 分布式之 ClusterCoordinator 1. 思路 1.1 使用 ...
[源码解析] TensorFlow 分布式环境(1) --- 总体架构
[源码解析] TensorFlow 分布式环境(1) --- 总体架构目录 [源码解析] TensorFlow 分布式环境(1) --- 总体架构 1. 总体架构 1.1 集群角度 1.1.1 概念 ...
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 ...
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑目录 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 1. 继承关系 1.1 角 ...
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache 目录 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache 1. WorkerCa ...
[源码解析] TensorFlow 分布式环境(5) --- Session
[源码解析] TensorFlow 分布式环境(5) --- Session 目录 [源码解析] TensorFlow 分布式环境(5) --- Session 1. 概述 1.1 Session 分 ...

随机推荐

OpenCV : 基于切线方向的边缘增强算法
使用切线方法,对切线方向上的边缘进行强化: 参考连接:图像锐化和边缘检测代码: //在种子点方向上寻找合适的梯度,用于寻找边缘 //对low_Gray, high_gray之间的点寻找边缘 void ...
不能访问windows installer 服务，可能你在安全模式下运行 windows ，或者windows installer
windows installer服务解决方案很多朋友在安装MSI格式的文件包时,经常会遇到windows installer出错的情况,有如下几种现象: 1.所有使用windows install ...
金蝶WAFII
再谈应用环境下的 TIME_WAIT 和 CLOSE_WAIT
转自:http://blog.csdn.net/shootyou/article/details/6622226 昨天解决了一个 HttpClient 调用错误导致的服务器异常,具体过程如下: htt ...
39.exact value and full text
主要知识点 1.exact value 2.full text 在es中有两种搜索方式,exact value(精确匹配),full text(全文检索) 一.exact value 比如有一 ...
Qt Quick编程(1)
说道QML,不得不先说一下ECMAScript: ECMAScript语言的标准是由Netscape.Sun.微软.Borland等公司基于JavaScript和JScript锤炼.定义出来的. EC ...
2.Git可视化操作
1.在本地新建版本库首先,我们打开Git GUI是这样的一个界面,选择第一项,新建版本库. 然后选择你需要进行版本管理的项目路径,我选择了一个LoginDemo的项目. 当你创建了版本库的时候,你可 ...
阿里云全部端口port
Netty学习总结（2）——Netty的高性能架构之道
Netty是一个高性能.异步事件驱动的NIO框架,它提供了对TCP.UDP和文件传输的支持,作为一个异步NIO框架,Netty的所有IO操作都是异步非阻塞的,通过Future-Listener机制,用 ...
ZOJ 3362 Beer Problem
Beer Problem Time Limit: 2000ms Memory Limit: 32768KB This problem will be judged on ZJU. Original I ...

TensorFlow——分布式的TensorFlow运行环境

TensorFlow——分布式的TensorFlow运行环境的更多相关文章

随机推荐

热门专题