TensorFlow分布式实践

大数据时代，基于单机的建模很难满足企业不断增长的数据量级的需求，开发者需要使用分布式的开发方式，在集群上进行建模。而单机和分布式的开发代码有一定的区别，本文就将为开发者们介绍，基于TensorFlow进行分布式开发的两种方式，帮助开发者在实践的过程中，更好地选择模块的开发方向。

基于TensorFlow原生的分布式开发

分布式开发会涉及到更新梯度的方式，有同步和异步的两个方案，同步更新的方式在模型的表现上能更快地进行收敛，而异步更新时，迭代的速度则会更加快。两种更新方式的图示如下：

同步更新流程

（图片来源：TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems）

异步更新流程

（图片来源：TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems）

TensorFlow是基于ps、work 两种服务器进行分布式的开发。ps服务器可以只用于参数的汇总更新，让各个work进行梯度的计算。

基于TensorFlow原生的分布式开发的具体流程如下：

首先指定ps 服务器启动参数 –job_name=ps:

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=ps --task_index=0

接着指定work服务器参数(启动两个work 节点) –job_name=work2:

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=worker --task_index=0

python distribute.py --ps_hosts=192.168.100.42:2222 --worker_hosts=192.168.100.42:2224,192.168.100.253:2225 --job_name=worker --task_index=1

之后，上述指定的参数 worker_hosts ps_hosts job_name task_index 都需要在py文件中接受使用：

tf.app.flags.DEFINE_string("worker_hosts", "默认值", "描述说明")

接收参数后，需要分别注册ps、work，使他们各司其职：

ps_hosts = FLAGS.ps_hosts.split(",")

worker_hosts = FLAGS.worker_hosts.split(",")

cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})

server = tf.train.Server(cluster,job_name=FLAGS.job_name,task_index=FLAGS.task_index)

issync = FLAGS.issync

if FLAGS.job_name == "ps":

   server.join()

elif FLAGS.job_name == "worker":

   with tf.device(tf.train.replica_device_setter(

                   worker_device="/job:worker/task:%d" % FLAGS.task_index,

                   cluster=cluster)):

继而更新梯度。

（1）同步更新梯度：

rep_op = tf.train.SyncReplicasOptimizer(optimizer,

                                               replicas_to_aggregate=len(worker_hosts),

                                               replica_id=FLAGS.task_index,

                                               total_num_replicas=len(worker_hosts),

                                               use_locking=True)

train_op = rep_op.apply_gradients(grads_and_vars,global_step=global_step)

init_token_op = rep_op.get_init_tokens_op()

chief_queue_runner = rep_op.get_chief_queue_runner()

（2）异步更新梯度：

train_op = optimizer.apply_gradients(grads_and_vars,global_step=global_step)

最后，使用tf.train.Supervisor 进行真的迭代

另外，开发者还要注意，如果是同步更新梯度，则还需要加入如下代码：

sv.start_queue_runners(sess, [chief_queue_runner])

sess.run(init_token_op)

需要注意的是，上述异步的方式需要自行指定集群IP和端口，不过，开发者们也可以借助TensorFlowOnSpark，使用Yarn进行管理。

基于TensorFlowOnSpark的分布式开发

作为个推面向开发者服务的移动APP数据统计分析产品，个数所具有的用户行为预测功能模块，便是基于TensorFlowOnSpark这种分布式来实现的。基于TensorFlowOnSpark的分布式开发使其可以在屏蔽了端口和机器IP的情况下，也能够做到较好的资源申请和分配。而在多个千万级应用同时建模的情况下，集群也有良好的表现，在sparkUI中也能看到相对应的资源和进程的情况。最关键的是，TensorFlowOnSpark可以在单机过度到分布式的情况下，使代码方便修改，且容易部署。

基于TensorFlowOnSpark的分布式开发的具体流程如下：

首先，需要使用spark-submit来提交任务，同时指定spark需要运行的参数（–num-executors 6等）、模型代码、模型超参等，同样需要接受外部参数：

parser = argparse.ArgumentParser()

parser.add_argument("-i", "--tracks", help="数据集路径")

args = parser.parse_args()

之后，准备好参数和训练数据(DataFrame)，调用模型的API进行启动。

其中，soft_dist.map_fun是要调起的方法，后面均是模型训练的参数。

estimator = TFEstimator(soft_dist.map_fun, args) \

     .setInputMapping({'tracks': 'tracks', 'label': 'label'}) \

     .setModelDir(args.model) \

     .setExportDir(args.serving) \

     .setClusterSize(args.cluster_size) \

     .setNumPS(num_ps) \

     .setEpochs(args.epochs) \

     .setBatchSize(args.batch_size) \

     .setSteps(args.max_steps)

   model = estimator.fit(df)

接下来是soft_dist定义一个 map_fun(args, ctx)的方法：

def map_fun(args, ctx):

...

worker_num = ctx.worker_num  # worker数量

job_name = ctx.job_name  # job名

task_index = ctx.task_index  # 任务索引

if job_name == "ps":  # ps节点(主节点)

  time.sleep((worker_num + 1) * 5)

  cluster, server = TFNode.start_cluster_server(ctx, 1, args.rdma)

  num_workers = len(cluster.as_dict()['worker'])

  if job_name == "ps":

       server.join()

  elif job_name == "worker":

       with tf.device(tf.train.replica_device_setter(worker_device="/job:worker/task:%d" % task_index, cluster=cluster)):

之后，可以使用tf.train.MonitoredTrainingSession高级API，进行模型训练和预测。

总结

基于TensorFlow的分布式开发大致就是本文中介绍的两种情况，第二种方式可以用于实际的生产环境，稳定性会更高。

在运行结束的时候，开发者们也可通过设置邮件的通知，及时地了解到模型运行的情况。

同时，如果开发者使用SessionRunHook来保存最后输出的模型，也需要了解到，框架代码中的一个BUG，即它只能在规定的时间内保存，超出规定时间，即使运行没有结束，程序也会被强制结束。如果开发者使用的版本是未修复BUG的版本，则要自行处理，放宽运行时间。

TensorFlow分布式实践的更多相关文章

TensorFlow 分布式实践
此wiki主要介绍分布式环境使用的一些条件,一直所要注意的内容: 确保在此之前阅读过TensorFlow for distributed 1.集群描述当前tensorflow 的版本(0.8.0), ...
tensorflow分布式训练
https://blog.csdn.net/hjimce/article/details/61197190 tensorflow分布式训练 https://cloud.tencent.com/dev ...
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践
慕K网-299元-基于Python玩转人工智能最火框架 TensorFlow应用实践需要联系我,QQ:1844912514
【原创深度学习与TensorFlow 动手实践系列 - 4】第四课：卷积神经网络 - 高级篇
[原创深度学习与TensorFlow 动手实践系列 - 4]第四课:卷积神经网络 - 高级篇提纲: 1. AlexNet:现代神经网络起源 2. VGG:AlexNet增强版 3. GoogleN ...
【原创深度学习与TensorFlow 动手实践系列 - 3】第三课：卷积神经网络 - 基础篇
[原创深度学习与TensorFlow 动手实践系列 - 3]第三课:卷积神经网络 - 基础篇提纲: 1. 链式反向梯度传到 2. 卷积神经网络 - 卷积层 3. 卷积神经网络 - 功能层 4. 实 ...
Python玩转人工智能最火框架 TensorFlow应用实践 ☝☝☝
Python玩转人工智能最火框架 TensorFlow应用实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 全民人工智能时代,不甘心只做一个旁观者,那就现在 ...
java 分布式实践
java 分布式实践 spring boot cloud实践开源的全链路跟踪很多,比如 Spring Cloud Sleuth + Zipkin,国内有美团的 CAT 等等. 其目的就是当一个请求经 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践✍✍✍
基于Python玩转人工智能最火框架 TensorFlow应用实践随着 TensorFlow 在研究及产品中的应用日益广泛,很多开发者及研究者都希望能深入学习这一深度学习框架.而在昨天机器之心发起 ...

随机推荐

helloworld讲解cocos2d-x的编程思路与要点
用helloworld讲解cocos2d-x的编程思路与要点本文以cocos2d-x的helloworld为例,讲解cocos2d-x引擎的特点和要点,2.2为了展示新功能,把包括屏幕自适应在内的新 ...
opengl学习记录1——矩形绘制
#include <windows.h> #include <gl/GL.h> #include <gl/GLU.h> #include <glut.h> ...
pt-online-schema-change的实现原理
pt-online-schema-change用于MySQL的在线DDL. 下面结合官方文档和general log来分析其实现原理. 测试表 mysql> show create table ...
对html第一次尝试
1.对于写文档修改后缀为html,双击进入为网页模式. 2.编写网页 1)新建 2)基本格式 <!DOCTYPE html><!-- ...
Python_汇总生成统计报表
import xlrd import xlwt from xlutils.copy import copy objWb = xlrd.open_workbook(r'C:\Users\IBM\Desk ...
软件测试为何我会首选Python
对于软件测试选择什么样的语言去学习,不同的人有不同的回答,为什么我会首选Python呢?这就要从Python的特点与适应领域说了. 一.Python的特点:优雅.明确.简单. 二.Python适合的领 ...
[转载]JVM 垃圾回收机制（Garbage Collection）
相关算法: 引用计数法引用可达法尚学堂参考:http://www.sxt.cn/Java_jQuery_in_action/Principle_and_algorithm_of_garbage_ ...
PAT甲题题解-1040. Longest Symmetric String (25)-求最长回文子串
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6789177.html特别不喜欢那些随便转载别人的原创文章又不给 ...
PAT甲题题解-1121. Damn Single (25)-水题
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6789787.html特别不喜欢那些随便转载别人的原创文章又不给 ...
团队作业week7
软件分析和用户需求调查具体细则见: http://www.cnblogs.com/xinz/p/3308608.html

TensorFlow分布式实践

TensorFlow分布式实践的更多相关文章

随机推荐

热门专题