分布式TensorFlow集群local server使用详解

交流_QQ_2240410488 2024-10-08 04:28:44 原文

通过local server理解分布式TensorFlow集群的应用与实现。

简介

TensorFlow从0.8版本开始，支持分布式集群，并且自带了local server方便测试。

Local server和分布式服务的接口一样，我们将从local server入手，详细解读分布式机器学习集群的用法。

Local server的最简单用法

TensorFlow官方文档提供了local server的最简单用法，安装TensorFlow后直接在交互式Python终端中执行即可。

注意这里server和client启动在同一个进程了，为什么这么说呢？我们都了解TensorFlow客户端可以用Python或C++编写，本质上就是构建一个可执行的Graph，而Graph需要在Session中执行，因此代码中只要包含Session()的就是客户端，这时通过server.target选择本地刚创建的server来执行op。大家可能会好奇server.target是什么，我们在终端可以输出是'grpc://localhost:38612'，一个字符串表示服务端的ip和端口，同时也确认它的协议是Google开源的gRPC。

如果你愿意搭建环境测试，只要一行命令即可docker run -it tobegit3hub/ml-dev bash，其中ml-dev是我开发的机器学习镜像包含大量工具库，当然你也可以使用官方的tensorflow/tensorflow镜像。

启动local server服务

前面提到local server和client在同一个进程，输出结果后服务端和客户端都退出了，实际上服务端应该以daemon的形式提供服务，local server也可以的。

我们编写local_server.py文件，注意这里调用join()是为了避免进程退出，同样会暴露一个grpc的端口。

启动客户端服务

启动local server后，我们可以在本地起一个客户端来调用，注意这里local server的地址是

注意要启动客户端，我们需要开另一个终端进入local server的容器，例如“docker exec -it 100cd4fb5bca bash”。

我们看到constant的字符串已经正常输出，有人发现这与单机版的TensorFlow例子很像，实际上Session的参数不同，并且这个op是在local server进程中执行并返回的，如果使用错误端口就会报RPC请求连接错误。

最后总结

我们总结一下，TensorFlow的local server实现了与分布式server一样的接口，通过了解local server的使用和实现我们就更容易理解分布式TensorFlow的使用了。其中server对象有比较重要的概念就是server.targe，客户端通过targe找到对应的集群，还有两个函数分别是server.start()和server.join()，就是启动服务和避免进程退出的。

本文介绍了分布式TensorFlow集群中的local server，欢迎大家关注，下期将介绍完整分布式集群的部署和应用。

分布式TensorFlow集群local server使用详解的更多相关文章

理解和实现分布式TensorFlow集群完整教程
手把手教你搭建分布式集群,进入生产环境的TensorFlow 分布式TensorFlow简介前一篇<分布式TensorFlow集群local server使用详解>我们介绍了分布式Ten ...
mongo 3.4分片集群系列之六：详解配置数据库
这个系列大致想跟大家分享以下篇章: 1.mongo 3.4分片集群系列之一:浅谈分片集群 2.mongo 3.4分片集群系列之二:搭建分片集群--哈希分片 3.mongo 3.4分片集群系列之三:搭建 ...
mongo 3.4分片集群系列之五：详解平衡器
这个系列大致想跟大家分享以下篇章: 1.mongo 3.4分片集群系列之一:浅谈分片集群 2.mongo 3.4分片集群系列之二:搭建分片集群--哈希分片 3.mongo 3.4分片集群系列之三:搭建 ...
[spark]-Spark2.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的.我们可以了解到每个参数配置的作用是什么.这里将详细介绍Spark集群搭建以及xml参 ...
MySQL集群简介与配置详解
1．先了解一下你是否应该用MySQL集群. 减少数据中心结点压力和大数据量处理,采用把MySQL分布,一个或多个application对应一个MySQL数据库.把几个MySQL数据库公用的数据做出共 ...
生产环境elasticsearch5.0.1和6.3.2集群的部署配置详解
线上环境elasticsearch5.0.1集群的配置部署 es集群的规划: 硬件: 7台8核.64G内存.2T ssd硬盘加1台8核16G的阿里云服务器其中一台作为kibana+kafka连接查询 ...
zookeeper集群安装及使用详解
1. Zookeeper简介 ZooKeeper是一个开源的分布式框架,提供了协调分布式应用的基本服务.它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronizatio ...
全网最详细的Ceph14.2.5集群部署及配置文件详解，快来看看吧！ -- <2>
部署Ceph集群 Ceph版本选择 Ceph版本来源介绍 Ceph 社区最新版本是 14,而 Ceph 12 是市面用的最广的稳定版本. 第一个 Ceph 版本是 0.1 ,要回溯到 2008 年 1 ...
StreamSets学习系列之StreamSets的集群安装（图文详解）
不多说,直接上干货! 若是集群安装需要在对应节点执行相同的操作. 见 StreamSets学习系列之StreamSets支持多种安装方式[Core Tarball.Cloudera Parcel . ...

随机推荐

Leetcode61. Rotate List旋转链表
给定一个链表,旋转链表,将链表每个节点向右移动 k 个位置,其中 k 是非负数. 示例 1: 输入: 1->2->3->4->5->NULL, k = 2 输出: 4-& ...
vue-eslint配置文件
做项目的时候,我把eslint设置为了false,可想而知提交会产生的冲突让我一个一个解决肯定不可能的,eslint的rule很多在vue的配置文件.eslintrc.js中配置以下选项这样只需 ...
iview 中table列一列显示多个数据（后台返回数组显示在列内）
一.首先出现的是比较复杂的一种情况(多个key) 1.首先页面显示效果如下 2.后台返回数据格式如下: 3.在iview中table的columns中的render函数: 4.具体代码 render: ...
LUOGU P2827 蚯蚓 (noip 2016)
传送门解题思路第一眼以为是一个二叉堆,直接上优先队列60分...后来听ztz11说有单调性,新加入的蚯蚓一定比原先在的蚯蚓长度长,开三个队列,分别放原先的长度,切掉后大的那一半,切掉后小的那一半. ...
存储过程调用http 服务
--sql 服务器设置 --启动 OLE Automation Proceduressp_configure 'show advanced options', 1; --此选项用来显示sp_con ...
实现一个vue的图片预览插件
vue-image-swipe 基于photoswipe实现的vue图片预览组件安装 1 第一步 npm install vue-image-swipe -D 2 第二步 vue 入口文件引入 im ...
Python 正则表达式语法实例
【JZOJ3854】【NOIP2014八校联考第2场第2试9.28】分组(group)
MEi Bsny所在的精灵社区有n个居民,每个居民有一定的地位和年龄,ri表示第i个人的地位,ai表示第i个人的年龄. 最近社区里要举行活动,要求几个人分成一个小组,小组中必须要有一个队长,要成为队长 ...
Apache Camel继承Spring Boot 实现文件远程复制和转移
pom.xml <dependency> <groupId>org.apache.camel</groupId> <artifactId>camel-f ...
初识Django(DNS原理及web框架)
DNS的原理假设www.abc.com的主机要查询www.xyz.abc.com的服务器ip地址. 知识点 1.hosts文件:以静态映射的方式提供IP地址与主机名的对照表,类似ARP表 2.域:a ...