如何使用modelarts训练海量数据
在modelarts上使用notebook上使用evs空间默认大小是5G,能满足大部分文本和图片训练模型的需求。如果训练数据稍微超过这个限额,可以适当的扩增下空间。但如果训练对象是视频,或是实际生成过程中的海量数据,这个空间就显得小了,这时候扩增evs空间就显得很不经济了。
最近老山便碰到这样的案例,客户的训练数据大约在1T的量级,在obs上存储的数据结构大概如下图所示。
your-obs-name
└── ...
└── video
├── folder1
│ ├── text.txt
│ └── video.mp4
├── folder2
│ ├── text.txt
│ └── video.mp4
├── folder3
│ ├── text.txt
│ └── video.mp4
├── folder4
│ ├── text.txt
│ └── video.mp4
├── folder5
│ ├── text.txt
│ └── video.mp4
├── ...
虽然使用华为云自带的moxing模块可以直接读取obs的数据,但由于实质是通过http实时读取数据,这个速度比从evs的ssd硬盘上读取数据要慢得多。而解决方案也比较直接,在evs上开辟一个固定大小的空间作为缓存区,一方面不断把obs数据读入缓存区,如果缓存区满了,就等待其腾出空间,另一方面训练任务消费evs数据,当消费完后便删除数据。
程序上也自然选用生产者-消费者模型。程序定义了管道类Pipeline,有生产者线程producer用于将obs数据保存到evs;同时输出evs数据用于外部模型的消费。由于每个视频文件都单独放在一个文件夹下,所以程序的输出对象也是这个文件夹在evs上保存的地址,如folder1,folder2等。至于读取文件夹内部文件信息等消费工作,由用户自行定义。
不多说,直接上代码。
import moxing as mox
mox.file.shift('os', 'mox')
import os, shutil
from queue import Queue
from time import sleep
import threading
import logging
logging.basicConfig(level=logging.INFO,
format="%(asctime)s %(name)s %(levelname)s %(message)s",)
class ObsClient:
def __init__(self, root):
'''获取obs路径上需要读取的文件夹的相关信息'''
self.root = root
self.directory = self.list_directory()
self.maxSize = self.getMaxSize()
def getMaxSize(self):
'''最大的文件夹的大小'''
return max([size for *_, size in self.directory])
def list_directory(self):
'''输出用于训练的文件夹的路径,输出directory:
[(文件夹相对路径,文件夹绝对路径,文件夹大小), ...]
'''
directory = []
folders = mox.file.list_directory(self.root)
for folder in folders:
folderPath = os.path.join(self.root, folder)
if mox.file.is_directory(folderPath):
size = self.get_size(folderPath)
directory.append((folder, folderPath, size))
return directory
def get_size(self, path):
'''获取文件(夹)的大小'''
if mox.file.is_directory(path):
return self.get_size_folder(path)
return self.get_size_file(path)
def get_size_file(self, path):
'''获取文件的大小'''
return mox.file.get_size(path)
def get_size_folder(self, path):
'''获取文件夹的大小'''
size = 0
for filename in mox.file.list_directory(path, recursive=True):
filepath = os.path.join(path, filename)
if not mox.file.is_directory(filepath):
size+= self.get_size_file(filepath)
return size
class EvsClient:
def __init__(self, root, memory, queue, directory, interval = 0.1):
self.root = root # evs缓存区根目录
self.directory = directory # obs文件夹信息
self.size = 0 # evs缓存区已使用的空间
self.memory = memory # evs上用于缓存的空间大小
self.queue = queue # 队列,存储了evs缓存区文件夹的信息
self.interval = interval # 如果缓存区满后,查询缓存大小的间隔时间
def remove(self, folder, size):
'''删除evs文件夹,在文件夹被消费后调用'''
logging.info(f"consumer: start removing folder {folder} with size {size}|{self.size}")
shutil.rmtree(folder, True)
self.size -= size
logging.info(f"consumer: end removing folder {folder} with size -{size}|{self.size}")
def work(self):
'''生成者主程序,用于从obs中copy文件夹到evs'''
for relObsFolder, absObsFolder, size in self.directory:
while True:
# 缓存区没满,就copy文件
if not self.waitOrDo(size):
self.copy(relObsFolder, absObsFolder, size)
break
# 如果缓存区满了,就等待
sleep(self.interval)
# 当所有文件都拷贝后,置入结束符(None, None)
self.queue.put((None, None))
def waitOrDo(self, size):
'''返回True时等待,返回False时工作'''
return self.size + size > self.memory
def copy(self, relObsFolder, absObsFolder, size):
'''从obs中copy文件夹到evs'''
evsFolder = os.path.join(self.root, relObsFolder)
logging.info(f"producer: start copying folder {relObsFolder} with size {size}|{self.size}")
mox.file.copy_parallel(absObsFolder, evsFolder)
self.queue.put((evsFolder, size))
self.size += size
logging.info(f"producer: end copying folder {relObsFolder} with size +{size}|{self.size}")
class Pipeline:
def __init__(self, evsRoot, obsRoot, memory = '1g', timeout = 300, interval = 0.1):
self.memory = self.rescript(memory) # evs上用于缓存的空间大小
self.timeout = timeout # 消费者获取evs缓存区文件夹的最长等待时间
self.queue = Queue() # 队列,存储了evs缓存区文件夹的信息
self.obsClient = ObsClient(obsRoot) # 存储obs上的文件夹信息
# evs上的操作
self.evsClient = EvsClient(evsRoot, self.memory, self.queue, self.obsClient.directory, interval)
self.checkMemory() # 验证evs上用于缓存的空间大小是否足够大
def checkMemory(self):
'''evs上用于缓存的空间大小不能小于obs上最大文件夹大小'''
if self.memory<self.obsClient.maxSize:
raise Exception("memory should bigger than maxFolderSize!")
def rescript(self, memory):
'''将文本或数值类型的memory转写成数值'''
try:
if isinstance(memory, str):
if memory[-1].lower()=='g':
return int(float(memory[:-1])*1024*1024*1024)
elif memory[-1].lower()=='m':
return int(float(memory[:-1])*1024*1024)
elif memory[-1].lower()=='k':
return int(float(memory[:-1])*1024)
else:
return int(float(memory))
else:
return int(float(memory))
except:
raise Exception("Error when rescripting memory!")
def __iter__(self):
'''生成器,yield输出evs文件夹路径和大小'''
# 生产者线程
producer = threading.Thread(target = self.evsClient.work)
producer.start()
# 主程序提供生成器用于消费,输出evs文件夹路径和大小
while True:
logging.info(f"consumer: start to get the queue")
path, size = self.queue.get(timeout=self.timeout)
logging.info(f"consumer: get the queue {path}, {size} ")
if path is None and size is None:
break
yield path, size
self.evsClient.remove(path, size)
# 主程序等待
producer.join()
if __name__ == '__main__':
# 使用示例
for path, size in Pipeline('./video', 's3://your-obs-name/.../video'):
do_job(path, size)
如果你觉得老山的文章不错,不妨点击下关注。
作者::山找海味
如何使用modelarts训练海量数据的更多相关文章
- Modelarts与无感识别技术生态总结(浅出版)
[摘要] Modelarts技术及相关产业已成为未来AI与大数据重点发展行业模式之一,为了促进人工智能领域科学技术快速发展,modelarts现状及生态前景成为研究热点.笔者首先总结modelarts ...
- 从软件开发到 AI 领域工程师:模型训练篇
前言 4 月热播的韩剧<王国>,不知道大家有没有看?我一集不落地看完了.王子元子出生时,正逢宫内僵尸作乱,元子也被咬了一口,但是由于大脑神经元尚未形成,寄生虫无法控制神经元,所以医女在做了 ...
- 【深度学习系列】PaddlePaddle之手写数字识别
上周在搜索关于深度学习分布式运行方式的资料时,无意间搜到了paddlepaddle,发现这个框架的分布式训练方案做的还挺不错的,想跟大家分享一下.不过呢,这块内容太复杂了,所以就简单的介绍一下padd ...
- ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法
所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集,比如原来有500W个样本,将其划分为5000个baby batch,每个子集中有1000个样本,然后每次对一个mini-bat ...
- “蚂蚁牙黑”太火,想玩就用ModelArts做一个!
摘要:本文将介绍如何借力一站式 AI 开发平台,"傻瓜式"操作实现生成"蚂蚁牙黑"小视频. 作者:华为云EI专家胡琦 一夜之间,朋友圈都在"蚂蚁牙黑& ...
- 跟着TensorFlow的进阶级教程实现MNIST库的训练
转载出处:http://blog.csdn.net/feifei884431/article/details/51429829 背景介绍 代码实现及结果 小问题 ResourceExhaustedE ...
- 人脸检测及识别python实现系列(3)——为模型训练准备人脸数据
人脸检测及识别python实现系列(3)——为模型训练准备人脸数据 机器学习最本质的地方就是基于海量数据统计的学习,说白了,机器学习其实就是在模拟人类儿童的学习行为.举一个简单的例子,成年人并没有主动 ...
- MxNet教程:使用一台机器训练1400万张图片
官网链接:http://mxnet.readthedocs.io/en/latest/tutorials/imagenet_full.html Training Deep Net on 14 Mill ...
- 实际体验华为云AI : ModelArts
国庆前看到了博客园官方博客发布的一篇博客: 学AI有奖:博客园&华为云AI有奖训练营开战啦 本着对AI这种火热的话题,以及华为云博客园联名公仔(次要),我决定参与这个活动. 现在华为云开始全面 ...
随机推荐
- 看电影(movie):组合数
Description 到了难得的假期,小白班上组织大家去看电影.但由于假期里看电影的人太多,很难做到让全班看上同一场电影,最后大家在一个偏僻的小胡同里找到了一家电影院.但这家电影院分配座位的方式很特 ...
- Java Stream函数式编程第三篇:管道流结果处理
一.Java Stream管道数据处理操作 在本号之前写过的文章中,曾经给大家介绍过 Java Stream管道流是用于简化集合类元素处理的java API.在使用的过程中分为三个阶段.在开始本文之前 ...
- JS面试题-<变量和类型>-JavaScript的数据类型
前言 整理以前的面试题,发现问js数据类型的频率挺高的,回忆当初自己的答案,就是简简单单的把几个类型名称罗列了出来,便没有了任何下文.其实这一个知识点下可以牵涉发散出很多的知识点,如果一个面试者只是罗 ...
- jquery jssdk分享报错解决方法
jssdk分享报错解决方法 一般都是参数传错了
- 平滑启动shell脚本
# 平滑关闭和启动 Spring Boot 程序#设置端口SERVER_PORT="8090"#当前时间time=`date +%Y-%m-%d`#设置应用名称JAR_NAME=& ...
- 了解Spring的基本概念
参考资料:https://www.jianshu.com/p/1c483bd8fd6d 在正式学习Spring框架之前,肯定有很多疑问,比如说: 1.Spring中经常出现的IOC.AOP.DI是什么 ...
- Live CD
Live CD,又译为自生系统,是事先存储于某种可移动存储设备上,可不特定于计算机硬件(non-hardware-specific)而启动的操作系统(通常亦包括一些其他软件),不需安装至计算机的本地外 ...
- InfluxDB 聚合函数实用案例
InfluxDB 聚合函数实用案例 文章大纲 InfluxDB 简介 InfluxDB是GO语言编写的分布式时间序列化数据库,非常适合对数据(跟随时间变化而变化的数据)的跟踪.监控和分析.在我们的项目 ...
- 线程池的C++实现(一)
现代的软件一般都使用了多线程技术,在有些软件里面,一个线程被创建出来执行了仅仅一个任务,然后就被销毁了.线程的创建与销毁是需要消耗资源,这样为了执行单一任务而被创建出来的线程越多,性能也就越差.如果能 ...
- 什么是PHP Socket?
什么是 Socket? Socket 的中文翻译过来就是“套接字”.套接字是什么,我们先来看看它的英文含义:插座. Socket 就像一个电话插座,负责连通两端的电话,进行点对点通信,让电话可以进行通 ...