昇腾开发全流程 之 MindSpore华为云模型训练
前言
学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2,
并打通一个训练到推理的全流程思路。
在本篇章,首先我们开始进入训练阶段!
训练阶段
A. 环境搭建
MindSpore 华为云 模型训练
Step1 创建OBS并行文件
- 登录华为云 -> 控制台 -> 左侧导航栏选择“对象存储服务 OBS” ->
在左侧导航栏选择“桶列表” -> 单击右上角“创建桶”
如下图所示:

- 在左侧列表中的“并行文件系统” -> 单击右上角“创建并行文件系统”。
如下图所示:

进行以下配置:

主要参数信息如下,其余配置请保持默认配置
区域:选择“华北-北京四”
文件系统名称:自定义,本例使用modelarts0009
(请使用modelarts作为文件系统前缀,注意名称为全局唯一)
数据冗余存储策略:选择“单AZ存储”
策略:选择“私有”
Step2 上传数据文件至OBS并行文件系统
- 点击已创建的并行文件系统 -> 点击“新建文件夹”
输入文件夹的名称,这里命名为input

- 进入该文件夹中 -> 点击“上传文件”:
将准备好的项目工程文件压缩包上传至该OBS中。
Step3 基于ModelArts创建Notebook编程环境
在“全局配置”页面查看是否已经配置授权,允许ModelArts访问OBS:
登录华为云 -> 控制台 -> 左侧导航栏选择“ModelArts” -> 在左侧导航栏选择“全局配置” -> 单击“添加授权”
首次使用ModelArts:直接选择“新增委托”中的“普通用户”权限

登录华为云 -> 控制台 -> 左侧导航栏选择“ModelArts” -> 在左侧导航栏选择“开发环境”-> “Notebook” -> 点击“创建”
进行以下配置:
主要参数信息如下,其余配置请保持默认配置
名称:自定义,本例使用notebook-test
自动停止:自行选择,本例选择4小时
镜像:选择“公共镜像”,并选择“mindspore_1.10.0-cann_6.0.1-py_3.7-euler_2.8.3”
资源类型:选择“公共资源池”
磁盘规格:使用50GB
Step4 为Notebook编程环境添加训练阶段项目工程文件
- (这一步不需要)
点击已创建的Notebook -> “存储配置” -> “添加数据存储”
进行以下配置:

本地挂载目录:自定义创建本地挂载目录,本例使用/data/input
存储位置:选择所创建的并行文件系统(本例选择已创建的moderarts0009),以及数据集所在的目录input
返回Notebook界面 -> 点击“打开”notebook-test ->
打开“Terminal”命令行终端界面 ->
执行以下命令,创建用于测试的test文件
touch /data/input/test
再执行以下命令,可以看到你刚创建的test文件&先前上传的文件
ls /data/input上传
这里选择OBS文件上传,
因为这里本地上传限制为100M文件。

解压
打开“Terminal”命令行终端界面 ->
执行以下命令,查看是否在正确的路径下
pwd
ls -l
执行以下命令,解压项目工程文件压缩包
(这里以工业质检Unet为例,具体代码可参考文末学习资源推荐)
unzip unet.zip
unzip unet_sdk.zip
- 训练阶段工程目录结构如下:
├──unet
├──data // 预处理后的数据集文件夹
├──raw_data // 原始数据集
├──out_model // 模型导出保存文件夹
├──pred_visualization // 可视化图片保存文件夹(需要自己创建)
├──src // 功能函数
│ ├──unet_medical // U-Net网络
│ ├──unet_nested // U-Net++网络
│ ├──config.py // 配置文件
│ ├──data_loader.py // 数据加载
│ ├──eval_callback.py // 训练时评估回调
│ ├──loss.py // 损失函数
│ ├──utils.py // 工具类函数
├──draw_result_folder.py // 文件夹图片可视化
├──draw_result_single.py // 单张图片可视化
├──eval.py // 模型验证
├──export.py // 模型导出,ckpt转air/mindir/onnx
├──postprocess.py // 后处理
├──preprocess.py // 前处理
├──preprocess_dataset.py // 数据集预处理
├──train.py // 模型训练
├──requirements.txt
- 模型转换工程目录结构如下:
├── unet_sdk
├── model
│ ├──air2om.sh // air模型转om脚本
│ ├──xxx.air //训练阶段导出的air模型
│ ├──aipp_unet_simple_opencv.cfg // aipp文件
注:
接下来就可以开始旅程,进入训练阶段。
若中途暂停实验,记得做停止资源操作,消耗最少费用;
若返回继续实验,再次启动Notebook编程环境;
若完成了本实验,最后是释放资源操作,为了停止计费。
一. 配置文件参数和数据预处理
MindSpore 数据集预处理preprocess_dataset.py文件需调用如下脚本:
文件参数脚本src/config.py文件。
文件参数脚本为src/config.py,包括
unet_medical,
unet_nested,
unet_nested_cell,
unet_simple,
unet_simple_coco
共5种配置,表示模型与数据集之间的组合。
包含超参数、数据集路径等文件参数
Step 运行脚本
新建NoteBook中:查看是否在工程目录unet/路径下
!pwd进入NoteBook中:运行示例
!python3 preprocess_dataset.py --data_url=./data/
其中--data_url:数据集预处理后的保存路径。
- 预计数据集预处理所需时间约为10分钟。
预处理完的数据集会保存在/unet/data/文件夹下。
输出结果:

二. 模型训练
MindSpore模型训练 需调用如下脚本:
preprocess_dataset.py:将类coco数据集 转化成 模型训练需要数据格式。
src/unet_xxx/:存放 unet/unet++ 模型结构。
src/data_loader.py:存放 数据加载功能函数。
src/eval_callback:存放 cb 函数,用于训练过程中进行eval.
src/utils.py: mindspore 自定义 cb 函数,自定义 metrics 函数。
train.py
Step 运行脚本
- 进入NoteBook中:运行示例
!python train.py --data_url=./data/ --run_eval=True
其中--data_url: 数据集输入路径。
其中--run_eval: True 表示训练过程中同时进行验证。
- 预计模型训练所需时间约为36分钟。
输出结果:


三. 模型推理
MindSpore模型推理 需调用如下脚本:
src/unet_xxx/:存放unet/unet++模型结构。
src/data_loader.py:存放数据预处理,数据加载功能函数。
src/utils.py:mindspore自定义cb函数,自定义metrics函数。
eval.py
Step 运行脚本
- 进入NoteBook中:运行示例
!python eval.py --data_url=./data/ --ckpt_path=./ckpt_0/best.ckpt
其中--data_url:数据集输入路径。
其中--ckpt_path:ckpt 读取路径
- 预计模型推理所需时间约为2分钟。
输出结果:


注:
IOU(Intersection over Union)是一个度量函数,
用来描述两个物体边界框的重叠程度(取值范围为[0,1]),
重叠的区域越大,IOU值就越大。
四. 结果可视化
可以通过画图的方式将图像的结果可视化,方便查看。
可视化方法有两种。
方法一 单张图片可视化
draw_result_single.py:单张图片可视化,
输出单张图片的裁剪画图结果crop_plot.png和模型预测的结果predict_plot.png。
Step 运行脚本
查看工程目录unet/路径下
确保已经事先创建好
可视化图片保存文件pred_visualization文件夹进入NoteBook中:运行示例
!python draw_result_single.py --data_url=./data/SW1hZ2VfMjAyMTA3MjcxNTEzMzYzNzk --save_url=./pred_visualization --ckpt_path=./ckpt_0/best.ckpt
其中--data_url:数据集输入路径(到单张图像)。
其中--save_url:输出图像保存路径。
其中--ckpt_path:ckpt读取路径。
- 单张图片可视化所需时间约为1分钟。
可视化完的图片会保存在/unet/pred_visualization文件夹下。
输出结果:



方法二 文件夹图片可视化
draw_result_folder.py:文件夹图片可视化,
输出文件夹内图片的模型预测结果predict.png。
Step 运行脚本
查看工程目录unet/路径下
确保已经事先创建好
可视化图片保存文件pred_visualization文件夹进入NoteBook中:运行示例
!python draw_result_folder.py --data_url=./data/ --save_url=./pred_visualization --ckpt_path=./ckpt_0/best.ckpt
其中--data_url:数据集输入路径(到图像文件夹)。
其中--save_url:输出图像保存路径。
其中--ckpt_path:ckpt读取路径。
- 文件夹图片可视化所需时间约为10分钟。
可视化完的图片会保存在/unet/pred_visualization文件夹下。
输出结果:

五. 模型保存
如果想在昇腾AI处理器上执行推理,
可以通过网络定义和CheckPoint生成AIR格式模型文件。
Step 运行脚本
- 进入NoteBook中:运行示例
!python export.py --ckpt_file="./ckpt_0/best.ckpt" --width=960 --height=960 --file_name="out_model/unet_hw960_bs1" --file_format="AIR"
其中–-ckpt_file: ckpt路径。
其中--width: 模型输入尺寸。
其中--height: 模型输入尺寸。
其中--file_name: 输出文件名。
其中--file_format: 输出格式,必须为[“ONNX”, “AIR”, “MINDIR”]。
- 模型保存即导出模型的输出结果在out_model/unet_hw960_bs1.air
最后将导出的模型下载至本地,供后续推理阶段实验使用:
右键 -> Download

六. 模型转换
此处模型转换需要用到ATC工具。
详细内容&错误码请参考昇腾官网文档-使用ATC工具转换模型
Step1 上传air模型
- 将训练阶段实验模型保存的air模型上传至华为云ModelArts的unet_sdk/model/目录下
这里因为模型中有optype[ArgMaxD],因此需要在Ascend910系列芯片上执行模型转换才能成功。
(此次华为云ModelArts使用的正是Ascend910A)
而一般情况,模型训练完进行的模型转换是可以选择在开发者套件(Ascend310系列芯片)和Ubuntu系统中执行的。
(具体方法请参考昇腾官网文档-转换模型)
Step2 模型转换命令
- 打开unet_sdk/model/air2om.sh文件
使用atc命令如下,可根据实际开发情况进行修改。
atc --framework=1 --model=unet_hw960_bs1.air --output=unet_hw960_bs1 --input_format=NCHW --soc_version=Ascend910A --log=error --insert_op_conf=aipp_unet_simple_opencv.cfg
本实验将训练阶段实验模型保存的air模型转为昇腾Al处理器支持的om格式离线模型
注意:air 模型转 om 只支持静态 batch,这里 batchsize=1。
其中--framework:原始框架类型。
其中--model:原始模型文件路径与文件名。
其中--output:转换后的离线模型的路径以及文件名。
其中--input_format:输入数据格式。
其中--soc_version:模型转换时指定芯片版本。
(这句话指的是当前执行模型转换时候所在机器的芯片版本,可通过命令行终端输入npu-smi info查看)
其中--log:显示日志的级别。
其中--insert_op_conf:插入算子的配置文件路径与文件名,这里使用AIPP预处理配置文件,用于图像数据预处理。
Step3 运行脚本
确保在工程目录unet_sdk/model/路径下,首先查看文件权限
ls -l
(如果文件权限列中没有x,你才需要继续下一命令赋予它执行权限)
输入
chmod +x air2om.sh运行示例
输入
./air2om.sh
- 输出结果:

注:
到此我们在华为云上使用MindSpore的训练阶段实验就结束了。
有了导出的air模型及其模型转换出的om模型,我们就可以继续进入下一篇章:AscendCL推理阶段。
结束后记得及时关闭云上环境,避免资源浪费和产生额外的费用!!!
学习资源推荐
昇腾开发全流程 之 MindSpore华为云模型训练的更多相关文章
- 十分钟带你了解CANN应用开发全流程
摘要:CANN作为昇腾AI处理器的发动机,支持业界多种主流的AI框架,包括MindSpore.TensorFlow.Pytorch.Caffe等,并提供1200多个基础算子. 2021年7月8日,第四 ...
- 监控视频采集与Web直播开发全流程分析
内容概要: 摄像头 => FFmpeg => Nginx服务器 => 浏览器 从摄像头拉取rtsp流 转码成rtmp流向推流服务器写入 利用html5播放 1.开发流程 1.1 通过 ...
- VS2017+QT5.12.10+QGIS3.16环境搭建及开发全流程
题记:大力发展生产力,助力高效采集.(转载请注明出处https://www.cnblogs.com/1024bytes/p/15477374.html) 本篇随笔分为五个部分: 一.获取QGIS3.1 ...
- Odoo9.0模块开发全流程
构建Odoo模块 模块组成 业务对象 业务对象声明为Python类, 由Odoo自己主动加载. 数据文件 XML或CSV文件格式, 在当中声明了元数据(视图或工作流).配置数据(模块參数).演示数据等 ...
- 自动驾驶轻松开发?华为云ModelArts赋能智慧出行
作为战略新兴产业,人工智能已经开始广泛应用于多个领域.近几年,科技公司.互联网公司等各领域的企业纷纷布局自动驾驶.那么,自动驾驶技术究竟发展得如何了?日前,华为云携手上海交通大学创新中心举办的华为云人 ...
- 本科阶段就挑战自动驾驶开发?华为云ModelArts帮你轻松实现!
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
- 为测试管理正名,华为云CodeArts TestPlan的守护之道
摘要:华为云CodeArts TestPlan既有公有云版本,也有下沉到私有云的版本. 本文分享自华为云社区<为测试管理正名,华为云CodeArts TestPlan的守护之道>,作者:云 ...
- AI全流程开发难题破解之钥
摘要:通过对ModelArts.盘古大模型.ModelBox产品技术的解读,帮助开发者更好的了解AI开发生产线. 本文分享自华为云社区<[大厂内参]第16期:华为云AI开发生产线,破解AI全流程 ...
- MindStudio模型训练场景精度比对全流程和结果分析
摘要:MindStudio是一套基于华为昇腾AI处理器开发的AI全栈开发平台 本文分享自华为云社区<MindStudio模型训练场景精度比对全流程和结果分析>,作者:yd_24730208 ...
- 一图看懂华为云DevCloud如何应对敏捷开发的测试挑战
作为敏捷开发中测试团队的一员,在微服务测试过程中,你是不是也遇到同样困惑:服务不具备独立验证能力.自动化用例开发效率很低等? 华为云DevCloud API全场景测试技术来支招~围绕API的全场景,打 ...
随机推荐
- 运动App如何实现端侧后台保活,让运动记录更完整?
你在锻炼健身时,有没有遇到这样的情况?辛辛苦苦锻炼了几小时,却发现App停止了运行,本次运动并没有被记录到App上,从而失去了一个查看完整运动数据的机会? 运动类App是通过手机或者穿戴设备的传感器, ...
- C++调用Python-0:搭建环境
1.进入到Python安装目录 2.将Python安装目录中的 include 和 libs 文件夹放在 C++项目中 3.设置 附加包含目录 和 附加库目录.附加依赖项(python310_d.li ...
- 优先队列的基本实现【数据结构与算法—TypeScript 实现】
笔记整理自 coderwhy 『TypeScript 高阶数据结构与算法』课程 特性 效率比普通队列高 每个出队元素拥有最高优先级 可以用 数组.链表 等数据结构实现,但是 堆结构 是最常用的实现方式 ...
- HarmonyOS崩溃服务能力全新上线,帮你高效解决崩溃问题!
原文:https://mp.weixin.qq.com/s/YmYzNXsvsqt8U8JX3vlmrg,点击链接查看更多技术内容. 一.为什么需要崩溃服务能力 用户在使用原子化服务时,出现卡顿.缓慢 ...
- 实训篇-Html-列表练习
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
- vue-cli4.0 (vue3.0 的脚手架)
前言: 这个搭建脚手架的话实际是我们创建一个新项目的第一步,当然,现在脚手架4.0都出来了,经过使用后发现跟我们之前的3.0使用方法是答题一样的,其中用vue-cli3.0来搭建我们的项目的话又分为两 ...
- 前端直接获取用户IP的方法
前端直接获取用户IP的方法 简单来说就是使用两个接口 一个是太平洋网 <script src="//whois.pconline.com.cn/ipJson.jsp?callback= ...
- 写给大家看的“不负责任” K8s 入门文档
前言 2019 年下半年,我做了一次转岗,开始接触到 Kubernetes,虽然对 K8s 的认识还非常的不全面,但是非常想分享一下自己的一些收获,希望通过本文能够帮助大家对 K8s 有一个入门的了解 ...
- dotnet C# 通过 Vortice 使用 Direct2D 的 ID2D1CommandList 入门
本文将告诉大家如何通过 Vortice 使用 D2D 的 CommandList 功能 本文属于 DirectX 系列博客,更多 DirectX 和 D2D 以及 Vortice 库的博客,请参阅我的 ...
- WPF 通过 GifBitmapDecoder 调用 WIC 解析 Gif 和进行动画播放的简单方法
本文告诉大家如何在 WPF 里,通过 GifBitmapDecoder 调用 WIC 层来解析 GIF 图片,然后采用动画的方式进行播放 在上一篇博客告诉大家,可以通过 GifBitmapDecode ...