【摘要】 问题 KPI异常检测项目需要对设备内多模块、多类型数据,并根据波形以及异常表现进行分析,这样的数据量往往较大,对内存和性能要求较高。同时,在设计优化算法时,需要快速得到训练及测试结果并根据结果来调整算法,因此进一步要求计算内存和性能达到较高的水平。当前,本地安全PC性能难以满足调试要求,难点主要在于,时间序列数据以csv文件格式存储,需要根据时序关系以及五维关键字拆分成以五维关键字为主...

问题

KPI异常检测项目需要对设备内多模块、多类型数据,并根据波形以及异常表现进行分析,这样的数据量往往较大,对内存和性能要求较高。
 
同时,在设计优化算法时,需要快速得到训练及测试结果并根据结果来调整算法,因此进一步要求计算内存和性能达到较高的水平。
 
当前,本地安全PC性能难以满足调试要求,难点主要在于,时间序列数据以csv文件格式存储,需要根据时序关系以及五维关键字拆分成以五维关键字为主键的唯一时序数据,这一过程需要将同一台设备所有KPI文件同时读入内存,一星期KPI数据文件就达到GB级别,单单本机训练就需要41Min。同时,每台网管设备纳管几千台设备,训练花的时间将按设备数对应倍数增加,单进程执行网管设备局点数据分析的时间将到达Month级别。
 
KPI异常检测项目希望能够根据KPI数据特点,显著缩短训练时间,以满足快速测试算法调优的需求。

华为解决方案

1. 对华为NAIE训练平台现有任务机制进行拓展,任务可使用Master-Worker机制,即原来的任务变成Master控制消息分发,在其命名空间下创建N个子任务,循环处理数据
 
 
2. 设计一套简单易用的API,尽量对业务代码无侵入
  • 导入依赖:
我们从naie sdk中导入两个装饰器
  • 定义数据:
假设我们有四个数据集实例,我们将它定义为一个列表
如上面代码所示,主程序每次接受一个列表中的元素,其余代码和单机保持一致。
 
after装饰器下面的代码只会在主节点上运行一次,它执行的时机是所有的主程序运行完之后,请根据业务的需求决定是否添加。

改进效果

50个同等大小的文件夹如果在本地运行约需要34hour,扩大训练任务节点数后(现为30个),50个同等大小的文件夹在训练平台运行时间缩短为2hour。

【华为云技术分享】网络场景AI模型训练效率实践的更多相关文章

  1. 【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】

    [摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作 在本节 ...

  2. 【华为云技术分享】跟唐老师学习云网络 : Kubernetes网络实现

    当今K8s独霸天下之时,咱们站在更高的角度,好好的看看K8s网络是以什么理念构筑的.以及一个容器集群的好保姆,是如何分别照顾 南北流量和东西流量的. 一.简单介绍下Kubernetes 略..容器集群 ...

  3. 成为高手前必懂的TCP干货【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  4. 挑战10个最难的Java面试题(附答案)【上】【华为云技术分享】

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/devcloud/article/deta ...

  5. Spring Boot 最流行的 16 条实践解读!【华为云技术分享】

    置顶:华为云618大促火热进行中,全场1折起,免费抽主机,消费满额送P30 Pro,点此抢购. Spring Boot是最流行的用于开发微服务的Java框架.在本文中,将与大家分享自2016年以来笔者 ...

  6. 不服跑个分:ARM鲲鹏云服务器实战评测——华为云鲲鹏KC1实例 vs. 阿里云G5实例【华为云技术分享】

    原文链接:https://m.ithome.com/html/444828.htm 今年一月份,华为正式发布了鲲鹏920数据中心高性能处理器,该处理器兼容ARM架构,采用7纳米制造,最高支持64核,主 ...

  7. 【我的物联网成长记6】由浅入深了解NB-IoT【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  8. MySQL数据库开发的36条原则【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  9. 华为云·寻找黑马程序员#海量数据的分页怎么破?【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  10. Python正则表达式,看完这篇文章就够了...#华为云·寻找黑马程序员#【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

随机推荐

  1. csps 线性dp

    合唱队形 正反分别求一遍最长上升子序列,然后枚举中间的最高点,计算出来队列里面的最多人,然后就可以知道需要出列的最少人. 过河 tips:两个互质的数字 p,q,他们所不能拼出来的最小的数字是 \(( ...

  2. TOPSIS模型

    TOPSIS模型主要是用于评估类模型 一些基本概念: 因为TOPSIS模型是用于评价类的模型,所以会有一些指标的概念,所有指标并非越大越好,例如我们在评价一人的时候会有成绩.和他人发生争吵的次数这两个 ...

  3. websocket和ajax的区别(和http的区别)

    websocket和ajax的区别(和http的区别) https://segmentfault.com/a/1190000021741131 1. 本质不同 ajax,即异步JavaScript和X ...

  4. 手记系列之七 ----- 分享Linux使用经验

    前言 本篇文章主要介绍的关于本人在使用Linux记录笔记的一些使用方法和经验,温馨提示,本文有点长,约1.7w字,几十张图片,建议收藏查看. 一.Linux基础使用 1,服务器查看及时日志 tail ...

  5. [Python急救站课程]圆的面积计算

    利用公式计算圆的面积程序 radius = 25 # 设置圆的面积 area = 3.1415926 * radius * radius # 输入计算公式 print(area) # 输出计算值 pr ...

  6. 24. 从零用Rust编写正反向代理,细说HTTP行为中的几种定时器

    wmproxy wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器,四层TCP/UDP转发,内网穿透,后续将实现websocket代理等,会将实现 ...

  7. 【源码解读(二)】EFCORE源码解读之查询都做了什么以及如何自定义批量插入

    引言 书接上回,[源码解读(一)]EFCORE源码解读之创建DBContext查询拦截,在上一篇文章中,主要讲了DBContext的构造函数,以及如何缓存查询方法提升查询性能,还有最重要的拦截查询,托 ...

  8. C语言判断输入的正整数是否既是5又是7的整倍数。

    #include<stdio.h> void main() { int n;//定义变量 while (1) { scanf_s("%d", &n); if ( ...

  9. BIRCH算法全解析:从原理到实战

    本文全面解析了BIRCH(平衡迭代削减聚类层次)算法,一种用于大规模数据聚类的高效工具.文章从基础概念到技术细节,再到实战应用与最佳实践,提供了一系列具体的指导和例子.无论你是数据科学新手,还是有经验 ...

  10. 【Javaweb】Servlet十 | HttpServletResponse类和HttpServletRequest类

    HttpServletResponse类的作用 HttpServletResponse类和HttpServletRequest类一样.每次请求进来,Tomcat服务器都会创建一个Response对象传 ...