摘要: 中国计算机学会大数据与计算智能大赛(CCF BDCI)华为Severless工作负载预测亚军方案和ModelArts使用体验分享

本文分享自华为云社区《免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军》,原文作者:wyhhyw 。

赛题简介

基于历史数据和历史趋势,对Severless软件架构的工作负载进行精准预测,便于优化资源调整和提升用户服务质量。

数据提供了43个队列数天中的使用情况,其中包涵CPU使用率、磁盘使用率、提交作业数量,作业是否提交成功等信息。要求根据历史信息,预测测试集未来25分钟内,每间隔五分钟的CPU使用率和提交作业数量。赛题链接https://www.datafountain.cn/competitions/468.

赛题分析

这是一道非常典型的时间序列回归问题,目标时对未来五个时间点的CPU使用率和提交作业进行预测。可以从以下几个角度对目标进行建模。

  • 趋势拟合:根据待预测时间点之前的使用率和作业数拟合曲线,并给出预测,参考arima等模型。
  • 单标签回归:以5为时间间隔,对目标进行预测,例如,x1 -> x6, x2 -> x7。具体如下图所示:

  • 多标签回归:参考pandas.shift函数,构造历史信息的平滑特征,每次预测一个时间点的目标。示意图如下:

方案介绍

笔者有幸获得该比赛的第二名(二等奖),建模方法为融合lightgbm和lstm预测结果,其中lightgbm线上第二,lstm线上第10左右。由于本方案采用的lstm结构比较简单且成绩不是特别理想,而第三名的lstm是决赛答辩队伍中线上成绩最高的神经网络模型,因此本文还介绍了第三名(同二等奖)的lstm架构。

数据分析

在特征工程和建模之前,首先来一波EDA~

下图展示了不同队列下的CPU使用率分布情况,可以发现,不同队列下的数据分布存在较大差别,因此队列号对于预测CPU使用率也是一个非常强力的特征。

下图展示了某队列号下CPU使用率随小时的变化趋势,可以发现下午至凌晨3点使用率均较高,因此小时和分钟也是一个非常强力的特征。需要注意的是,赛题方对时间戳的年月日进行了脱敏,因此仅能使用小时和分钟两个特征。

特征工程

必不可少的部分,特征为王

  • 滑动特征:对CPU使用率等特征使用pandas.shift函数构建其平滑特征。
  • 差分特征:在平滑特征的基础上构造各阶差分特征。
  • 基于滑窗的统计特征:在平滑特征的基础上开一个窗口,然后滑动,每次取窗口内特征的均值、方差、最大值等统计特征。
  • 聚合统计特征:例如历史数据中不同小时下CPU使用率的均值和方差等特征。
  • 伪穿越特征:穿越特征一般是不被允许的。那么对于时序问题,可以构建伪穿越特征,其实也就是聚合统计特征。例如,待预测的时间点是上午9点,可以根据历史数据构造上午10点的均值等统计特征,并且衍生出差值比值等特征。

模型

  • 建模策略:见赛题分析中的多标签回归。一般来说,这种建模方式都会取得较好的效果。
  • lightgbm:对每一个标签都进行五折交叉验证,CPU使用率和提交作业数各五个时间点,则一共进行了十次五折交叉验证。
  • lstm:CPU使用率是0-100的整数,连续五个时间点的数据如"10-21-41-31-34"可以看做是nlp中的字符索引,因此可以直接用于索引embedding lookup table中的字向量,那么建模就很自然的过度到了lstm。

下图展示了本文所用的lstm架构,效果并不是十分理想,线上大约在第十左右。在赛后和队友分析讨论之后,认为我们的框架存在几个问题。首先是将每个CPU使用率当做字向量,那么lstm中的input_dim为1,效果肯定不好。其次是我们的框架很简单,并没有引入卷积或者注意力机制等。

下面给出二等奖中另一支队伍的lstm框架,该框架包括两部分:
(1)LSTM提取CPU使用率、硬盘使用率的时序信息,引入注意力机制
(2)全连接提取其他手工特征的信息,进行高阶交叉,并且设置跨层连接,构成“不同尺度的集成模型”。

训练

  • 损失:由于数据波动较大,因此可以认为存在一定的离群点,所以采用smooth l1作为损失函数。
  • 算力:lightgbm建模对算力的要求较小,16G内存足以。但使用上述神经网络训练时,由于是多标签回归(10个标签),对每个标签都需要训练一个模型,如果再结合五折交叉验证,那么将训练50个模型,这对算力就有一定的需求。

笔者在赛程接近尾声时才开始训练nn模型,然而本人只有一张玩具显卡gtx1650,对于该多标签任务训练数十个模型实在太过耗费时间,迫不得已去寻找算力资源。经过师兄的推荐,最后选定了华为云的ModelArts,每天两小时的免费算力,而且是V100,感觉很不错。最后让实验室兄弟多开几个号,一边训练一边保存模型,时间快到了就换号继续训练,两三天就把模型跑好了。虽然因为时限需要切换账号,但总体的使用体验还是不错的,下面就给大家简单介绍一下ModelArts的使用体验。

ModelArts使用体验

使用感受

(1)虽然是在云端训练,但是ModelArts提供了jupyter lab/notebook,就像平时在本地PC上上传数据到notebook中然后写代码一样,完全感知不到训练流程的变化。lab中集成了不同的引擎,常规的如pytorch, tf, xgboost这些都有。

(2)安装依赖包很方便,直接在cell中’!pip install xxx’就可以,原生的notebook中好像没有这个功能。比如我新建的notebook是pytorch引擎,但又需要xgboost,那么就可直接安装,见下图。

(3)目前上传数据有限制,一次只能上传大约是几百MB,可以先将数据上传至notebook中后再进行特征工程,对于比较大的数据,可以本地切分以后分批上传,所以这也是一个无关紧要的问题,毕竟免费V100太香了。

还有一些其他的细节,各位小伙伴们可以自行探索呀!

划重点-如何申请

还愣着干什么,猛点链接,抢算力呀!!! https://bbs.huaweicloud.com/forum/thread-51080-1-1.html

获取更多 AI 相关数据、算法、模型等 AI 资产,请点击“了解更多”,AI Gallery等您!

点击关注,第一时间了解华为云新鲜技术~

ModelArts的雪中送炭,让我拿下CCF BDCI华为Severless工作负载预测亚军的更多相关文章

  1. 从大数据到快数据 数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!

    8月17日,以“数据驱动,智创未来”为主题的2019 CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)全球启动仪式,在北京大学正 ...

  2. 人车识别实验丨华为ModelArts VS 百度Easy DL硬核体验

    摘要:想了解时下流行的自动驾驶相关AI模型吗?接下来就用华为云的ModelArts和百度的Easy DL带你体验一下AI平台是怎么进行模型训练的. 华为ModelArts自动学习 VS 百度Easy ...

  3. 稳过!华为微认证ModelArts实现智能花卉识别稳过!

    华为微认证ModelArts实现智能花卉识别稳过! 目录 华为微认证ModelArts实现智能花卉识别稳过! ModelArts实现智能花卉识别的概述 ModelArts实现智能花卉识别的解决方案 M ...

  4. ICCV 2021口罩人物身份鉴别全球挑战赛冠军方案分享

    1. 引言 10月11-17日,万众期待的国际计算机视觉大会 ICCV 2021 (International Conference on Computer Vision) 在线上如期举行,受到全球计 ...

  5. 基于 PyTorch 和神经网络给 GirlFriend 制作漫画风头像

    摘要:本文中我们介绍的 AnimeGAN 就是 GitHub 上一款爆火的二次元漫画风格迁移工具,可以实现快速的动画风格迁移. 本文分享自华为云社区<AnimeGANv2 照片动漫化:如何基于 ...

  6. 浅谈SQL注入风险 - 一个Login拿下Server

    前两天,带着学生们学习了简单的ASP.NET MVC,通过ADO.NET方式连接数据库,实现增删改查. 可能有一部分学生提前预习过,在我写登录SQL的时候,他们鄙视我说:“老师你这SQL有注入,随便都 ...

  7. CCF考试

    第八次CCF考试记录 代码还不知道对不对,过两天出成绩. 成绩出来了,310分. 100+100+100+10+0: 考试13:27开始,17:30结束,提交第4题后不再答题,只是检查前四题的代码 第 ...

  8. CCF关于NOIP2014复赛报名的通知

    CCF关于NOIP2014复赛报名的通知   CCF NOIP2014复赛全部实行网上注册.报名.未通过网上报名的选手将不具备参赛和申诉资格. 系统注册须知: NOIP2014复赛注册时间:2014年 ...

  9. [CCF] Z字形扫描

    CCF Z字形扫描 感觉和LeetCode中的ZigZag还是有一些不一样的. 题目描述 在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan).给定一个n×n的矩阵,Z ...

  10. [CCF] ISBN号码检测

    CCF ISBN号码检测 题目概述 每一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括9位数字.1位识别码和3位分隔符,其规定格式如"x-xxx-xxxxx-x",其 ...

随机推荐

  1. 6.使用leetcode去练习语言

    目录 1 本章预览 2 简单题举例 2.1 题目描述 2.2 题目解析 2.3 题解 2.4 涉及基础语法 3 中等题举例 3.1 题目描述 3.2 题目解析 3.3 题解 3.4 涉及基础语法 4 ...

  2. 自编码器AE全方位探析:构建、训练、推理与多平台部署

    本文深入探讨了自编码器(AE)的核心概念.类型.应用场景及实战演示.通过理论分析和实践结合,我们详细解释了自动编码器的工作原理和数学基础,并通过具体代码示例展示了从模型构建.训练到多平台推理部署的全过 ...

  3. 从零开始搭建antd4.x + react16 + redux4 + webpack4 + react-router5基础框架解析

    以上是2020年10月份的版本,后来,我将xmind进行了完善,文档也写的差不多了,可是,电脑坏了,硬盘换了,文件都没有了.这已经是第三次写这个文档了,思维导图就不更新了,按照几个重点进行说明. 这个 ...

  4. SpringBoot数据响应、分层解耦、三层架构

    响应数据 @ResponseBody 类型:方法注解.类注解 位置:Controller方法.类上 作用:将方法返回值直接响应,如果返回值类型是 实体对象/集合 ,将会转换为json格式响应 说明:@ ...

  5. Vue一些进阶知识-基于官网(笔记)

    前言 主要根据vue官网文档完成.对一些平时可能会用到的知识.组件进行收集,为的是对vue的可用性有一个大致的了解.博客中的组件介绍可能只涉及简单用法,完整用法还是以官网为准. 基础 启动过程: 主文 ...

  6. 聊聊魔塔社区MGeo模型的部署与运行

    从现今与今后的发展来看,单一的业务不再仅仅依靠于传统的技术开发,而是应该结合AI模型来应用.实践.只有这样,才能更数智化,更高效化,更贴合时代的发展. 魔塔 社区就类似国外的Hugging Face, ...

  7. TechEmpower 22轮Web框架 性能评测:.NET 8 战绩斐然

    自从2022年7月第21轮公布的测试以后,一年后 的2023年10月17日 发布了 TechEmpower 22轮测试报告 刚刚发布:Round 22 results - TechEmpower Fr ...

  8. LabVIEW用布尔控件实现上升沿和下降沿触发

    我们利用了第三方布尔控件来记录摇杆的高低电平状态,并和摇杆布尔控件组成布尔数组,转换成十进制数进行判断上升沿和下降. 上升沿触发.例如一开始第三方布尔控件为T,夹紧松开布尔控件为F,然后我这时把摇杆控 ...

  9. JAVA学习week2

    这周:根据老师在群里面推荐的JAV学习路线,初步规划了一下学习方案 并找到了相关的视频,目前来说在学习SE.学习内容:环境变量的配置和简单的hello world程序书写的注意点 下周:打算进行简单的 ...

  10. 【Javaweb】什么是Listener监听器?

    1.Listener监听器它是Javaweb的三大组件之一.Javaweb的三大组件分别是:Servelt程序,Filter过滤器,Listener监听器. 2.Listener它是JavaEE的规范 ...