基于迁移学习的基础设施成本优化框架，火山引擎数智平台与北京大学联合论文被KDD收录

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

近期，第29届国际知识发现与数据挖掘大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining，以下简称KDD）在美国加州长滩举办。由火山引擎数智平台，北京大学计算机学院和蒙特利尔学习算法研究所等单位合作的论文 Rover: An online Spark SQL tuning service via generalized transfer learning（以下简称Rover）成功被大会收录。Rover由北京大学的沈彧和火山引擎数智平台的任鑫宇杨担任共同第一作者，北京大学的崔斌教授担任通讯作者。

图1：论文题目和作者信息

KDD会议始于1989年，是数据挖掘领域历史最悠久、影响最大的顶级学术年会。KDD广泛的交叉学科性和应用性吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的研究者，为来自学术界、企业界和政府部门的相关人员提供了一个学术交流和成果展示的理想场所。

Apache Spark作为主流的分布式计算框架，在工业界得到了广泛的应用，字节跳动内部庞大的例行计算任务每天消费数百万core CPU及数十PB RAM规模的计算资源。每个Spark任务通过200余个相互关联的配置参数启动，但是，由于平台默认配置缺乏弹性，任务环境多样，终端用户经验不足等问题，相当数量的计算资源常因不合理的配置而被浪费。传统上，有经验的大数据工程师可以依据每个任务的运行情况，对其配置进行人工分析和调整。然而，这种人工调优方式在面临在高维参数组合时往往难以奏效，并伴有运维迭代成本高昂等问题，使得其难以被规模化。

为了解决此问题，火山引擎的工程师和北京大学的研究者一起设计了一种结合机器学习方法与人类专家知识的基础设施成本优化框架（如图2所示），该框架以贝叶斯优化算法为基础，使用高斯过程作为代理模型学习配置参数集与任务成本/运行时长的关系，并通过可信赖的迁移学习机制，从人类专家知识编码中获得安全性和可解释性（如图2中Expert-assisted Optimization部分所示），并从相似的历史任务中获得额外的收敛加速特性（如图2中Controlled History Transfer部分所示）。

图2:Rover优化器的整体架构

该方案能自动化识别和调整例行计算任务的配置参数集，在不破坏任务服务等级的前提下压缩资源浪费，有效节省运行成本。经验证，Rover在公开任务集及字节跳动内部的实际部署中，对比当前业内领先的解决方案，在极限收益，收敛速度和安全性方面均有进一步提升。

图3: 对比4种业内领先的解决方案，Rover在公开任务集上的内存节约比例更为显著

Rover是基于火山引擎DataTester在字节跳动内部应用的自动调参系统优化器内核、增加迁移学习机制演化而来，并通过自动调参平台的配套服务来实施和运行的，目前该项研究已经在字节跳动上万个Spark数据开发任务上得到应用，已帮助公司节约700万元/年的资源成本。未来，这项技术将在字节跳动内部的大数据计算基础设施上大规模部署，预计每年将会节约近十亿元，还将通过火山引擎数智平台为外部企业提供通用优化器服务，可应用于基础设施成本优化，线上算法超参数优化等多种场景。

据了解，火山引擎数智平台（VeDI）是新一代企业数据智能服务平台，旗下的A/B测试产品DataTester经历了字节跳动的10年打磨，目前服务于字节跳动内部500余个业务线，也服务了包括美的、得到、凯叔讲故事等在内的上百家外部企业，为企业业务的用户增长、转化、产品迭代、运营活动等各个环节提供科学的决策依据，将成熟的“数据驱动增长”经验赋能给各行业。

点击跳转火山引擎A/B测试了解更多

基于迁移学习的基础设施成本优化框架，火山引擎数智平台与北京大学联合论文被KDD收录的更多相关文章

基于深度学习的中文语音识别系统框架（pluse）
目录声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...
ML.NET 示例：图像分类模型训练-首选API（基于原生TensorFlow迁移学习）
ML.NET 版本 API 类型状态应用程序类型数据类型场景机器学习任务算法 Microsoft.ML 1.5.0 动态API 最新控制台应用程序和Web应用程序图片文件图像分类基 ...
基于双向LSTM和迁移学习的seq2seq核心实体识别
http://spaces.ac.cn/archives/3942/ 暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛,最终的结果还不错,遂记录一下.模型的效果不是最好的,但是胜在“端到端”, ...
《A Survey on Transfer Learning》迁移学习研究综述翻译
迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要: 在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据 ...
【转载】第四范式首席科学家杨强：AlphaGo的弱点及迁移学习的应对（附视频）
原文地址: https://www.jiqizhixin.com/articles/2017-06-02-2 ============================================= ...
在线学习和在线凸优化（online learning and online convex optimization）—基础介绍1
开启一个在线学习和在线凸优化框架专题学习: 1.首先介绍在线学习的相关概念在线学习是在一系列连续的回合(rounds)中进行的: 在回合,学习机(learner)被给一个question:(一个向量 ...
基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层，对每张图片得到一个 4096 维的特征向量，然后我们直接用这个特征向量替代原来的图片，再加若干层全连接的神经网络，对花朵数据集进行训练（属于模型迁移）
基于深度学习和迁移学习的识花实践(转) 深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 Tens ...
在线学习和在线凸优化（online learning and online convex optimization）—在线凸优化框架3
近年来,许多有效的在线学习算法的设计受到凸优化工具的影响. 此外,据观察,大多数先前提出的有效算法可以基于以下优雅模型联合分析: 凸集的定义: 一个向量的Regret定义为: 如前所述,算法相对于竞 ...
滴滴Booster移动APP质量优化框架学习之旅二
推荐阅读: 滴滴Booster移动App质量优化框架-学习之旅一 Android 模块Api化演练不一样视角的Glide剖析(一) 续写滴滴Booster移动APP质量优化框架学习之旅,上篇文章分 ...
吴裕雄--天生自然神经网络人工智能项目：基于深度学习TENSORFLOW框架的图像分类与目标跟踪报告（续四）
2. 神经网络的搭建以及迁移学习的测试 7.项目总结通过本次水果图片卷积池化全连接试验分类项目的实践,我对卷积.池化.全连接等相关的理论的理解更加全面和清晰了.试验主要采用python高级编程语言的 ...

随机推荐

ubuntu20.04不定时卡死，鼠标和键盘都不可用，且tty无效
事情的经过: 已经在ubuntu上安装了好多东西,配置了好多环境,最近突然莫名卡死.我遇到的问题是: 1.如果开机之后只是打开终端,打开编辑器之类的操作,系统不会卡死. 2.一旦打开firefox火狐 ...
批处理（Batch或离线计算）和流计算（Streaming或实时计算）
大数据处理流程课程:https://developer.aliyun.com/learning/course/432/detail/5385 流程发批处理(Batch或离线计算) 基础:goog ...
Eclipse设置GC日志输出
今天看了关于垃圾回收的书籍,然后自己就想自己试试,自己就在eclipse里面配置了日志输出.方法如下: 1 右键项目,选择properties 2 选择run/debug setting 新建一个a ...
[Python急救站课程]同切圆的绘制
绘制同切圆 import turtle # 引用turtle 库 turtle.pensize(2) # 设置画笔宽度为2 像素 turtle.circle(10) # 绘制半径为10 像素的圆 tu ...
Transformers 中原生支持的量化方案概述
本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述,以助于读者进行方案选择. 目前,量化模型有两个主要的用途: 在较小的设备上进行大模型推理对量化模型进行适配器微调 ...
Wampserver搭建DVWA和sqli-labs问题总结
Wampserver 搭建 DVWA 和 sqli-labs 问题总结遇到问题解决的思路方法百度,博客去搜索相关的问题,人工智能 chatgpt 查看官方文档,查看注释. 本次解决方法就是在文档的 ...
使用js写一个音乐音谱图
我们经常看到在听乐音的时候,会有音谱图随着音乐的节奏不断变化给人视觉上的享受,那么我们通过js来实现以下这个效果,下面是简单的效果图首先我们需要有一个绘制音频的函数 function draw() ...
【web实验报告】实验二
一.实验目的通过一个小型网站的开发,掌握JSP基础知识,加深对session,request,response,cookie等对象的理解,掌握其使用方法,进一步深入掌握HTML.CSS和JavaSc ...
安全测试工具Burpsuit和OWASP ZAP使用入门指南
Burpsuit使用入门指南安装: 网上有很多相关相关保姆级别教程,所以这里不加赘述了尽量使用java8版本,破解版兼容8做的比较好如果发现注册机无法打开或者能打开注册机[run]无法点击唤起软 ...
springCore完整学习教程2，入门级别
上集说到:2. 3,咱们从2.3集开始 2. Externalized Configuration 2.3. External Application Properties Spring Boot会自 ...

基于迁移学习的基础设施成本优化框架，火山引擎数智平台与北京大学联合论文被KDD收录

基于迁移学习的基础设施成本优化框架，火山引擎数智平台与北京大学联合论文被KDD收录的更多相关文章

随机推荐

热门专题