更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
 
基于迁移学习的基础设施成本优化框架,火山引擎数智平台与北京大学联合论文被KDD收录
近期,第29届国际知识发现与数据挖掘大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,以下简称KDD)在美国加州长滩举办。由火山引擎数智平台,北京大学计算机学院和蒙特利尔学习算法研究所等单位合作的论文 Rover: An online Spark SQL tuning service via generalized transfer learning(以下简称Rover)成功被大会收录。Rover由北京大学的沈彧和火山引擎数智平台的任鑫宇杨担任共同第一作者,北京大学的崔斌教授担任通讯作者。
图1:论文题目和作者信息
KDD会议始于1989年,是数据挖掘领域历史最悠久、影响最大的顶级学术年会。KDD广泛的交叉学科性和应用性吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的研究者,为来自学术界、企业界和政府部门的相关人员提供了一个学术交流和成果展示的理想场所。
Apache Spark作为主流的分布式计算框架,在工业界得到了广泛的应用,字节跳动内部庞大的例行计算任务每天消费数百万core CPU及数十PB RAM规模的计算资源。每个Spark任务通过200余个相互关联的配置参数启动,但是,由于平台默认配置缺乏弹性,任务环境多样,终端用户经验不足等问题,相当数量的计算资源常因不合理的配置而被浪费。传统上,有经验的大数据工程师可以依据每个任务的运行情况,对其配置进行人工分析和调整。然而,这种人工调优方式在面临在高维参数组合时往往难以奏效,并伴有运维迭代成本高昂等问题,使得其难以被规模化。
为了解决此问题,火山引擎的工程师和北京大学的研究者一起设计了一种结合机器学习方法与人类专家知识的基础设施成本优化框架(如图2所示),该框架以贝叶斯优化算法为基础,使用高斯过程作为代理模型学习配置参数集与任务成本/运行时长的关系,并通过可信赖的迁移学习机制,从人类专家知识编码中获得安全性和可解释性(如图2中Expert-assisted Optimization部分所示),并从相似的历史任务中获得额外的收敛加速特性(如图2中Controlled History Transfer部分所示)。
图2:Rover优化器的整体架构
该方案能自动化识别和调整例行计算任务的配置参数集,在不破坏任务服务等级的前提下压缩资源浪费,有效节省运行成本。经验证,Rover在公开任务集及字节跳动内部的实际部署中,对比当前业内领先的解决方案,在极限收益,收敛速度和安全性方面均有进一步提升。
图3: 对比4种业内领先的解决方案,Rover在公开任务集上的内存节约比例更为显著
Rover是基于火山引擎DataTester在字节跳动内部应用的自动调参系统优化器内核、增加迁移学习机制演化而来,并通过自动调参平台的配套服务来实施和运行的,目前该项研究已经在字节跳动上万个Spark数据开发任务上得到应用,已帮助公司节约700万元/年的资源成本。未来,这项技术将在字节跳动内部的大数据计算基础设施上大规模部署,预计每年将会节约近十亿元,还将通过火山引擎数智平台为外部企业提供通用优化器服务,可应用于基础设施成本优化,线上算法超参数优化等多种场景。
据了解,火山引擎数智平台(VeDI)是新一代企业数据智能服务平台,旗下的A/B测试产品DataTester经历了字节跳动的10年打磨,目前服务于字节跳动内部500余个业务线,也服务了包括美的、得到、凯叔讲故事等在内的上百家外部企业,为企业业务的用户增长、转化、产品迭代、运营活动等各个环节提供科学的决策依据,将成熟的“数据驱动增长”经验赋能给各行业。
 

点击跳转火山引擎A/B测试了解更多

基于迁移学习的基础设施成本优化框架,火山引擎数智平台与北京大学联合论文被KDD收录的更多相关文章

  1. 基于深度学习的中文语音识别系统框架(pluse)

    目录 声学模型 GRU-CTC DFCNN DFSMN 语言模型 n-gram CBHG 数据集 本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 声学模型 ...

  2. ML.NET 示例:图像分类模型训练-首选API(基于原生TensorFlow迁移学习)

    ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 Microsoft.ML 1.5.0 动态API 最新 控制台应用程序和Web应用程序 图片文件 图像分类 基 ...

  3. 基于双向LSTM和迁移学习的seq2seq核心实体识别

    http://spaces.ac.cn/archives/3942/ 暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛,最终的结果还不错,遂记录一下.模型的效果不是最好的,但是胜在“端到端”, ...

  4. 《A Survey on Transfer Learning》迁移学习研究综述 翻译

    迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要:   在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据 ...

  5. 【转载】 第四范式首席科学家杨强:AlphaGo的弱点及迁移学习的应对(附视频)

    原文地址: https://www.jiqizhixin.com/articles/2017-06-02-2 ============================================= ...

  6. 在线学习和在线凸优化(online learning and online convex optimization)—基础介绍1

    开启一个在线学习和在线凸优化框架专题学习: 1.首先介绍在线学习的相关概念 在线学习是在一系列连续的回合(rounds)中进行的: 在回合,学习机(learner)被给一个question:(一个向量 ...

  7. 基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层,对每张图片得到一个 4096 维的特征向量,然后我们直接用这个特征向量替代原来的图片,再加若干层全连接的神经网络,对花朵数据集进行训练(属于模型迁移)

    基于深度学习和迁移学习的识花实践(转)   深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 Tens ...

  8. 在线学习和在线凸优化(online learning and online convex optimization)—在线凸优化框架3

    近年来,许多有效的在线学习算法的设计受到凸优化工具的影响. 此外,据观察,大多数先前提出的有效算法可以基于以下优雅模型联合分析: 凸集的定义: 一个向量 的Regret定义为: 如前所述,算法相对于竞 ...

  9. 滴滴Booster移动APP质量优化框架 学习之旅 二

    推荐阅读: 滴滴Booster移动App质量优化框架-学习之旅 一 Android 模块Api化演练 不一样视角的Glide剖析(一) 续写滴滴Booster移动APP质量优化框架学习之旅,上篇文章分 ...

  10. 吴裕雄--天生自然 神经网络人工智能项目:基于深度学习TENSORFLOW框架的图像分类与目标跟踪报告(续四)

    2. 神经网络的搭建以及迁移学习的测试 7.项目总结 通过本次水果图片卷积池化全连接试验分类项目的实践,我对卷积.池化.全连接等相关的理论的理解更加全面和清晰了.试验主要采用python高级编程语言的 ...

随机推荐

  1. AGC044C Strange Dance 题解

    在2020年A卷省选day2t2有类似建立trie的技巧. 题目链接 显然是建一棵三叉trie树,代表0/1/2 对这棵trie树,我们需要支持子树交换和全局加1 考虑第一个操作怎么做?直接打个懒标记 ...

  2. Golang后端大厂面经!

    大家好,我是阳哥.专注Go语言的学习经验分享和就业辅导. 之前分享了很多 Golang 后端的大厂面经,不少同学在催更新,这篇给大家继续安排. 本文来自一位同学的投稿,面试深X服的面经汇总,前半部分主 ...

  3. Net 高级调试之七:线程操作相关命令介绍

    一.简介 今天是<Net 高级调试>的第六篇文章.上一篇文章我们说了值类型,引用类型,数组等的内存表现形式.有了这个基础,我们可以更好的了解我们的程序在运行时的状态,内存里有什么东西,它们 ...

  4. 题解 CF1742G

    题目描述: 给你一个序列 \(A\),要求将 \(A\) 重新排序,使得序列 \(A\) 的前缀或和序列 \(B\) 的字典序最大. 题目分析: 这道题我们首先考虑一个性质,就是前缀或和序列 \(B\ ...

  5. Netty源码学习5——服务端是如何读取数据的

    系列文章目录和关于我 零丶引入 在前面<Netty源码学习4--服务端是处理新连接的&netty的reactor模式>的学习中,我们了解到服务端是如何处理新连接的,即注册Serve ...

  6. 【Javaweb】Servlet十 | HttpServletResponse类和HttpServletRequest类

    HttpServletResponse类的作用 HttpServletResponse类和HttpServletRequest类一样.每次请求进来,Tomcat服务器都会创建一个Response对象传 ...

  7. 利用 Excel 对学生的成绩进行分析管理

    利用 Excel 对学生的成绩进行分析和管理是一种常见且有效的方法.以下是一些步骤和技巧,以帮助您实施这一过程: 1. 数据输入:将学生成绩数据输入到 Excel 中的一个工作表中.每个学生可以有一行 ...

  8. WPF 纯XAML实现NumericUpDown 控件

    本文由 飞羽流星(Flithor/毛茸茸松鼠先生/Squirrel.Downy)原创,欢迎分享转载,但禁止以原创二次发布原文地址:https://www.cnblogs.com/Flithor/arc ...

  9. VBA常用的函数

    space(8)加空格 vbcrlf换行 trim()去掉两侧空格 lrim()去掉左侧空格 rtrim()去掉右侧空格 left()取字符的左侧 right()取字符串的右侧开始 mid()取字符串 ...

  10. [QOJ1359] Setting Maps

    题目链接 \(k=1\) 的时候显然是最小割.把一个点 \(u\) 拆成 两个点,中间连流量为 \(c_u\) 的边. 那么考虑扩展到 \(k\) 更大的情况.把上图的每个入点和出点都拆成 \(k\) ...