阅读AuTO利用深度强化学习自动优化数据中心流量工程(一)

范加索尔拉 2024-10-30 22:39:09 原文

目录

问题
解决方法
模型选择
框架构建

Sigcomm'18

AuTO: Scaling Deep Reinforcement Learning for Datacenter-Scale Automatic Traffic Optimization

问题

主要问题：流量算法的配置周期长，人工配置难且繁复。人工配置的时间成本大，人为错误导致的性能降低。

要计算MLFQ的阈值参数是很麻烦的事情，先前有人构建了一个数学模型来优化这个阈值，在几个星期或者几个月更新一次阈值，更新周期过长。

可以使用DRL(Deep Reinforcement Learning)的方法根据环境自动配置(决策)算法参数，减少人工配置的时间成本，减少人为错误导致的性能降低。

基于主流框架TensorFlow或是pytorch等框架的的DRL难以掌控TO(traffic optimization)的小流（速度过快）

使用DRL优化时遇见的问题：DRL配置TO时，由于小流通过速度大于配置下发的速度，所以来不及下发配置。

解决方法

优化的算法：采用 Multi-Level Feedback Queueing(MLFQ)来管理流。第一级别的队列为小流，所有流初始化为小流。当流的大小超过阈值时，判定为大流，在队列中被降级到第二队列。可以有k个队列，按照流的不同级别分在不同的队列当中。

决策参数：基于比特数和阈值来对每个流做出决策，判定流属于第几级别的队列。

评价参数：当一次流处理完成时，计算一个比率，比率为本次的吞吐量与前一次的吞吐量之比。吞吐量Sizef（流长）与FCT(Flow completion time)之比。

使用DRL优化：使用强化学习优化阈值。根据结果反馈调整阈值的设定。

状态和奖励返回是随机的马尔科夫过程

模型选择

公式一

公式一的改进：公式二

算法主要使用公式二

公式二的相关解释

算法

论文从强化学习的算法PG讲到DPG再讲到DDPG，最后使用了DDPG。

经过查询资料，DDPG使用了深度神经网络，并且针对的是决策值为连续的情况，而参数值的变化又是连续的，所以使用DDPG较为合适且有效。

当一次流处理完成时，计算一个比率，比率为本次的吞吐量与前一次的吞吐量之比。吞吐量Sizef（流长）与FCT(Flow completion time)之比。

框架构建

模型组成：

边缘系统
中心系统

边缘系统

有一个MLFQ，首级队列为小流，当流超过阈值，判定为大流，在队列中被降级。

边缘系统分为增强模块和探测模块。

探测模块：获取流的状态信息(包括所有流的大小和处理完成的时间)
增强模块：获取中心系统的action，执行操作。

中心系统

其中的DRL有两个agent：

sRLA(short Reinforcement Learning Agent): 优化小流阈值
lRLA(long Reinforcement Learning Agent)：优化大流，速率、路由、优先级

阅读AuTO利用深度强化学习自动优化数据中心流量工程(一)的更多相关文章

论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)
这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来 ...
基于TORCS和Torch7实现端到端连续动作自动驾驶深度强化学习模型（A3C）的训练
基于TORCS(C++)和Torch7(lua)实现自动驾驶端到端深度强化学习模型(A3C-连续动作)的训练先占坑,后续内容有空慢慢往里填训练系统框架先占坑,后续内容有空慢慢往里填训练系统核心 ...
深度强化学习资料（视频+PPT+PDF下载）
https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...
(转) 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）
本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...
用深度强化学习玩FlappyBird
摘要:学习玩游戏一直是当今AI研究的热门话题之一.使用博弈论/搜索算法来解决这些问题需要特别地进行周密的特性定义,使得其扩展性不强.使用深度学习算法训练的卷积神经网络模型(CNN)自提出以来在图像处理 ...
深度学习课程笔记（十四）深度强化学习 --- Proximal Policy Optimization (PPO)
深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO) 2018-07-17 16:54:51 Reference: https://b ...
一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
深度强化学习——连续动作控制DDPG、NAF
一.存在的问题 DQN是一个面向离散控制的算法,即输出的动作是离散的.对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制. 然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节 ...
深度强化学习day01初探强化学习
深度强化学习基本概念强化学习强化学习(Reinforcement Learning)是机器学习的一个重要的分支,主要用来解决连续决策的问题.强化学习可以在复杂的.不确定的环境中学习如何实现我们设 ...

随机推荐

使用fastjson 获取json字符串中的数组，再转化为java集合对象
最近,使用layui做一个导出功能,尽管有插件提供导出,但是呢,由于数据中有状态是数字,例如1显示是已支付,但是导出时也希望这样显示,但是导出的还是1: lz没有找到改下这个插件的办法,只能利用服务端 ...
Java注解拾遗
注解简介: 注解Annotation是jdk1.5的新增功能,在现在的日常开发中,几乎离不开注解,写篇短文,来做个拾遗. 注解作用: Annotation(注解)的作用是修饰包.类.构造方法.方法.成 ...
【零基础学习FreeRTOS嵌入式系统】之一：FreeRTOS环境搭建
[零基础学习FreeRTOS嵌入式系统]之一:FreeRTOS环境搭建一:FreeRTOS系统下载在官网上https://www.freertos.org/,找到下载入口. 或直接进入下载地址ht ...
原生javascript实现类似jquery on方法的行为监听
原生javascript有addEventListener和attachEvent方法来注册事件,但有时候我们需要判断某一行为甚至某一函数是否被执行了,并且能够获取前一行为的参数,这个时候就需要其他方 ...
Vue.js小案例(1)
数据绑定数据绑定是vue.js的基础.本例中就是利用了vue.js的v-model指令在表单元素上创建双向数据绑定.  <div id=" ...
jQuery的attr()与prop()的区别
jQuery的attr()与prop()都是用于获取与设置属性的,但它们又各有不同. attr()一般是用于设置默认值,prop()一般是用于设置属性值,即对于像“diabled”,"che ...
LeetCode赛题----Find Left Most Element
问题描述 Given a binary tree, find the left most element in the last row of the tree. Example 1: Input: ...
WebService程序数据集之WSDL取数
在通用的webservice集合中,在集合中使用wsdl取数的方式获取数据,并将数据转换为程序数据集,那么怎样通过wsdl取数并转换为程序数据集呢? 首先将wsdl获取到的数据数据转换为二维数组,然后 ...
Python爬虫教程-03-使用 chardet 检测编码
Spider-03-使用chardet 继续学习python爬虫,我们经常出现解码问题,因为所有的页面编码都不统一,我们使用chardet检测页面的编码,尽可能的减少编码问题的出现网页编码问题解决 ...
Python爬虫教程-02-使用urlopen
Spider-02-使用urlopen 做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOM urllib 包含模块 - urllib.request:打开和读取urls - ur ...