使用JAX构建强化学习agent并借助TensorFlowLite将其部署到Android应用中

在之前发布文章《一个新 TensorFlow Lite 示例应用：棋盘游戏》中，展示了如何使用 TensorFlow 和 TensorFlow Agents 来训练强化学习 (RL) agent，使其玩一个简单棋盘游戏 “Plane Strike”。我们还将训练后模型转换为 TensorFlow Lite，然后将其部署到功能完备 Android 应用中。本文，我们将演示一种全新路径: 使用 Flax/JAX 训练相同强化学习 agent，然后将其部署到我们之前构建同一款 Android 应用中。我们已经在 tensorflow/examples 代码库中开放了完整源代码以供您参考。

Flaxhttps://flax.readthedocs.io/
JAXhttps://jax.readthedocs.io/
tensorflow/exampleshttps://github.com/tensorflow/examples/blob/master/lite/examples/reinforcement_learning/ml/tf_and_jax/training_jax.py

简单回顾一下游戏规则: 我们基于强化学习 agent 需要根据真人玩家棋盘位置预测击打位置，以便能早于真人玩家完成游戏。如需进一步了解游戏规则，请参阅我们之前发布文章。

△ “Plane Strike” 游戏演示 背景: JAX 和 TensorFlow

JAX 是一个与 NumPy 类似内容库，由 Google Research 部门专为实现高性能计算而开发。JAX 使用 XLA 针对 GPU 和 TPU 优化程序进行编译。

JAXhttps://github.com/google/jax
XLAhttps://tensorflow.google.cn/xla
TPUhttps://cloud.google.com/tpu

而 Flax 则是在 JAX 基础上构建一款热门神经网络库。研究人员一直在使用 JAX/Flax 来训练包含数亿万个参数超大模型 (如用于语言理解和生成 PaLM，或者用于图像生成 Imagen)，以便充分利用现代硬件。

Flaxhttps://github.com/google/flax
PaLMhttps://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html
Imagenhttps://imagen.research.google/

如果您不熟悉 JAX 和 Flax，可以先从 JAX 101 教程和 Flax 入门示例开始。

JAX 101 教程https://jax.readthedocs.io/en/latest/jax-101/index.html
Flax 入门示例https://flax.readthedocs.io/en/latest/getting_started.html

2015 年底，TensorFlow 作为 Machine Learning (ML) 内容库问世，现已发展为一个丰富生态系统，其中包含用于实现 ML 流水线生产化 (TFX)、数据可视化 (TensorBoard)，和将 ML 模型部署到边缘设备 (TensorFlow Lite) 工具，以及在网络浏览器上运行装置，或能够执行 JavaScript (TensorFlow.js) 任何装置。

TFXhttps://tensorflow.google.cn/tfx
TensorBoardhttps://tensorboard.dev/
TensorFlow Litehttps://tensorflow.google.cn/lite
TensorFlow.jshttps://tensorflow.google.cn/js

在 JAX 或 Flax 中开发模型也可以利用这一丰富生态系统。方法是首先将此类模型转换为 TensorFlow SavedModel 格式，然后使用与它们在 TensorFlow 中原生开发相同工具。

SavedModelhttps://tensorflow.google.cn/guide/saved_model

如果您已经拥有经 JAX 训练模型并希望立即进行部署，我们整合了一份资源列表供您参考:

频 “使用 TensorFlow Serving 为 JAX 模型提供服务”，展示了如何使用 TensorFlow Serving 部署 JAX 模型:
文章《借助 TensorFlow.js 在网络上使用 JAX》，对如何将 JAX 模型转换为 TFJS，并在网络应用中运行进行了详细讲解:
https://blog.tensorflow.org/2022/08/jax-on-web-with-tensorflowjs.html
本篇文章演示了如何将 Flax/JAX 模型转换为 TFLite，并在原生 Android 应用中运行该模型。

总而言之，无论您部署目标是服务器、网络还是移动设备，我们都会为您提供相应帮助。使用 Flax/JAX 实现游戏 agent

将目光转回到棋盘游戏。为了实现强化学习 agent，我们将会利用与之前相同 OpenAI gym 环境。这次，我们将使用 Flax/JAX 训练相同策略梯度模型。回想一下，在数学层面上策略梯度定义是:

OpenAI gymhttps://github.com/tensorflow/examples/tree/master/lite/examples/reinforcement_learning/ml/tf_and_jax/gym_planestrike/gym_planestrike/envs

其中:

T: 每段时步数，各段时步数可能有所不同
st: 时步上状态 t
at: 时步上所选操作 t 指定状态 s
πθ: 参数为 θ 策略
R(*): 在指定策略下，收集到奖励

我们定义了一个 3 层 MLP 作为策略网络，该网络可以预测 agent 下一个击打位置。 class PolicyGradient(nn.Module):

“””Neural network to predict the next strike position.”””

@nn.compact
def __call__(self, x):
dtype = jnp.float32
x = x.reshape((x.shape[0], -1))
x = nn.Dense(
features=2 * common.BOARD_SIZE**2, name=’hidden1′, dtype=dtype)(
x)
x = nn.relu(x)
x = nn.Dense(features=common.BOARD_SIZE**2, name=’hidden2′, dtype=dtype)(x)
x = nn.relu(x)
x = nn.Dense(features=common.BOARD_SIZE**2, name=’logits’, dtype=dtype)(x)
policy_probabilities = nn.softmax(x)
return policy_probabilities

在我们训练循环每次迭代中，我们都会使用神经网络玩一局游戏、收集轨迹信息 (游戏棋盘位置、采取操作和奖励)、对奖励进行折扣，然后使用相应轨迹训练模型。for i in tqdm(range(iterations)):
predict_fn = functools.partial(run_inference, params)
board_log, action_log, result_log = common.play_game(predict_fn)
rewards = common.compute_rewards(result_log)
optimizer, params, opt_state = train_step(optimizer, params, opt_state,
board_log, action_log, rewards)在 train_step() 方法中，我们首先会使用轨迹计算损失，然后使用 jax.grad() 计算梯度，最后，使用 Optax (用于 JAX 梯度处理和优化库) 来更新模型参数。def compute_loss(logits, labels, rewards):
one_hot_labels = jax.nn.one_hot(labels, num_classes=common.BOARD_SIZE**2)
loss = -jnp.mean(
jnp.sum(one_hot_labels * jnp.log(logits), axis=-1) * jnp.asarray(rewards))
return loss

def train_step(model_optimizer, params, opt_state, game_board_log,
predicted_action_log, action_result_log):
“””Run one training step.”””

def loss_fn(model_params):
logits = run_inference(model_params, game_board_log)
loss = compute_loss(logits, predicted_action_log, action_result_log)
return loss

def compute_grads(params):
return jax.grad(loss_fn)(params)

grads = compute_grads(params)
updates, opt_state = model_optimizer.update(grads, opt_state)
params = optax.apply_updates(params, updates)
return model_optimizer, params, opt_state

@jax.jit
def run_inference(model_params, board):
logits = PolicyGradient().apply({‘params’: model_params}, board)
return logits

Optaxhttps://github.com/deepmind/optax

这就是训练循环。如下图所示，我们可以在 TensorBoard 中观察训练进度；其中，我们使代理指标 “game_length” (完成游戏所需步骤数) 来跟踪进度: 若 agent 变得更聪明，它便能以更少步骤完成游戏。将 Flax/JAX 模型转换为 TensorFlow Lite 并与 Android 应用集成
完成模型训练后，我们使用 jax2tf (一款 TensorFlow-JAX 互操作工具)，将 JAX 模型转换为
TensorFlow concrete function。最后一步是调用 TensorFlow Lite 转换器来将 concrete
function 转换为 TFLite 模型。

# Convert to tflite model
model = PolicyGradient()
jax_predict_fn = lambda input: model.apply({‘params’: params}, input)
if_predict = tf.function(
jax2tf.convert(jax_predict_fn, enable_xla=False),
input_signature=[
tf.TensorSpec(
shape=[1, common.BOARD_SIZE, common.BOARD_SIZE],
dtype=tf.float32,
name=’input’)
],
autograph=False,
)
converter = tf.lite.TFLiteConverter.from_concrete_functions(
[tf_predict.get_concrete_function()], tf_predict)
tflite_model = converter.convert()
# Save the model
with open(os.path.join(modeldir, ‘planestrike.tflite’), ‘wb’) as f:
f.write(tflite_model)

jax2tf

https://github.com/google/jax/tree/main/jax/experimental/jax2tf

经 JAX 转换 TFLite 模型与任何经 TensorFlow 训练 TFLite 模型会有完全一致行为。您可以使用 Netron 进行可视化:

使用 Netron 对 Flax/JAX 转换 TFLite 模型进行可视化

我们可以使用与之前完全一样 Java 代码来调用模型并获取预测结果。

convertBoardStateToByteBuffer(board);
tflite.run(boardData, outputProbArrays);
float[] probArray = outputProbArrays[0];
int agentStrikePosition = -1;
float maxProb = 0;
for (int i = 0; i < probArray.length; i++) {
int x = i / Constants.BOARD_SIZE;
int y = i % Constants.BOARD_SIZE;
if (board[x][y] == BoardCellStatus.UNTRIED && probArray[i] > maxProb) {
agentStrikePosition = i;
maxProb = probArray[i];
}
}

总结

本文详细介绍了如何使用 Flax/JAX 训练简单强化学习模型、利用 jax2tf 将其转换为 TensorFlow Lite，以及将转换后模型集成到 Android 应用。

现在，您已经了解了如何使用 Flax/JAX 构建神经网络模型，以及如何利用强大 TensorFlow 生态系统，在几乎任何您想要位置部署模型。我们十分期待看到您使用 JAX 和 TensorFlow 构建出色应用！

使用JAX构建强化学习agent并借助TensorFlowLite将其部署到Android应用中的更多相关文章

【Shell学习笔记3》实践项目自动部署脚本】shell中获取返回值、获取当前sh文件路径
原创部分: 1.获取返回值 #This is a shell to Deploy Project #!/bin/bashcheck_results=`ps -ef | grep "java& ...
强化学习之七：Visualizing an Agent’s Thoughts and Actions
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏
强化学习课程:Q-Learning强化学习(李宏毅).深度强化学习强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法,其通过试错来学习.如上图所示,大脑代表AI Agent ...
David Silver强化学习Lecture3：动态规划
课件:Lecture 3: Planning by Dynamic Programming 视频:David Silver强化学习第3课 - 动态规划(中文字幕) 动态规划动态(Dynamic): ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)
这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来 ...
强化学习之六：Deep Q-Network and Beyond
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习之五：基于模型的强化学习（Model-based RL）
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习之四：基于策略的Agents (Policy-based Agents)
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
强化学习之三点五：上下文赌博机（Contextual Bandits）
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...

随机推荐

通过网页下载qq音乐在线听歌曲
1.输入网址打开 qq音乐网页版 https://y.qq.com/ 2.搜索喜欢的歌曲 3.播放喜欢的歌曲 4.谷歌浏览器检查代码 5.找到 network栏搜索 m4a 6.找到相关地址复制 ...
django文件目录
例如主站mysite,mysite下有一个应用testapp 1.在mysite/mysite下的settings需要添加应用进去 2.在musite/mysite下的urls.py记录应用的路径 3 ...
ES6的模块化（export导出）
ES6 Module把一个文件当作一个模块,每个模块有自己的独立作用域,那如何把每个模块联系起来呢?核心点就是模块的导入(import)与导出(export). 模块化的好处: 防止命名冲突代码复用 ...
memoのls
memoのls 测试环境是Big Sur 11.2.2 在windows下都不知道cd /D E:\xxx\xxx可以直接切换盘符.今天才发现,ls命令我也不会用-- ls命令是真强大啊,之前只知道l ...
opencv基本函数详解笔记
一.读取保存图片 Mat scrImage = imread("1.jpg"); //显示图像 imshow("原图", scrImage); //窗口等待 w ...
js判断变量数据类型typeof、instanceof、Object.prototype.toString.call()、 constructor
JavaScript有4种方法判断变量的类型,分别是typeof.instanceof.Object.prototype.toString.call()(对象原型链判断方法). constructor ...
windows jetbrains toolbox 无法修改应用安装目录（应用正在运行）的解决方案
打开 jetbrains toolbook安装目录/.settings.json 添加一行 "install_location": 指定的路径地址解决方案来自 JetBrains ...
二叉树系列之Treap树
Treap是一棵拥有键值.优先级两种权值的树 struct node{ int size;//以这个结点为根的子树的结点总数量,用于名次树 int rank;//优先级 int key ...
Yarn API
Yarn API: 1. 查询整个yarn集群指标: GET http://{cluster_domain_name}|{rm_ip:8088}/ws/v1/metrics 2. 查看指定队列的所有任 ...
Vivado工程常见报错及解决办法
1. 在进行自定义 IP 后,将自定义 IP 添加到当前的工程时,出现如下报错: [IP_Flow 19-167] Failed to deliver one or more file(s). [IP ...

使用JAX构建强化学习agent并借助TensorFlowLite将其部署到Android应用中

使用JAX构建强化学习agent并借助TensorFlowLite将其部署到Android应用中的更多相关文章

随机推荐

热门专题