英文链接：https://mlflow.org/docs/latest/tracking.html

本文链接：https://www.cnblogs.com/CheeseZH/p/11945089.html

MLflow Tracking

MLflow Tracking组件提供了API和UI，用于记录并可视化展示机器学习代码运行过程中的参数，代码版本，评价指标和输出文件。MLflow Tracking可以让你通过Python，REST API，R API或Java API来记录和查询试验。

一些概念

MLflow Tracking围绕着runs的概念进行组织，runs是一些数据科学代码片段的执行。一个run记录了以下信息：

Code Version／代码版本

如果run是来自一个MLflow项目，那么版本就是代码的Git提交对应的hash值。

Start&End Time／起止时间

run的开始时间和结束时间。

Source／源文件

启动run的文件名，或者MLflow项目的项目名和入口。

Parameters／参数

所选输入参数的Key-Value对，Key和Value都是字符串。

Metrics／评价指标

Key-value指标，value是数值。每个指标都可以在run的执行过程中被更新（比如记录模型损失函数的收敛曲线），MLflow记录并可视化指标的完整历史。

Artifacts／模型产品

任何格式的输出文件。你可以记录图片，模型或者数据文件。

你可以通过MLflow Python，R，Java或者REST APIs来记录runs。比如你可以记录一个单独的程序，可以记录远程及其或者交互式notebook。如果你记录MLflow项目的runs，MLflow会记住项目URI和源文件的版本。

你可以通过experiments来组织runs，experiments是用于特定任务的一组runs。你可以通过以下方式创建一个experiment：

mlflow experiments命令
mlflow.create_experiment()
使用对应的REST API
MLflow API和UI让你可以创建和搜索experiments

当你的runs被记录之后，你可以通过Tracking UI或者MLflow API来查询。

Runs被记录在哪？

MLflow runs可以被存储在本地文件，SQLAlchemy兼容的数据库或者远程的服务器。默认情况下，MLflow Python API会把runs记录在你的运行程序所在的目录的mlruns子目录。你可以使用mlflow ui查看记录的runs。

如果把runs存储到远程服务器，需要配置环境变量MLFLOW_TRACKING_URI 或者调用mlflow.set_tracking_uri()。

URI可以有多种形式：

本地路径，格式为/my/local/dir
数据库，格式为<dialect>+<driver>://<username>:<password>@<host>:<port>/<database>，Mlflow支持mysql，sqlite，postgresql等多种SQLAlchemy数据库
HTTP服务器，格式为https://my-server:5000，该服务是一个MLflow tracking server。
Databricks工作空间，格式为databricks或者databricks://<profileName>，一个Databricks CLI profile。更多信息参考文档或者Databricks社区版快速入门。

把数据保存成runs

你可以通过MLflow Python，R，Java或者REST API来把数据保存成runs，本章节主要介绍Python API。

Logging Functions／日志函数

mlflow.set_tracking_uri() 连接一个记录URI，也可以通过环境变量MLFLOW_TRACKING_URI 来配置，默认是本地的mlruns目录。

mlflow.tracking.get_tracking_uri()返回当前的记录URI。

mlflow.create_experiment()创建一个新experiment并返回ID。通过将ID传入mlflow.start_run可以启动experiment下面的runs。

mlflow.set_experiment()激活一个experiment。如果experiment不存在，则创建一个。

mlflow.start_run()返回当前激活的run，或者启动一个新的run并返回一个mlflow.ActiveRun对象。不需要显示调用start_run，如果没有激活状态的run，日志函数会自动创建一个。

mlflow.end_run()结束当前处于激活状态的run。

mlflow.active_run()返回一个mlflow.entities.Run对象。

mlflow.log_param()记录一个当前run的key-value参数。使用mlflow.log_params()可以记录多个参数。

mlflow.log_metric()记录一个当前run的key-value指标。MLflow会记录每个metric的所有历史值。使用mlflow.log_metrics()可以记录多个指标。

mlflow.set_tag()给当前run设置一个key-value标签。使用mlflow.set_tags()设置多个标签。

mlflow.log_artifact()把一个本地文件或目录存储为一个artifact，可以通过artifact_path指定run的artifact URI。Run artifacts可以通过目录的方式组织。

mlflow.log_artifacts()把指定目录下的所有文件存储为一个artifact。

mlflow.get_artifact_uri()返回当前run指定的artifact URI。

在一个程序中启动多个runs

有时候你希望能够在一个程序中启动多个runs，比如你在执行一个超参数搜索程序或者你的experiments运行非常快。mlflow.start_run()返回的ActiveRun对象是一个python context manager。你可以通过以下代码块来限定每个run的范围。

with mlflow.start_run():

    mlflow.log_param("x", 1)

    mlflow.log_metric("y", 2)

    ...

在with语句中，这个run会保持打开状态，语句退出或者有异常时会自动关闭。

通过指标记录模型表现

你通过log方法来记录各个指标，log方法提供了两个可选方法用于区分指标的x-axis：timestamp和step。

timestamp是metric被记录的时间，默认是当前时间。

step是训练过程的量化值，可以是迭代次数，轮数或者其他值，默认是0并且有以下要求和特性：

一定是个合法的64位整型
可以是负数
可以是非连续的，比如（1，3，2）也是合法的
可以有跳跃性的，比如（1，5，74，-10）也是合法的

你可以同时指定timestamp和step，MLflow会分别存储。

Python示例：

with mlflow.start_run():

    for epoch in range(0, 3):

        mlflow.log_metric(key="quality", value=2*epoch, step=epoch)

可视化指标

下图取自quick start，包含一个step x-axis和两个timestamp x-axis。

自动记录TensorFlow和Keras的日志(experimental)

在训练之前调用mlflow.tensorflow.autolog()或mlflow.keras.autolog()即可，参考Tensorflow和Keras的例子。

自动记录以下信息：

注意 tf.keras 使用 mlflow.tensorflow.autolog(), 而不是 mlflow.keras.autolog().

组织experiments中的runs

MLflow允许你在experiments中组织runs，这样可以方便的对比处理同个任务的不同runs。你可以通过命令行mlflow experiments或者python API mlflow.create_experiment()创建experiments。你可以在命令行中为单独的run指定experiment，例如mlflow run ... --experiment-name [name] 或者通过环境变量MLFLOW_EXPERIMENT_NAME 来指定。或者用experiment ID（--experiment-id命令行参数或者MLFLOW_EXPERIMENT_ID环境变量）也行。

# Set the experiment via environment variables

export MLFLOW_EXPERIMENT_NAME=fraud-detection

mlflow experiments create --experiment-name fraud-detection

# Launch a run. The experiment is inferred from the MLFLOW_EXPERIMENT_NAME environment

# variable, or from the --experiment-name parameter passed to the MLflow CLI (the latter

# taking precedence)

with mlflow.start_run():

    mlflow.log_param("a", 1)

    mlflow.log_metric("b", 2)

通过追踪服务API来管理Experiments和Runs

MLflow提供了更详细的追踪服务API来管理experiments和runs，主要是用mlflow.tracking模块的client SDK。这样就可以查询过去runs的数据，记录更多日志，创建experiments，添加tag等。

from  mlflow.tracking import MlflowClient

client = MlflowClient()

experiments = client.list_experiments() # returns a list of mlflow.entities.Experiment

run = client.create_run(experiments[0].experiment_id) # returns mlflow.entities.Run

client.log_param(run.info.run_id, "hello", "world")

client.set_terminated(run.info.run_id)

为Runs添加标签

mlflow.tracking.MlflowClient.set_tag()方法可以为runs添加个性化标签。一个标签一次只能有一个唯一值。例如：

client.set_tag(run.info.run_id, "tag_key", "tag_value")

注意：不要用mlflow作为tag的前缀，以下是系统tags。

追踪UI

追踪UI能够可视化，搜索，对比runs，也能下载run的产品或者元数据。

如果将runs记录在本地mlruns目录，只需要在mlruns的上层目录中运行mlfow ui就可以。

或者你也可以通过MLflow tracking server来访问远程的runs。

UI主要包括以下功能：

基于experiment的run列表和对比
根据参数或者指标搜索runs
可视化run的指标
下载run的结果

通过编程查询runs

引用artifacts

/Users/me/path/to/local/model
relative/path/to/local/model
/. 例如:
- s3://my_bucket/path/to/model
- hdfs://:/
- runs:/<mlflow_run_id>/run-relative/path/to/model

例如

# Tracking API

mlflow.log_artifacts("<mlflow_run_id>", "/path/to/artifact")

# Models API

mlflow.pytorch.load_model("runs:/<mlflow_run_id>/run-relative/path/to/model")

MLflow Tracking Servers

你可以通过mlflow server命令启动一个tracking server，一个样例配置：

mlflow server \

    --backend-store-uri /mnt/persistent-disk \

    --default-artifact-root s3://my-mlflow-bucket/ \

    --host 0.0.0.0

存储

一个MLflow tracking server包含两个存储组件：后端存储和产品存储。

后端存储用于保存experiment和run的元数据，比如参数，指标，标签等。后端存储支持两种类型：文件存储，数据库存储。通过--backend-store-uri来配置后端存储类型。

./path_to_store 或者 file:/path_to_store
SQLAlchemy database URI：+

MLflow系列2：MLflow追踪的更多相关文章
1. MLflow系列4：MLflow模型
  英文链接:https://mlflow.org/docs/latest/models.html 本文链接:https://www.cnblogs.com/CheeseZH/p/11946260.htm ...
2. MLflow系列3：MLflow项目
  英文链接:https://mlflow.org/docs/latest/projects.html 本文链接:https://www.cnblogs.com/CheeseZH/p/11945432.h ...
3. MLflow系列1：MLflow入门教程（Python）
  英文链接:https://mlflow.org/docs/latest/tutorial.html 本文链接:https://www.cnblogs.com/CheeseZH/p/11943280.h ...
4. 一点理解之 CmBacktrace: ARM Cortex-M 系列 MCU 错误追踪库
  @2019-02-14 [小记] CmBacktrace: ARM Cortex-M 系列 MCU 错误追踪库,用来将单片机故障状态寄存器值翻译出来输出至终端上以便排错 CmBacktrace: AR ...
5. ARM Cortex-M 系列 MCU 错误追踪库心得
  一. 感谢CmBacktrace开源项目,git项目网站:https://github.com/armink/CmBacktrace 二. 移植CmBacktrace 2.1 准备好CmBacktra ...
6. 【mlflow】mlflow打包、启动、换用mysql backend、mysql配置
  mlflow是一个自动化机器学习平台,支持python2也支持python3 mlflow9.0添加了数据库作为tracking data的存储: https://github.com/mlflow/ ...
7. 33.Odoo产品分析 (四) – 工具板块(4) – 问题追踪及群发邮件营销(1)
  查看Odoo产品分析系列--目录问题追踪该应用程序允许您管理项目中可能遇到的问题,如系统中的bug.客户投诉或物料故障. 该模块安装后没有菜单显示,而是作为后台管理,接收一些问题报告. 群发邮件 ...
8. Sqlautocode使用过程的一些坑
  Sqlautocode是SQLAlchemy一个数据库映射工具,可以将数据库文件映射为python代码,直接在程序中移植使用.最近在使用过程中遇到了一些坑,通过用代码编辑工具pycharm阅读源码和多 ...
9. 阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink
  11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是 ...
随机推荐
1. 在iOS平台使用ffmpeg解码h264视频流
  来源:http://www.aichengxu.com/view/37145 在iOS平台使用ffmpeg解码h264视频流,有需要的朋友可以参考下. 对于视频文件和rtsp之类的主流视频传输协议,f ...
2. Solr基础理论【倒排索引，模糊查询】
  一.简介现有的许多不同类型的技术系统,如关系型数据库.键值存储.操作磁盘文件的map-reduce[映射-规约]引擎.图数据库等,都是为了帮助用户解决颇具挑战性的数据存储与检索问题而设计的.而搜索 ...
3. [STM32].NVIC嵌套中断向量的理解
  转自:http://www.21ic.com/embed/jiaocheng/sheji/201209/5634.html 一.STM32 (Cortex-M3) 中的优先级概念 STM32(Cort ...
4. 小型SSM项目出现Failed to load ApplicationContext错误的解决方法（个人向）
  使用单元测试的时候,出现了Failed to load ApplicationContext错误,在添加了一个新的Mapper.xml文件才出现的,在保证其他配置文件没有出错的情况下,检查mapper ...
5. mysql查询语句中使用星号真的慢的要死？
  前言之所以写这篇文章,是源于以前看过的关于sql语句优化的帖子,里面明确提到了在sql语句中不要使用 * 来做查询,就像下面的规则中说的 2.尽量避免使用select *,返回无用的字段会降低查询效 ...
6. jmeter使用正则表达式从上一个http响应数据里提取关键字传递给下一个http请求（二）
  通过jmeter从表格批量读取数据(一)(http://www.cnblogs.com/lelexiong/p/8728993.html)介绍了从表格批量读取数据,读取数据之后,如果要提取响应数据里面 ...
7. redis 哨兵集群原理及部署
  复制粘贴自: https://www.cnblogs.com/kevingrace/p/9004460.html 请点击此链接查看原文. 仅供本人学习参考, 如有侵权, 请联系删除, 多谢! Redi ...
8. 【大数据】设置SSH免密钥（转）
  设置SSH免密钥关于ssh免密码的设置,要求每两台主机之间设置免密码,自己的主机与自己的主机之间也要求设置免密码. 这项操作可以在admin用户下执行,执行完毕公钥在/home/admin/.ssh ...
9. 磁盘提示“X:拒绝访问”问题解决
  cacls "D:\*.*" /T /E /G Administrators:F cacls "D:\*.*" /T /E /G Users:F cacls & ...
10. spring相关—AOP编程—切入点、连接点
  1 切入点表达式 1.1 作用通过表达式的方式定位一个或多个具体的连接点. 1.2 语法细节 ①切入点表达式的语法格式 execution([权限修饰符] [返回值类型] [简单类名/全类名] [方 ...

MLflow系列2：MLflow追踪