开发基于AI的预测模型通常需要数据科学专业知识、机器学习算法经验以及对业务场景的理解。完整的数据科学应用开发周期(从数据获取到模型训练评估)往往耗时数日甚至数周。

2024年re:Invent大会首次以测试版亮相,并于2025年2月28日正式发布的Amazon Q Developer in SageMaker Canvas,是一款基于生成式AI的助手,允许客户仅用自然语言在几分钟内构建和部署ML模型,无需ML专业知识。该工具采用聊天机器人交互形式,用户只需描述业务问题并附加数据集。例如,客户可以输入:"我是银行信贷风险分析师,希望根据财务特征和经济指标对贷款申请人进行分类(违约/非违约)"。

用户可通过多轮对话执行机器学习训练任务。提交业务问题后,可选择现有数据集、从S3/Redshift/SQL/Snowflake创建新数据集,或直接上传本地CSV文件。数据集需为表格格式,包含目标预测列和特征列,时间序列预测还需时间戳列。

Q Developer是具备代理能力的自主系统,LLM作为用户与代理之间的主要接口。对话过程中,代理将中间结果存储在非易失性内存块中,包括数据集位置、业务背景、问题类型、特征列/目标列名称及ML损失函数等信息。该内存块采用依赖图结构实现,每个节点代表问题变量(如problem_type、evaluation_metric等),这种结构帮助代理推断构建ML模型所需的缺失变量。

系统能自动识别ML任务类型(二元/多元分类、回归或时间序列预测),并推荐合适的损失函数。通过"最可能下一步操作"按钮引导用户完成数据准备、模型构建和ML训练全流程。收集完所有输入后,Q Developer会在后端构建数据预处理管道并准备集成模型训练,自动处理数据清洗(填充缺失值、分类特征编码、异常值处理、去重等)。

用户可随时查询数据集详情(如缺失值比例、异常值数量),或通过DataWrangler进行高级分析和可视化。为最大化预测质量,Q Developer采用AutoML方法训练集成模型(包含XGBoost、CatBoost、LightGBM、线性模型、神经网络等),自动完成特征工程和超参数优化。

模型训练完成后,用户可对测试数据集运行推理,或一键部署为SageMaker推理终端节点。系统自动生成可解释性报告,展示数据集属性、特征重要性、训练过程和性能指标。该工具现已开放使用,让非专业用户也能通过自然语言命令构建强大的ML模型。

(致谢:Vidyashankar Sivakumar, Saket Sathe, Debanjan Datta和Derrick Zhang)

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)

公众号二维码

面向数据科学的AI助手:SageMaker Canvas中的Amazon Q开发者工具的更多相关文章

  1. (数据科学学习手札70)面向数据科学的Python多进程简介及应用

    本文对应脚本已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 进程是计算机系统中资源分配的最小单位,也是操作系 ...

  2. 数据科学实战手册(R+Python)书中引用资料网址

    本文会持续将<数据科学实战手册(R+Python)>一书中的附带参考资料网址手打出来, 方便访问. 由于书中的参考资料网址太多, 这个文档将可能花费一段时间才能完成. 第一章 P7  Rs ...

  3. (数据科学学习手札49)Scala中的模式匹配

    一.简介 Scala中的模式匹配类似Java中的switch语句,且更加稳健,本文就将针对Scala中模式匹配的一些基本实例进行介绍: 二.Scala中的模式匹配 2.1 基本格式 Scala中模式匹 ...

  4. (数据科学学习手札32)Python中re模块的详细介绍

    一.简介 关于正则表达式,我在前一篇(数据科学学习手札31)中已经做了详细介绍,本篇将对Python中自带模块re的常用功能进行总结: re作为Python中专为正则表达式相关功能做出支持的模块,提供 ...

  5. (数据科学学习手札52)pandas中的ExcelWriter和ExcelFile

    一.简介 pandas中的ExcelFile()和ExcelWriter(),是pandas中对excel表格文件进行读写相关操作非常方便快捷的类,尤其是在对含有多个sheet的excel文件进行操控 ...

  6. (数据科学学习手札25)sklearn中的特征选择相关功能

    一.简介 在现实的机器学习任务中,自变量往往数量众多,且类型可能由连续型(continuou)和离散型(discrete)混杂组成,因此出于节约计算成本.精简模型.增强模型的泛化性能等角度考虑,我们常 ...

  7. (数据科学学习手札19)R中基本统计分析技巧总结

    在获取数据,并且完成数据的清洗之后,首要的事就是对整个数据集进行探索性的研究,这个过程中会利用到各种描述性统计量和推断性统计量来初探变量间和变量内部的基本关系,本篇笔者便基于R,对一些常用的数据探索方 ...

  8. (数据科学学习手札68)pandas中的categorical类型及应用

    一.简介 categorical是pandas中对应分类变量的一种数据类型,与R中的因子型变量比较相似,例如性别.血型等等用于表征类别的变量都可以用其来表示,本文就将针对categorical的相关内 ...

  9. (数据科学学习手札126)Python中JSON结构数据的高效增删改操作

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在上一期文章中我们一起学习了在Python ...

  10. (数据科学学习手札131)pandas中的常用字符串处理方法总结

    本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 在日常开展数据分析的过程中,我们经常需要对 ...

随机推荐

  1. CentOS 7.6安装nginx

    1.安装EPEL仓库 [root@ecs-lanxinmeichen nginx]# sudo yum install epel-releaseLoaded plugins: fastestmirro ...

  2. Error while fetching metadata from server 'https://start.spring.io' Please check URL, network and proxy settings.

    idea创建springboot项目失败,提示: Error while fetching metadata from server 'https://start.spring.io' Please ...

  3. Spring Boot线程池简单监控|转

    背景   在我们实际项目开发中,常常会为不同优先级的任务设置相对应的线程池.一般我们只关注相关池的相关参数如核心线程数据,最大线程数据等等参数,容易忽略了对线程池中实际运行情况的监控. 综上所述:线程 ...

  4. 面试题:Spring BeanFactory和FactoryBean的区别

      BeanFactory:以Factory结尾,表明它是一个工厂类(接口),它是Spring IOC容器的核心接口,负责实例化和管理bean的一个工厂,为具体的IoC容器的实现提供规范.BeanFa ...

  5. Predixy的docker化

    概述 当前已有一套redis cluster的集群,但是fs中的hiredis只能配置单实例redis. AI了一下方案,可以使用redis的proxy组件来实现从hiredis到redis clus ...

  6. 初探Iris

    Iris 安装 go get -u github.com/kataras/iris 若遇到下面这种情况: 可删除保存路径中的kataras目录,并执行go get github.com/kataras ...

  7. WebSocket网络通信

    WebSocket 网络通信 导入依赖: <!-- WebSocket依赖 --> <dependency> <groupId>log4j</groupId& ...

  8. flink基础之window

    flink会把数据分成不同的窗口,然后进行汇总和统计. flink的窗口分为timeWindow, countWindow, sessionWindow, gapWindow. timeWindow分 ...

  9. 基于 Paimon 的袋鼠云实时湖仓入湖实战剖析

    在当今数据驱动的时代,企业对数据的实施性能力提出了前所未有的高要求.为了应对这一挑战,构建高效.灵活且可扩展的实时湖仓成为数字化转型的关键.本文将深入探讨袋鼠云数栈如何通过三大核心实践--ChunJu ...

  10. Eplan教程:主数据创建

    从今天开始,Eplan团队将带着大家一起,从项目早期的规划报价设计开始,经历原理图设计.PLC设计.盘柜三维设计.线束三维设计,直至输出供生产所需的各类报表. 该系列共分为几个部分 1.设计主数据-部 ...