开发基于AI的预测模型通常需要数据科学专业知识、机器学习算法经验以及对业务场景的理解。完整的数据科学应用开发周期(从数据获取到模型训练评估)往往耗时数日甚至数周。
2024年re:Invent大会首次以测试版亮相,并于2025年2月28日正式发布的Amazon Q Developer in SageMaker Canvas,是一款基于生成式AI的助手,允许客户仅用自然语言在几分钟内构建和部署ML模型,无需ML专业知识。该工具采用聊天机器人交互形式,用户只需描述业务问题并附加数据集。例如,客户可以输入:"我是银行信贷风险分析师,希望根据财务特征和经济指标对贷款申请人进行分类(违约/非违约)"。
用户可通过多轮对话执行机器学习训练任务。提交业务问题后,可选择现有数据集、从S3/Redshift/SQL/Snowflake创建新数据集,或直接上传本地CSV文件。数据集需为表格格式,包含目标预测列和特征列,时间序列预测还需时间戳列。
Q Developer是具备代理能力的自主系统,LLM作为用户与代理之间的主要接口。对话过程中,代理将中间结果存储在非易失性内存块中,包括数据集位置、业务背景、问题类型、特征列/目标列名称及ML损失函数等信息。该内存块采用依赖图结构实现,每个节点代表问题变量(如problem_type、evaluation_metric等),这种结构帮助代理推断构建ML模型所需的缺失变量。
系统能自动识别ML任务类型(二元/多元分类、回归或时间序列预测),并推荐合适的损失函数。通过"最可能下一步操作"按钮引导用户完成数据准备、模型构建和ML训练全流程。收集完所有输入后,Q Developer会在后端构建数据预处理管道并准备集成模型训练,自动处理数据清洗(填充缺失值、分类特征编码、异常值处理、去重等)。
用户可随时查询数据集详情(如缺失值比例、异常值数量),或通过DataWrangler进行高级分析和可视化。为最大化预测质量,Q Developer采用AutoML方法训练集成模型(包含XGBoost、CatBoost、LightGBM、线性模型、神经网络等),自动完成特征工程和超参数优化。
模型训练完成后,用户可对测试数据集运行推理,或一键部署为SageMaker推理终端节点。系统自动生成可解释性报告,展示数据集属性、特征重要性、训练过程和性能指标。该工具现已开放使用,让非专业用户也能通过自然语言命令构建强大的ML模型。
(致谢:Vidyashankar Sivakumar, Saket Sathe, Debanjan Datta和Derrick Zhang)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码