当前位置：首页 > news >正文

面向数据科学的AI助手：SageMaker Canvas中的Amazon Q开发者工具

news 2025/8/2 1:46:22

开发基于AI的预测模型通常需要数据科学专业知识、机器学习算法经验以及对业务场景的理解。完整的数据科学应用开发周期（从数据获取到模型训练评估）往往耗时数日甚至数周。

2024年re:Invent大会首次以测试版亮相，并于2025年2月28日正式发布的Amazon Q Developer in SageMaker Canvas，是一款基于生成式AI的助手，允许客户仅用自然语言在几分钟内构建和部署ML模型，无需ML专业知识。该工具采用聊天机器人交互形式，用户只需描述业务问题并附加数据集。例如，客户可以输入："我是银行信贷风险分析师，希望根据财务特征和经济指标对贷款申请人进行分类（违约/非违约）"。

用户可通过多轮对话执行机器学习训练任务。提交业务问题后，可选择现有数据集、从S3/Redshift/SQL/Snowflake创建新数据集，或直接上传本地CSV文件。数据集需为表格格式，包含目标预测列和特征列，时间序列预测还需时间戳列。

Q Developer是具备代理能力的自主系统，LLM作为用户与代理之间的主要接口。对话过程中，代理将中间结果存储在非易失性内存块中，包括数据集位置、业务背景、问题类型、特征列/目标列名称及ML损失函数等信息。该内存块采用依赖图结构实现，每个节点代表问题变量（如problem_type、evaluation_metric等），这种结构帮助代理推断构建ML模型所需的缺失变量。

系统能自动识别ML任务类型（二元/多元分类、回归或时间序列预测），并推荐合适的损失函数。通过"最可能下一步操作"按钮引导用户完成数据准备、模型构建和ML训练全流程。收集完所有输入后，Q Developer会在后端构建数据预处理管道并准备集成模型训练，自动处理数据清洗（填充缺失值、分类特征编码、异常值处理、去重等）。

用户可随时查询数据集详情（如缺失值比例、异常值数量），或通过DataWrangler进行高级分析和可视化。为最大化预测质量，Q Developer采用AutoML方法训练集成模型（包含XGBoost、CatBoost、LightGBM、线性模型、神经网络等），自动完成特征工程和超参数优化。

模型训练完成后，用户可对测试数据集运行推理，或一键部署为SageMaker推理终端节点。系统自动生成可解释性报告，展示数据集属性、特征重要性、训练过程和性能指标。该工具现已开放使用，让非专业用户也能通过自然语言命令构建强大的ML模型。

（致谢：Vidyashankar Sivakumar, Saket Sathe, Debanjan Datta和Derrick Zhang）
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码