Agent 自动持续进化的核心不是反复手工调 prompt,而是建立评估、反馈、记忆、错误归因、自动修复和发布审核的闭环。只有把真实任务中的成功、失败、纠偏和人工干预沉淀下来,Agent 才能稳定地从使用数据中更新策略。
AI 租赁导购需要理解复杂需求、稳定调用商品搜索和知识检索等工具,并把工具结果组织成可信回答。围绕 One-Model + Tool-Use 架构、多阶段强化学习、差异化 GSPO 裁剪以及 MoE 训练推理优化,讲清一套可落地的训练与工程方案。