大模型的竞争正在发生一个明显变化:模型不再只比谁更会聊天,而是比谁能完成更长、更复杂、更接近真实工作的任务。
这种变化体现在几个方向上:
- 编程模型开始处理复杂软件工程任务,而不只是补全代码片段。
- 图像编辑模型从“生成一张图”走向“按指令精确修改局部内容”。
- 机器人模型开始把视觉、语言和动作统一到一个模型体系里。
- 智能眼镜这类终端开始支持接入私有智能体。
- 数学推理模型尝试进入开放科研问题。
- 模型安全评估从“有没有明显恶意”走向“是否具备长期自治能力”。
这些方向背后有一个共同逻辑:AI 系统正在从“回答问题的模型”变成“能感知环境、调用工具、持续行动的执行系统”。
flowchart LR
A[用户目标] --> B[大模型理解与规划]
B --> C[工具调用 / 代码执行 / 环境交互]
C --> D[结果反馈]
D --> B
B --> E[最终交付物]
上面这个循环是很多新模型的核心形态。模型不只是一次性输出答案,而是在目标、工具、环境、反馈之间反复迭代,直到完成一个任务。
1. Agentic Engineering:编程模型开始进入复杂工程任务
Agentic Engineering 可以理解为“智能体化工程”。它不是让模型写一个函数,而是让模型像工程助手一样理解需求、拆分任务、读写代码、运行命令、修复错误,甚至完成一个完整应用的搭建。
这一方向里有两个典型信号:智谱 GLM-5 和 MiniMax M2.5。
| 模型 | 核心参数信息 | 重点能力 | 典型信号 |
|---|---|---|---|
| GLM-5 | 总参数 744B,激活参数 40B | 复杂系统工程、长程 Agent 任务、代码能力 | SWE-bench-Verified 77.8,Terminal Bench 2.0 56.2,开源模型评测领先 |
| MiniMax M2.5 | 激活参数 10B | 编程、Agent、快速推理 | 推理速度约为 Claude Opus 的 3 倍,支持 Claude Code、OpenClaw 等开发工具 |
这里的“激活参数”很关键。很多大模型采用类似 MoE(Mixture of Experts,混合专家)的稀疏激活思路,模型总参数可以很大,但每次推理只激活其中一部分专家网络。这样做的目标是同时获得较大的知识容量和较低的单次推理成本。
编程 Agent 评测在测什么
SWE-bench-Verified 是面向软件工程任务的评测集,重点不是“写一段算法题代码”,而是让模型在真实代码仓库里定位问题、修改代码并通过测试。Terminal Bench 2.0 更偏向命令行环境中的长程任务,模型需要使用终端完成多步骤操作。
这类评测比传统代码补全更接近真实工程,因为真实开发经常包含这些步骤:
flowchart TD
A[读取需求或 Issue] --> B[理解项目结构]
B --> C[定位相关文件]
C --> D[修改代码]
D --> E[运行测试或命令]
E --> F{是否通过}
F -- 否 --> G[分析错误日志]
G --> C
F -- 是 --> H[提交结果]
GLM-5 在 SWE-bench-Verified 和 Terminal Bench 2.0 上刷新开源模型表现,说明开源模型在工程 Agent 方向已经接近闭源旗舰模型的工作区间。它还完成了华为昇腾、寒武纪、昆仑芯等国产芯片适配,这对企业私有化部署很重要,因为工程 Agent 往往要接触内部代码、文档和权限系统,不一定适合完全依赖外部 API(Application Programming Interface,应用程序编程接口)。
MiniMax M2.5 的重点则是“小激活参数 + 高速推理 + Agent 训练”。它采用原生 Agent RL(Reinforcement Learning,强化学习)训练框架,并使用 CISPO 算法把训练速度提高到约 40 倍。对 Agent 来说,推理速度非常重要,因为一个任务可能包含几十次甚至上百次模型调用,单次延迟会被循环放大。
为什么速度对 Agent 特别重要
普通聊天场景里,模型生成一次答案就结束;Agent 场景里,模型经常要经历“规划—执行—观察—修正”的循环。
假设一个任务需要 40 次模型调用:
| 单次调用耗时 | 40 次调用总耗时 |
|---|---|
| 5 秒 | 约 200 秒 |
| 2 秒 | 约 80 秒 |
| 1 秒 | 约 40 秒 |
当模型被接入 IDE、终端、浏览器或自动化工作流时,速度会直接影响可用性。M2.5 宣称用 10B 激活参数达到旗舰模型能力,并把推理速度做到 Claude Opus 的数倍,本质上是在解决 Agent 落地时的成本和等待问题。
2. 图像编辑模型:从生成图片到精确修改图片
小红书基础模型团队开源的 FireRed-Image-Edit 代表了图像模型的另一个方向:图像编辑不再只是“重新生成一张相似图片”,而是要在保持主体、风格和布局的同时,按照指令准确修改局部内容。
它在 ImgEdit、GEdit 等图像编辑榜单达到 SOTA(State of the Art,当前公开评测中的最佳水平),支持的任务包括:
- 指令遵循一致性
- 文字编辑
- 风格迁移
- 多图融合
- 老照片修复
- 局部内容替换
图像编辑模型的难点在于“既要变,又不能乱变”。比如用户要求“把牌子上的英文改成中文”,模型只应该改牌子上的文字,不能顺手改变背景、人物衣服、光照和构图。
flowchart LR
A[输入图像] --> C[图像编辑模型]
B[编辑指令] --> C
C --> D[编辑结果]
D --> E[文字是否正确]
D --> F[布局是否保持]
D --> G[风格是否一致]
FireRed-Image-Edit 的一个关键设计是 Layout-Aware OCR-based Reward,可以理解为“感知布局的 OCR 奖励”。OCR(Optical Character Recognition,光学字符识别)负责识别图像里的文字,Layout-Aware 则要求模型关注文字所在位置、大小和布局关系。
这类奖励机制解决的是文字编辑场景里的常见问题:
| 问题 | 普通图像编辑模型容易出现的结果 | Layout-Aware OCR 奖励关注点 |
|---|---|---|
| 改错字 | 文字看起来像,但实际字符错误 | OCR 识别后的文本是否和目标一致 |
| 改错位置 | 目标文字变了,但周围布局被破坏 | 修改区域是否对应原布局 |
| 风格不一致 | 新文字像贴上去的 | 字体、颜色、透视和背景是否匹配 |
| 过度修改 | 背景、人物或物体被一起改变 | 非目标区域是否保持稳定 |
图像编辑模型要真正进入设计、广告、内容生产、修复等工作流,文字准确性和局部稳定性比单纯“画得好看”更重要。FireRed-Image-Edit 的路线说明,图像模型训练正在从大规模生成数据走向更细的任务奖励设计。
3. 具身智能:VLA 模型把视觉、语言和动作连起来
机器人和自动驾驶场景里,模型不能只理解图像和语言,还必须输出动作。VLA(Vision-Language-Action,视觉-语言-动作)模型就是为这个问题设计的。
典型输入和输出是这样的:
flowchart LR
A[摄像头图像] --> D[VLA 模型]
B[语言指令] --> D
C[机器人状态] --> D
D --> E[动作序列]
E --> F[机械臂 / 移动机器人执行]
小米开源的 Xiaomi-Robotics-0 和高德 ABot 系列,分别代表了具身智能里的两个重要方向:操作和导航。
Xiaomi-Robotics-0:用“大脑 + 小脑”拆分理解与控制
Xiaomi-Robotics-0 是一个 47 亿参数的 VLA 模型,在 LIBERO、CALVIN、SimplerEnv 等机器人评测中表现领先。LIBERO、CALVIN 和 SimplerEnv 都是常见机器人任务基准,用来测试模型在操作、泛化、环境交互中的能力。
它采用 Mixture-of-Transformers 架构,可以理解为把不同能力模块组织到同一个系统中:
- VLM(Vision-Language Model,视觉语言模型)部分像“大脑”,负责理解视觉场景和语言指令。
- Diffusion Transformer(扩散 Transformer)部分像“小脑”,负责生成平滑、高频的动作序列。
flowchart TD
A[视觉输入] --> B[VLM 大脑]
C[语言指令] --> B
B --> D[任务语义与目标状态]
D --> E[Diffusion Transformer 小脑]
F[机器人当前状态] --> E
E --> G[连续动作序列]
G --> H[机器人执行]
机器人控制和聊天生成有一个根本区别:动作必须连续、平滑、及时。语言模型晚半秒输出,用户通常还能接受;机器人手臂晚半秒或动作断层,可能导致抓取失败、碰撞或物体掉落。
Xiaomi-Robotics-0 使用异步推理模式和 Λ-shape 注意力掩码来处理动作断层问题。异步推理的目标是让模型在执行上一段动作时提前计算下一段动作,减少停顿;注意力掩码则控制模型在生成动作时能看到哪些上下文,避免动作序列之间出现不自然跳变。
ABot:把操作和导航分别做成基座模型
高德发布的 ABot 系列包含两个模型:
| 模型 | 负责方向 | 关键数据与方法 | 结果信号 |
|---|---|---|---|
| ABot-M0 | 操作任务 | 整合 600 万条跨平台轨迹数据,动作语言统一,动作流形学习 | Libero-Plus 成功率 80.5%,超过 pi0 近 30% |
| ABot-N0 | 导航任务 | 单一 VLA 架构统一五大导航任务,8000 个高保真 3D 场景,1700 万条专家示例 | SocNav 成功率提高 40.5% |
操作任务和导航任务看起来都属于机器人,但技术难点不同。
操作任务更关注局部精细控制,比如抓杯子、开抽屉、移动物体。导航任务更关注空间理解、路径规划、社会行为约束,比如在室内避障、理解目标位置、绕开行人。
flowchart LR
A[具身智能] --> B[操作 Manipulation]
A --> C[导航 Navigation]
B --> D[抓取 / 放置 / 推拉 / 工具使用]
C --> E[定位 / 避障 / 找路 / 社交导航]
ABot-M0 通过“动作语言统一”把不同平台的轨迹数据映射到统一表示里,这样模型可以从多种机器人数据中学习共性动作。ABot-N0 则把多种导航任务收进一个 VLA 架构,重点解决导航任务之间数据格式和目标定义不统一的问题。
4. 智能眼镜接入私有 Agent:终端开始变成模型入口
Rokid Glasses 的灵珠平台支持“自定义智能体”,可以通过标准 SSE 接口接入 OpenClaw,或接入私有部署的 DeepSeek R1、Qwen3 等模型。
SSE(Server-Sent Events,服务器发送事件)是一种服务端向客户端持续推送数据的协议。它很适合大模型流式输出,因为模型可以一边生成,一边把 token 或事件返回给终端。
sequenceDiagram
participant Glasses as 智能眼镜
participant Agent as 自定义智能体服务
participant LLM as 私有大模型
participant Tools as 工具与技能
Glasses->>Agent: 语音指令 / 快捷指令
Agent->>LLM: 发送任务上下文
LLM-->>Agent: 流式返回规划与回答
Agent->>Tools: 调用文件、浏览器、IM 等能力
Tools-->>Agent: 返回执行结果
Agent-->>Glasses: SSE 流式推送结果
一个简化的 SSE 智能体服务可以长成这样,具体字段需要按设备平台协议调整:
from fastapi import FastAPI, Request
from sse_starlette.sse import EventSourceResponse
app = FastAPI()
async def call_private_model(prompt: str):
# 这里可以替换成私有部署的 DeepSeek、Qwen 或其他模型
for token in ["正在", "处理", "你的", "请求"]:
yield token
@app.get("/agent/sse")
async def agent_sse(request: Request, q: str):
async def event_stream():
async for token in call_private_model(q):
if await request.is_disconnected():
break
yield {
"event": "delta",
"data": token
}
yield {
"event": "done",
"data": "{}"
}
return EventSourceResponse(event_stream())
智能眼镜接入私有模型的价值主要有三点:
| 能力 | 作用 |
|---|---|
| 私有部署模型 | 敏感数据可以留在本地或企业内网处理 |
| 模型基座切换 | 不同任务可以选择不同模型,例如代码、问答、推理 |
| 技能生态调用 | 模型不只回答,还能调用文件系统、浏览器、消息工具等执行能力 |
这种模式把智能眼镜从“固定功能设备”变成“可编排的 Agent 入口”。真正的难点不在于把模型接进去,而在于权限控制、隐私边界、工具调用审计和低延迟交互。
5. AI 数学家:从解题模型走向科研辅助系统
谷歌 DeepMind 基于 Gemini Deep Think 发布的 Aletheia,被定位为面向数学研究的 AI 系统。它在 IMO-ProofBench 上取得 91.9% 的成绩。IMO-ProofBench 是面向数学证明能力的评测,关注模型是否能给出严谨、可验证的推理过程。
更重要的信号不是刷题,而是它被用于开放问题探索:Aletheia 对 Erdős 猜想数据库中的 700 个开放问题进行系统评估,并自主解决了其中 4 个问题。Gemini Deep Think 还与专家协作解决了 18 个长期停滞的研究难题,其中一项成果被 ICLR(International Conference on Learning Representations,国际学习表征会议)2026 接收。
数学科研型 AI 和普通问答模型的区别在于,它需要处理更长的探索链条:
flowchart TD
A[开放数学问题] --> B[理解定义与约束]
B --> C[检索相关定理和已知结果]
C --> D[提出证明路线]
D --> E[推导关键引理]
E --> F{是否自洽}
F -- 否 --> G[发现漏洞并修正]
G --> D
F -- 是 --> H[形成证明或反例]
H --> I[人工专家验证]
这类系统必须具备两个能力:
- 长链推理稳定性:数学证明经常需要几十步甚至上百步推导,任何一步错误都可能导致结论失效。
- 自我纠错与边界识别:遇到无法证明的问题时,模型需要承认限制,而不是生成看似合理但实际错误的证明。
AI 进入科研场景后,模型输出不能只靠自然语言“看起来合理”。证明检查、专家验证、形式化工具和可复现实验会成为必要环节。
6. 安全评估:能力越像 Agent,风险越需要重新定义
模型能力提升带来两个互相拉扯的判断。
一边是乐观判断:HyperWrite CEO 的公开观点认为,GPT-5.3-Codex 和 Claude Opus 4.6 这类模型代表 AI 能力进入新阶段,模型已经可以独立完成人类专家数小时级别的任务,并可能开始参与自身训练流程,形成递归式自我提升循环。
另一边是安全警告:Anthropic 发布的 53 页报告把 Claude Opus 4.6 的风险放到接近 ASL-4 的讨论区间。ASL(AI Safety Level,AI 安全等级)是 Anthropic 用来描述模型能力和安全要求的分级框架。报告给出的判断并不是“模型已经有稳定恶意目标”,而是“灾难性破坏风险非常低但不为零”,并且模型能力已经进入评估灰区。
这里的核心问题是:当模型具备长程规划、工具调用、代码执行和环境交互能力后,风险不再只是“说错话”。
| 能力变化 | 新风险 |
|---|---|
| 长程任务执行 | 模型可能在多步骤过程中偏离用户目标 |
| 工具调用 | 错误操作可能影响文件、账号、数据库或外部系统 |
| 代码执行 | 可能生成或运行危险脚本 |
| 自主规划 | 用户不一定能看清每一步决策 |
| 持续运行 | Agent 可能在无人监督时不断扩大影响范围 |
| 参与训练流程 | 需要防止评测污染、目标漂移和奖励黑客 |
因此,Agent 系统的安全边界需要比聊天机器人更细。一个实际可用的 Agent 平台至少要做几件事:
flowchart TD
A[用户任务] --> B[权限检查]
B --> C[模型规划]
C --> D[工具调用审批]
D --> E[沙箱执行]
E --> F[日志记录]
F --> G[结果返回]
G --> H[人工复核高风险操作]
权限、沙箱、审计、人类确认不是附加功能,而是 Agent 系统进入生产环境的基础设施。
7. 对开发团队意味着什么
这些模型进展放在一起,可以得到几个比较实际的工程判断。
不要只看榜单分数,要测自己的任务
SWE-bench、Terminal Bench、LIBERO、CALVIN、ImgEdit 这些榜单能说明模型能力方向,但不能直接代表生产环境表现。开发团队需要准备自己的评测集,覆盖真实任务中的代码库、文档格式、工具链、权限规则和失败案例。
| 评测对象 | 应该补充的内部测试 |
|---|---|
| 编程 Agent | 真实仓库 Issue、单元测试、CI 日志、代码风格检查 |
| 图像编辑模型 | 品牌字体、中文文字、固定版式、局部修改稳定性 |
| 机器人模型 | 自有硬件、传感器噪声、延迟、异常动作恢复 |
| 私有智能体 | 权限边界、数据泄露、工具误调用、审计日志 |
| 科研推理模型 | 可验证证明、复现实验、专家复核流程 |
Agent 系统要按“模型 + 工具 + 权限”整体设计
单独换一个更强模型,并不等于得到一个可用 Agent。模型只是系统的一部分,工具协议、上下文管理、执行沙箱、日志追踪和失败回滚同样重要。
flowchart LR
A[模型能力] --> D[可用 Agent]
B[工具系统] --> D
C[权限与安全] --> D
E[评测与日志] --> D
如果没有工具调用记录,失败后无法复盘;如果没有权限边界,模型一次错误调用就可能影响真实系统;如果没有任务级评测,很难判断模型升级到底带来了多少收益。
开源模型的价值会继续上升
GLM-5 这类大参数开源模型和 MiniMax M2.5 这类高效率模型说明,开源和可私有化部署正在成为重要路线。对企业来说,开源模型的意义不只是降低 API 成本,还包括:
- 代码和数据不离开内网。
- 可以适配国产芯片或自有推理集群。
- 可以针对内部任务继续微调或做工具链适配。
- 可以把模型能力嵌入 IDE、终端、知识库、机器人和硬件设备。
但开源也意味着团队要自己承担部署、监控、评测和安全治理成本。
8. 核心判断
2026 年的 AI 模型竞争可以概括成一句话:模型能力正在从“生成内容”走向“完成任务”。
GLM-5 和 MiniMax M2.5 代表工程 Agent 的加速;FireRed-Image-Edit 代表图像编辑进入精确控制阶段;Xiaomi-Robotics-0 和 ABot 代表 VLA 模型向真实物理世界延伸;Rokid Glasses 的自定义智能体说明终端设备开始成为模型入口;Aletheia 展示了 AI 进入科研推理的可能;Anthropic 的风险评估提醒工程系统必须同步建设安全边界。
真正的分水岭不在于模型能否回答得更像人,而在于它能否在受控环境中持续、可靠、可审计地完成复杂任务。