AI Agent(人工智能智能体)框架要解决的不是“调用一次大模型”这么简单的问题。真正落地一个 Agent,通常要处理这些事情:
- 接入不同 LLM(大语言模型)服务;
- 让 Agent 调用搜索、文件、代码执行、图像生成等工具;
- 保存长期记忆,避免每次会话都从零开始;
- 管理运行环境、权限、密钥和日志;
- 在成本、可控性和功能复杂度之间做取舍。
Hermes-Agent 和 OpenClaw 都属于这一类框架,但它们的设计方向不一样。Hermes-Agent 更强调轻量、低成本、模型兼容和快速部署;OpenClaw 更强调插件化、多模态能力、记忆整合机制和安全加固。
可以先用一张表建立整体印象。
| 维度 | Hermes-Agent | OpenClaw |
|---|---|---|
| 核心定位 | 轻量、通用、低成本 Agent 底座 | 插件化、功能更完整的 Agent 工具箱 |
| 记忆系统 | 持久化存储 + FTS5 全文检索 + LLM 摘要 | “梦境机制” + REM 回填通道 + 记忆整合 |
| 工具体系 | 40+ 内置工具,强调开箱即用 | 插件化工具体系,多模态生成能力更突出 |
| 部署方式 | 本地、Docker、SSH、Daytona、Modal、Singularity 等 | npm 命令行工具,更贴近 Node.js 技术栈 |
| 模型支持 | OpenRouter、Nous Portal、OpenAI、Anthropic、Kimi、GLM、HuggingFace 等 | Gemma、Trinity、Qwen、Fireworks AI、StepFun、MiniMax 等 |
| 特色能力 | Agent 可从经验中生成可复用 Skills | 多模型并行对比、插件认证共享、安全加固 |
| 更适合 | 个人助手、快速原型、低成本部署、模型无关应用 | 创意生成、企业安全场景、多模型评测、深度定制 |
Agent 框架到底在管什么
一个 Agent 系统通常可以拆成五层:模型、规划、工具、记忆、运行环境。模型负责理解和生成,规划器负责决定下一步做什么,工具层负责连接外部世界,记忆层保存历史经验,运行环境负责把这些能力安全地跑起来。
flowchart LR
U[用户请求] --> P[Agent 规划器]
P --> M[LLM 模型接口]
P --> T[工具调用层]
P --> R[记忆系统]
T --> S[搜索 / 文件 / 代码执行 / 多模态工具]
R --> D[(长期存储 / 检索索引)]
M --> P
S --> P
D --> P
P --> A[生成最终响应]
Hermes-Agent 和 OpenClaw 的差异,主要集中在三处:
- 记忆怎么存、怎么取、怎么整理;
- 工具是内置优先,还是插件扩展优先;
- 部署和安全边界由框架承担多少。
这些差异会直接影响开发体验。一个偏低成本部署的个人助手,和一个要在企业网络里调用多种插件的 Agent,选型标准并不一样。
定位差异:轻量底座与插件化工具箱
Hermes-Agent 的设计目标更接近“通用 Agent 底座”。它希望开发者用较低成本启动一个完整 Agent,并且能自由选择模型、工具和运行环境。“5 美元 VPS 可运行”这类定位,说明它更重视资源占用和部署门槛。
OpenClaw 更像面向进阶场景的 Agent 工具箱。它引入了“梦境机制”、多模态生成工具、插件认证共享和安全加固能力,整体功能面更宽,但对应的学习成本也会更高。
| 选型问题 | 更偏 Hermes-Agent | 更偏 OpenClaw |
|---|---|---|
| 是否希望尽快跑起来 | 是 | 不一定 |
| 是否需要大量内置常用工具 | 是 | 部分依赖插件 |
| 是否需要视频、音乐等多模态生成 | 一般 | 是 |
| 是否希望深度定制插件体系 | 一般 | 是 |
| 是否希望部署在低成本 VPS 上 | 是 | 不是核心优势 |
| 是否已经在 Node.js 生态中开发 | 不强依赖 | 更顺手 |
如果团队的目标是快速做出一个可用 Agent,Hermes-Agent 的轻量路线更直接;如果目标是构建一个可扩展的多工具、多模态 Agent 平台,OpenClaw 的插件化路线更容易继续扩展。
记忆系统:Hermes-Agent 更可控,OpenClaw 更主动
记忆是 Agent 和普通聊天机器人的关键区别。没有记忆的 Agent,每次都只能依赖当前上下文;有记忆的 Agent,可以保存用户偏好、历史任务、项目背景和执行经验。
Hermes-Agent:持久化记忆 + 检索
Hermes-Agent 的记忆系统采用更传统、也更容易调试的路线:把会话历史或关键信息持久化保存,再通过 FTS5 做全文检索,需要时把相关记忆召回给 LLM。
FTS5 是 SQLite 的全文搜索扩展,适合在轻量数据库里做关键词检索。配合 LLM 摘要,可以把长对话压缩成更短的记忆片段,降低上下文占用。
flowchart TD
A[用户与 Agent 对话] --> B[提取关键信息]
B --> C[LLM 生成摘要]
C --> D[(SQLite / FTS5 记忆库)]
E[新任务进入] --> F[根据任务检索相关记忆]
D --> F
F --> G[将记忆注入 Prompt]
G --> H[LLM 生成回答或执行计划]
这种方式的优点是可预测。开发者能比较清楚地知道:
- 哪些内容被写入了记忆库;
- 检索关键词是什么;
- 哪些记忆被召回;
- 为什么某条历史信息影响了当前回答。
它更适合这些场景:
| 场景 | 原因 |
|---|---|
| 个人助手 | 需要长期保存用户偏好和日常习惯 |
| 客服机器人 | 需要持续跟踪用户问题和处理状态 |
| 项目助理 | 需要记住项目背景、约束和历史决策 |
| 低成本部署 | SQLite + FTS5 对资源要求不高 |
缺点也比较明确。基于检索的记忆依赖关键词、摘要质量和召回策略,如果历史信息没有被正确摘要,或者检索词没有命中,Agent 可能无法找到需要的记忆。
OpenClaw:梦境机制 + 记忆整合
OpenClaw 的记忆系统更强调“主动整理”。它引入了“梦境机制”和 REM 回填通道,让系统周期性地复盘历史数据,把零散交互整理成更有结构的记忆。
REM 可以理解为一种类比人类睡眠中快速眼动阶段的记忆巩固机制。放在 Agent 系统里,它的目标不是简单存日志,而是从历史任务中提炼关联、模式和经验。
flowchart TD
A[交互日志] --> B[原始记忆池]
B --> C[REM 回填通道]
C --> D[周期性复盘]
D --> E[合并相似经验]
D --> F[发现知识关联]
E --> G[(整合后的长期记忆)]
F --> G
H[新任务] --> I[激活相关记忆]
G --> I
I --> J[生成计划与响应]
这种机制的优势是记忆组织更主动。Agent 不只是等待检索命中,而是尝试把历史经验重新加工,建立关联关系。对于长期运行、任务类型复杂、知识不断积累的 Agent,这种设计可能带来更强的自适应能力。
代价是可控性下降。开发者可能很难精确回答这些问题:
- 某条记忆为什么被强化;
- 某些历史信息为什么被合并;
- Agent 为什么在当前任务中激活了某段经验;
- 记忆整合过程是否引入了错误关联。
所以,记忆系统的选择可以这样判断:
| 需求 | 更适合的方案 |
|---|---|
| 需要稳定、可调试、可解释的记忆召回 | Hermes-Agent |
| 希望 Agent 主动整理历史经验 | OpenClaw |
| 需要严格控制哪些信息进入长期记忆 | Hermes-Agent |
| 能接受一定不确定性,换取更主动的关联发现 | OpenClaw |
工具体系:内置工具与插件生态
Agent 的能力很大程度上取决于工具。LLM 只能生成文本,真正执行任务要靠工具层:搜索网页、读写文件、运行代码、生成图片、调用外部 API。
Hermes-Agent:内置工具覆盖常见任务
Hermes-Agent 提供 40+ 内置工具,覆盖网页搜索、文件操作、代码执行、图像生成、TTS(文本转语音)等常用场景。对于大多数 Agent 原型来说,这些工具已经能支撑完整工作流。
它还有一个重要能力:自创技能。Agent 可以把执行任务时积累的方法沉淀为可复用 Skills。这样一来,系统不是每次都重新规划,而是可以复用过去成功的执行套路。
一个典型流程可以这样理解:
sequenceDiagram
participant U as 用户
participant A as Hermes-Agent
participant T as 内置工具
participant S as Skills 库
U->>A: 提出任务
A->>S: 查找可复用技能
alt 找到合适 Skill
S-->>A: 返回执行步骤
else 没有合适 Skill
A->>A: 规划新步骤
end
A->>T: 调用搜索 / 文件 / 代码等工具
T-->>A: 返回执行结果
A->>S: 沉淀新的可复用 Skill
A-->>U: 返回结果
这种路线适合“常见任务多、希望开箱即用”的开发方式。比如个人助理、研发助手、资料整理工具、轻量自动化脚本,都可以从内置工具开始。
OpenClaw:插件化和多模态能力更突出
OpenClaw 在工具层更强调插件化扩展,并且内置了 video_generate、music_generate 这类多模态生成工具。对于需要生成视频、音乐、图像工作流的场景,它比只覆盖文本和基础工具的框架更合适。
它还支持 ComfyUI 插件。ComfyUI 是一种基于节点的图像生成工作流工具,常用于 Stable Diffusion 相关的图像生成和流程编排。OpenClaw 能接入这类插件,说明它更适合创意生成和多模态 Agent。
另一个实用设计是 providerAuthAliases,也就是插件认证共享机制。多个插件如果使用同一个服务商或同一类 API Key,可以通过别名复用认证配置,避免每个插件单独维护密钥。
flowchart LR
A[OpenClaw Agent] --> B[插件管理器]
B --> C[video_generate]
B --> D[music_generate]
B --> E[ComfyUI 插件]
B --> F[其他自定义插件]
G[(providerAuthAliases)] --> C
G --> D
G --> E
G --> F
当插件数量变多时,认证共享能减少配置重复,也能降低密钥散落在多个配置文件中的风险。不过,这不等于密钥安全已经完全解决,仍然需要结合环境变量隔离、权限最小化和日志清洗一起使用。
部署方式:Hermes-Agent 更灵活,OpenClaw 更贴近 Node.js
部署方式决定了 Agent 能跑在哪里,也决定了后期维护成本。
Hermes-Agent 支持多种运行环境,包括本地、Docker、SSH、Daytona、Modal、Singularity 等。Modal 可以理解为一种无服务器计算平台,适合按任务弹性运行;Singularity 则常见于高性能计算或受限环境中的容器运行。
这种多部署目标的优势是灵活。个人开发者可以先在本地调试,再放到低成本 VPS;团队可以用 Docker 做隔离;有特殊计算环境时,也能选择更贴近生产条件的运行方式。
OpenClaw 更偏命令行工具路线,通过 npm 安装和使用。对于 Node.js、前端、全栈开发者来说,这种方式更符合日常习惯。它的不足在于部署目标没有 Hermes-Agent 那么宽,尤其是对 Modal、Singularity 这类特殊环境的支持不明显。
| 部署诉求 | Hermes-Agent | OpenClaw |
|---|---|---|
| 本地快速调试 | 支持 | 支持 |
| Docker 化部署 | 更明确 | 取决于项目配置 |
| 低成本 VPS | 适合 | 可行但不是主要卖点 |
| 无服务器运行 | 支持 Modal | 支持情况不突出 |
| Node.js CLI 工作流 | 不是核心特色 | 更顺手 |
| 特殊容器环境 | 支持 Singularity | 支持情况不突出 |
验证一个 Agent 框架是否适合自己的部署环境,可以按这个清单做最小化测试:
# 1. 准备模型服务密钥
export OPENAI_API_KEY="替换为实际密钥"
export ANTHROPIC_API_KEY="替换为实际密钥"
# 2. 按官方安装方式启动框架
# Hermes-Agent:选择本地、Docker、VPS 或其他运行方式
# OpenClaw:使用 npm 安装对应 CLI 包
# 3. 做四类 smoke test
# - 模型调用:能否完成一次最简单问答
# - 工具调用:能否搜索、读写文件或调用插件
# - 记忆写入:重启后是否还能召回历史信息
# - 安全隔离:工具是否能访问不该访问的文件或内网地址
这个测试不追求功能完整,而是尽早发现部署层面的硬问题:模型连不上、工具权限不对、记忆不持久、密钥泄露到日志里。
模型支持:Hermes-Agent 覆盖更广,OpenClaw 便于对比
Agent 框架最好不要和单一模型服务绑定太死。不同任务对模型能力的要求不同,成本差异也很大:有些任务需要强推理模型,有些任务用低价模型就够;有些任务需要长上下文,有些任务更看重响应速度。
Hermes-Agent 的模型兼容面更宽,支持 OpenRouter、Nous Portal、OpenAI、Anthropic、Kimi、GLM、HuggingFace 等。OpenRouter 是模型聚合服务,可以通过统一接口访问大量模型。对开发者来说,这种模型无关设计能降低迁移成本。
OpenClaw 支持 Gemma、Trinity、Qwen、Fireworks AI、StepFun、MiniMax 等模型和服务,并且有一个适合模型评测的能力:并行运行多个模型,生成 character-vibes 报告。这对团队做模型选型有用,因为同一个任务可以同时交给多个模型执行,再比较输出风格、稳定性和效果。
flowchart TD
A[同一个测试任务] --> B[模型 A]
A --> C[模型 B]
A --> D[模型 C]
B --> E[输出结果 A]
C --> F[输出结果 B]
D --> G[输出结果 C]
E --> H[character-vibes 对比报告]
F --> H
G --> H
如果目标是尽量自由地切换模型,Hermes-Agent 更合适;如果目标是高频比较模型输出,OpenClaw 的并行评测能力更直接。
安全机制:OpenClaw 显式强调,Hermes-Agent 更依赖部署配置
Agent 安全不能只看模型本身。只要 Agent 能访问网页、读写文件、执行代码、调用插件,就会出现传统应用里也存在的安全问题,而且风险可能更隐蔽。
OpenClaw 在 v2026.4.9 中明确强调了几类安全加固:
| 安全能力 | 解决的问题 |
|---|---|
| SSRF 防护 | 避免 Agent 被诱导访问内网地址或云元数据服务 |
| 环境变量保护 | 避免 API Key、Token 等敏感信息被工具或日志泄露 |
| 日志清洗 | 避免把请求头、密钥、用户隐私写入日志 |
SSRF 是服务器端请求伪造。Agent 只要有联网工具,就可能被恶意提示词诱导去请求内网地址,例如云服务器元数据接口。一旦拿到云凭证,后果会比普通网页爬虫错误严重得多。
Hermes-Agent 没有把安全加固作为最突出的卖点,更多要依赖运行环境、容器隔离、工具权限和密钥管理来保证安全。它适合快速部署,但不代表可以直接把所有工具权限打开后暴露在公网。
Agent 上线前至少要检查这些点:
| 检查项 | 建议 |
|---|---|
| 文件权限 | 工具只能访问工作目录,不能访问用户主目录和系统目录 |
| 网络访问 | 禁止访问内网网段、云元数据地址和本地管理端口 |
| 代码执行 | 使用容器或沙箱隔离,不要直接在宿主机执行不可信代码 |
| 密钥管理 | API Key 放在受控环境变量或密钥管理服务中 |
| 日志输出 | 清洗请求头、Token、用户隐私和模型上下文 |
| 插件来源 | 只安装可信插件,插件权限要最小化 |
如果 Agent 要进入企业网络,OpenClaw 的显式安全能力会减少一部分基础工作;如果使用 Hermes-Agent,也应通过容器、网络策略和密钥管理补齐同类能力。
场景选型表
| 使用场景 | 更推荐 | 主要原因 |
|---|---|---|
| 个人助手 | Hermes-Agent | 轻量部署,长期记忆更可控 |
| 低成本 VPS 部署 | Hermes-Agent | 资源要求低,部署方式灵活 |
| 客服或项目助理 | Hermes-Agent | FTS5 持久记忆方便追踪上下文 |
| 快速原型开发 | Hermes-Agent | 内置工具多,启动成本低 |
| 模型无关应用 | Hermes-Agent | 模型服务覆盖面更广 |
| 视频、音乐等创意生成 | OpenClaw | 多模态工具和插件支持更强 |
| 多模型对比评测 | OpenClaw | character-vibes 报告适合模型选型 |
| 企业 Agent 服务 | OpenClaw | SSRF、环境变量保护、日志清洗更明确 |
| 插件体系深度定制 | OpenClaw | 插件化路线更适合长期扩展 |
| Node.js 团队 | OpenClaw | npm CLI 工作流更自然 |
一个更实用的决策流程
选型时不要只问“哪个更强”,要从应用约束反推框架。
flowchart TD
A[准备开发 Agent] --> B{核心目标是什么}
B -->|快速上线 / 成本低| C[优先评估 Hermes-Agent]
B -->|多模态生成 / 插件扩展| D[优先评估 OpenClaw]
B -->|长期稳定记忆| E{是否要求记忆可解释}
E -->|要求强可控| C
E -->|接受主动整合| D
B -->|企业内网部署| F{安全能力是否需要框架内置}
F -->|需要显式安全加固| D
F -->|已有容器/网络/密钥体系| C
B -->|模型选型评测| G{是否需要多模型并行对比}
G -->|需要| D
G -->|只需广泛接入模型| C
用一句话概括:
- 重视低成本、可控记忆、模型选择自由度,优先 Hermes-Agent。
- 重视插件扩展、多模态生成、模型对比和安全加固,优先 OpenClaw。
使用时容易踩的坑
1. 不要把记忆系统当成数据库
Agent 记忆适合保存偏好、摘要、经验和上下文线索,不适合替代业务数据库。订单状态、账户余额、审批结果这类强一致数据,应放在正式数据库里,再通过工具接口查询。
2. 多工具不等于高可靠
工具越多,Agent 的行动空间越大,错误路径也越多。尤其是文件操作、代码执行、联网请求和插件调用,必须设置权限边界。默认允许所有工具,会让调试和安全审计都变得困难。
3. 多模型支持不等于可以随意切换
不同模型的工具调用格式、上下文长度、函数调用能力和安全策略都可能不同。即使框架支持多个模型,也要为关键任务建立测试集,避免换模型后工作流悄悄失效。
4. 插件认证共享要配合权限隔离
providerAuthAliases 可以减少密钥重复配置,但也可能扩大密钥影响范围。一个插件如果不该访问某个服务,就不要因为共享认证而获得额外权限。
5. 企业部署不能只依赖框架安全项
SSRF 防护、日志清洗、环境变量保护很重要,但还不够。生产环境还需要网络隔离、访问控制、审计日志、密钥轮换、资源限额和异常告警。
结论
Hermes-Agent 和 OpenClaw 的差异,本质上是两种 Agent 框架设计取向的差异。
Hermes-Agent 更像轻量底座,适合快速启动、低成本运行、长期上下文追踪和模型无关部署。它的持久化记忆路线更容易理解和调试,内置工具也足够覆盖大量日常 Agent 场景。
OpenClaw 更像插件化工具箱,适合多模态生成、复杂插件体系、多模型评测和对安全边界要求更明确的场景。它的梦境机制让记忆系统更主动,但也带来了更高的不确定性和调试成本。
如果还没有明确的多模态、插件化或企业安全需求,可以先用 Hermes-Agent 搭出 Agent 原型;当需求演进到视频音乐生成、复杂插件管理、多模型评估或企业级安全控制时,再评估 OpenClaw 会更稳妥。