Loop Engineering 是一种面向 Agent 的闭环工程方法,把开发、测试、验收、反馈和迭代设计成可自动运行的流程。它不是简单的 Agent 内部循环,而是让 Agent 在更上层的任务闭环里持续逼近目标。
Harness 工作流由 Prompt、规则、技能和模型共同决定,行为天然不稳定,不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因,可以建立一套可重复、可回归、可驱动改进的评测闭环。
鲁班 Skill 是一个用于升级 Claude Skill 的元工作流:它不只润色 SKILL.md,而是从定位、竞品分析、评分、候选改写、验证闭环几个阶段,把一个能自用的 Skill 打磨成别人能理解、愿意安装、可以复现结果的公开工具。
Step 3.7 Flash 是一款面向生产级 Agent 场景的开源多模态模型,最高生成速度可达 400 TPS。围绕 Agent 链路效率、多模态理解、搜索能力、开源部署和接入方式,讲清它适合解决什么问题以及实际接入时要注意什么。
达尔文 Skill 2.0 通过 9 维评分、多评委独立审查、验证闸门、自动回滚和人工卡口,把 Agent Skill 的迭代变成可重复的工程流程。它适合没有明确 benchmark、但需要长期维护提示词和 workflow 文档的个人开发者场景。
「伯乐」是一个开源 AI 热点聚合 Skill,用来从多个信息源抓取 AI 动态,并通过信息源健康检查、AI 相关性过滤、事件合并和可信度打分,减少重复阅读同一条消息的问题。
Agent 的可靠性不只取决于模型能力,还取决于模型外部的执行环境、工具协议、上下文管理、编排、可观测性、评估和治理。这里用 ETCLOVG 七层架构系统讲清 Harness Engineering 的设计方法和落地检查项。
Agent 架构的核心不是提示词技巧,而是状态、控制流和评估器的设计。围绕 Reflection、Tool Use、ReAct、Planning、PEV、多 Agent、记忆、搜索、模拟和安全闸门等 17 种模式,系统拆解它们解决的问题、拓扑结构、适用场景和工程代价。