人工智能 #Agent #Loop Engineering #AI Coding #Claude Code #Codex #Git Worktree #自动化

Loop Engineering：让 Agent 自己完成开发、验证与迭代

Loop Engineering 是一种面向 Agent 的闭环工程方法，把开发、测试、验收、反馈和迭代设计成可自动运行的流程。它不是简单的 Agent 内部循环，而是让 Agent 在更上层的任务闭环里持续逼近目标。

发布于 2026-06-18

人工智能 #Harness #Agent #LLM #工作流评测 #自动化测试 #Prompt Engineering #质量度量

Harness 工作流评测系统：用考试机制量化 Agent 质量

Harness 工作流由 Prompt、规则、技能和模型共同决定，行为天然不稳定，不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因，可以建立一套可重复、可回归、可驱动改进的评测闭环。

发布于 2026-06-18

人工智能 #Claude Skill #Agent #Prompt Engineering #GitHub #SkillOpt #工作流

用鲁班 Skill 把 Claude Skill 从自用脚本打磨成可发布工具

鲁班 Skill 是一个用于升级 Claude Skill 的元工作流：它不只润色 SKILL.md，而是从定位、竞品分析、评分、候选改写、验证闭环几个阶段，把一个能自用的 Skill 打磨成别人能理解、愿意安装、可以复现结果的公开工具。

发布于 2026-06-11

人工智能 #RAG #Agent #知识库 #知识图谱 #GraphRAG #LLM Wiki #检索增强生成 #上下文工程

面向 Agent 的分层知识库设计：从 RAG 到 Knowledge Context Layer

RAG 能解决知识召回问题，但在工程知识库里容易遇到粒度混乱、缺少关联、无法积累等问题。分层知识库把原则、架构、规范、实现和经验拆成不同层级，再结合图谱关系和角色路由，为 Agent 提供更稳定、更可控的 Knowledge Context Layer。

发布于 2026-06-10

人工智能 #Step 3.7 Flash #StepFun #Agent #多模态 #OCR #搜索增强 #OpenAI Compatible

Step 3.7 Flash 面向 Agent 的高吞吐开源多模态模型上手指南

Step 3.7 Flash 是一款面向生产级 Agent 场景的开源多模态模型，最高生成速度可达 400 TPS。围绕 Agent 链路效率、多模态理解、搜索能力、开源部署和接入方式，讲清它适合解决什么问题以及实际接入时要注意什么。

发布于 2026-06-02

人工智能 #Agent #SKILL #Prompt Engineering #LLM-as-a-Judge #SkillOpt #SkillLens #Human in the Loop

达尔文 Skill 2.0：面向个人开发者的 Agent Skill 自进化优化器

达尔文 Skill 2.0 通过 9 维评分、多评委独立审查、验证闸门、自动回滚和人工卡口，把 Agent Skill 的迭代变成可重复的工程流程。它适合没有明确 benchmark、但需要长期维护提示词和 workflow 文档的个人开发者场景。

发布于 2026-05-28

人工智能 #AI News Radar #信息聚合 #事件去重 #Agent #RSS #Hacker News #GitHub Trending

开源 AI 热点 Skill「伯乐」的信息聚合与事件去重设计

「伯乐」是一个开源 AI 热点聚合 Skill，用来从多个信息源抓取 AI 动态，并通过信息源健康检查、AI 相关性过滤、事件合并和可信度打分，减少重复阅读同一条消息的问题。

发布于 2026-05-26

人工智能 #LLM #Agent #Harness Engineering #MCP #沙箱 #可观测性 #评估 #安全治理

Agent Harness Engineering 七层架构：把大模型变成可靠 Agent 的工程方法

Agent 的可靠性不只取决于模型能力，还取决于模型外部的执行环境、工具协议、上下文管理、编排、可观测性、评估和治理。这里用 ETCLOVG 七层架构系统讲清 Harness Engineering 的设计方法和落地检查项。

发布于 2026-05-25

人工智能 #Agent #LLM #agno #ReAct #Multi-Agent #Workflow #Tree-of-Thoughts #Memory

17 种 Agent 架构演进：从单次生成到可控执行系统

Agent 架构的核心不是提示词技巧，而是状态、控制流和评估器的设计。围绕 Reflection、Tool Use、ReAct、Planning、PEV、多 Agent、记忆、搜索、模拟和安全闸门等 17 种模式，系统拆解它们解决的问题、拓扑结构、适用场景和工程代价。

发布于 2026-05-18

人工智能 #Codex #ChatGPT #Agent #CLI #Skills #MCP #自动化 #本地文件

Codex 桌面 Agent 入门：项目、权限、插件、Skills 与自动化任务

Codex 是 OpenAI 面向桌面工作的 Agent，可以读写项目文件、执行终端命令、调用浏览器和插件，并把固定流程沉淀成 Skills 或自动化任务。围绕安装、项目权限、文件操作、命令行、记忆、插件、MCP 和手机控制，完整讲清它的使用方法和注意事项。

发布于 2026-05-16

菜单

所有标签

Loop Engineering：让 Agent 自己完成开发、验证与迭代

Harness 工作流评测系统：用考试机制量化 Agent 质量

用鲁班 Skill 把 Claude Skill 从自用脚本打磨成可发布工具

面向 Agent 的分层知识库设计：从 RAG 到 Knowledge Context Layer

Step 3.7 Flash 面向 Agent 的高吞吐开源多模态模型上手指南

达尔文 Skill 2.0：面向个人开发者的 Agent Skill 自进化优化器

开源 AI 热点 Skill「伯乐」的信息聚合与事件去重设计

Agent Harness Engineering 七层架构：把大模型变成可靠 Agent 的工程方法

17 种 Agent 架构演进：从单次生成到可控执行系统

Codex 桌面 Agent 入门：项目、权限、插件、Skills 与自动化任务

Loop Engineering：让 Agent 自己完成开发、验证与迭代

从 Prompt 到 Agent Loop：让 AI Agent 稳定工作的循环设计方法

8 个能控制电脑的开源 AI Agent 项目对比

Claude Fable 5首日实测，杀疯了…

用 ChatGPT iOS 控制 Codex App：移动端连接多台电脑的配置指南

Agent Harness Engineering 七层架构：把大模型变成可靠 Agent 的工程方法

SDD-RIPER 团队落地指南：用 Spec 和阶段门禁管住大模型编程

Claude Code 的 Prompt、Context 与 Harness 工程设计拆解

Harness Engineering：构建可靠 AI Agent 的系统方法

Fastjson 1.2.83 序列化与反序列化源码机制解析