4 个比较实用的 GitHub 开源项目，浅浅的收藏一波。

我会把素材改成一篇独立的开源工具导览，保留能支撑技术理解的结果图和界面图，去掉 GIF、WebP 和推广尾巴。正文会用表格与 Mermaid 补足流程和适用场景，而不是按原素材逐段复述。---
title: 用 4 个 GitHub 项目理解 AI Agent 工作流的成本、并行与提示词
date: 2026-06-07
slug: github-ai-agent-workflow-projects
categories:

开发工具
人工智能
tags:
GitHub
AI Agent
Claude Code
模型路由
LightGBM
Playwright
System Prompt
description: 4 个开源项目分别解决 AI Agent 使用中的模型成本、多项目并行、求职信息处理和系统提示词研究问题。通过流程图、对比表和上手方式，梳理它们的核心机制、适用场景与使用边界。

AI Agent（智能体）已经不只是聊天窗口里的问答工具。它开始接管代码修改、资料检索、简历生成、面试准备等连续任务，但新的问题也跟着出现：模型费用容易失控，多任务并行很难管理，AI 输出需要人工审核，系统提示词又决定了模型在关键场景下的行为边界。

这 4 个 GitHub 项目分别切入了这些问题：

项目	解决的问题	核心做法
OpenSquilla	大模型调用成本过高	本地路由判断任务难度，把请求分配给便宜但够用的模型
Nezha	多个 Claude Code / Codex 会话难管理	用桌面应用统一管理项目、终端、Git 和会话历史
Career-Ops	求职信息筛选和材料定制耗时	用 AI CLI 和 Playwright 自动分析职位、生成匹配材料
CL4R1T4S / system_prompts_leaks	想研究 AI 产品背后的系统提示词	收集不同 AI 产品的 system prompt 样本，便于理解提示词结构

OpenSquilla：用本地模型路由降低 Agent 调用成本

很多 AI Agent 工作流有一个明显浪费：不管任务难不难，都直接调用最贵、能力最强的模型。复杂架构设计、跨文件重构、疑难 Bug 分析确实需要高能力模型，但改一行配置、整理列表、生成简单命令，并不一定要用同一个模型。

OpenSquilla 的思路是给 Agent 前面加一层“模型路由器”。每一轮请求进来后，路由器先在本地判断任务复杂度，再把请求交给能完成任务的最低成本模型。

flowchart LR
    A[用户请求] --> B[Agent]
    B --> C[本地路由器]
    C --> D{判断任务复杂度}
    D -->|简单任务| E[低成本模型]
    D -->|中等任务| F[中档模型]
    D -->|复杂任务| G[高能力模型]
    E --> H[返回结果]
    F --> H
    G --> H
    H --> B
    B --> A

这里最关键的点不是“多接几个模型”，而是“分类动作在本地完成”。OpenSquilla 使用 LightGBM 和 ONNX 来运行路由判断，用户的 prompt 不需要先发给外部服务做分类。LightGBM 是常见的梯度提升树模型，适合处理结构化特征；ONNX（Open Neural Network Exchange，开放神经网络交换格式）则让模型可以更方便地在不同运行环境中部署。

OpenSquilla 的基准测试结果可以用一张对比图辅助理解：重点不是让分数更高，而是在任务质量几乎不变的前提下压低模型费用。

图里最值得看的数字是平均得分和总成本。OpenSquilla 在 PinchBench 1.2.1 的 25 个任务上平均得分为 0.9251，对照方案 OpenClaw 全程使用 Claude Opus 4.7，平均得分为 0.9255，两者差距很小；但成本从 6.233 美元降到 0.688 美元，约等于把费用压到九分之一左右。

指标	OpenSquilla	OpenClaw 对照组	说明
任务数量	25	25	使用 PinchBench 1.2.1
平均得分	0.9251	0.9255	质量差距非常小
总成本	0.688 美元	6.233 美元	成本约降低 9 倍
路由方式	本地判断	固定使用高端模型	OpenSquilla 按任务难度选模型

这种方案适合高频调用 Agent 的场景，尤其是团队内大量请求都属于“简单任务 + 少量复杂任务”的混合负载。如果所有任务都高度复杂，路由器最终仍会频繁选择高能力模型，成本优势会变小。

开源地址：

https://github.com/opensquilla/opensquilla

Nezha：把多个 Claude Code 和 Codex 会话放进一个工作台

使用 Claude Code 或 Codex 做代码任务时，一个项目开一个终端很常见。问题在于，当多个项目同时跑起来，终端窗口会越来越多：某个 Agent 在等待确认，另一个 Agent 正在改文件，还有一个 Agent 的上下文需要恢复，开发者要靠记忆在窗口之间切换。

Nezha 把这个问题做成了桌面应用。它的定位是 Agent-First 工作台，也就是默认围绕 AI 写代码、人类审查和协调进度来设计界面，而不是把 Agent 当作普通终端里的附属功能。

Nezha 的界面把项目、终端、Git、代码浏览和会话回放放在同一个窗口中，适合同时盯多个 AI 编码任务。

从界面结构上看，Nezha 更像一个“多 Agent 控制台”：每个项目可以作为一个标签页存在，Claude Code 和 Codex 会话在后台继续运行；如果某个项目卡在人工确认步骤，侧边栏会通过黄色状态提醒把它标出来，减少用户反复切终端检查状态的时间。

flowchart TB
    A[Nezha 桌面应用] --> B[项目标签页]
    A --> C[集成终端]
    A --> D[Git 状态]
    A --> E[代码浏览]
    A --> F[会话回放]

    B --> G[项目 A: Claude Code]
    B --> H[项目 B: Codex]
    B --> I[项目 C: Claude Code]

    F --> J[自动识别会话文件]
    J --> K[恢复历史任务]

它还有两个实用点：

功能	作用
后台运行多个 Agent	不需要为每个项目单独开终端窗口
会话文件识别	可以把 Claude Code 和 Codex 的历史对话可视化，方便恢复任务
状态提醒	某个任务等待确认时，侧边栏给出明显提示
轻量安装包	安装包约 7 MB，适合只需要 Agent 管理能力的用户

Nezha 更适合经常在多个仓库之间切换的人。如果只是偶尔让 Claude Code 改一个小文件，原生命令行已经足够；如果每天需要同时推进多个 AI 编码任务，统一工作台能明显减少上下文切换。

开源地址：

https://github.com/hanshuaikang/nezha

Career-Ops：把 AI CLI 变成求职分析流水线

求职场景里最费时间的部分不只是投递，而是判断“这个职位到底值不值得投入时间”。职位描述要读，要求要和简历匹配，薪酬区间要查，简历还要针对 ATS（Applicant Tracking System，招聘管理系统）做关键词优化。

Career-Ops 把 Claude Code、Gemini CLI、OpenCode 这类 AI 编程工具改造成求职指挥中心。它不是自动批量投递工具，而是一个筛选器：先判断机会质量，再决定要不要投入时间准备材料。

核心流程可以拆成 5 步：

sequenceDiagram
    participant U as 用户
    participant C as Career-Ops
    participant P as Playwright
    participant R as 简历资料
    participant A as AI CLI

    U->>C: 输入职位 URL
    C->>P: 抓取招聘页面
    P-->>C: 返回职位描述
    C->>R: 读取个人简历
    C->>A: 分析岗位与简历匹配度
    A-->>C: 返回评分、差距、薪酬和面试材料
    C-->>U: 输出定制简历和申请建议

Career-Ops 的输出不是一段简单评价，而是一组求职决策材料，包括匹配度分析、薪酬调研、STAR 面试故事和面向 ATS 的简历 PDF。STAR 指 Situation、Task、Action、Result，也就是“情境、任务、行动、结果”，常用于行为面试回答结构。

Career-Ops 的界面展示了从职位分析到材料生成的完整输出，重点在于把“是否值得申请”和“如何准备申请”合并到同一个流程里。

图中这类输出适合人工复核，而不是直接提交。评分较低的职位通常意味着岗位要求、经验背景或薪酬预期不匹配，Career-Ops 建议不要投入太多时间在评分低于 4.0 的机会；评分较高的职位才值得进一步定制简历、准备面试故事并手动提交申请。

能力	具体输出	使用方式
职位抓取	通过 Playwright 读取招聘页	输入职位 URL
匹配评分	用 A-F 等级和分数判断适配度	过滤低质量机会
简历优化	生成针对岗位关键词的 ATS 简历 PDF	人工确认后使用
薪酬调研	分析岗位可能薪酬范围	辅助谈薪预期
面试准备	生成 STAR 故事	用于行为面试准备

项目维护者公开的使用结果包括评估 740 多个职位、生成 100 多份定制简历，并最终获得 Head of Applied AI 职位机会。这个结果不能直接等同于工具对所有人都有效，但说明它的设计目标很清楚：减少无效投递，把时间集中到更匹配的机会。

开源地址：

https://github.com/santifer/career-ops

CL4R1T4S 与 system_prompts_leaks：把系统提示词当作工程样本研究

System Prompt（系统提示词）是 AI 产品里非常核心的一层配置。它通常定义模型身份、回答风格、工具调用规则、安全边界和拒答策略。用户看到的是聊天界面，真正影响模型行为的很多规则却藏在系统提示词里。

CL4R1T4S 和 system_prompts_leaks 是两个专门收集系统提示词样本的仓库，覆盖 OpenAI、Google、Anthropic、xAI、Cursor、Devin 等 AI 产品或工具。system_prompts_leaks 的 GitHub 星标数已经达到数万级，说明很多人把它当作提示词工程和 AI 产品设计的研究资料。

开源地址：

https://github.com/elder-plinius/CL4R1T4S
https://github.com/asgeirtj/system_prompts_leaks

这类仓库的价值不在于“复制某个厂商的提示词”，而在于观察成熟 AI 产品如何组织约束。一个完整的系统提示词通常会包含这些模块：

模块	作用
身份设定	规定模型是谁、服务于什么产品
能力边界	说明能做什么、不能声称自己能做什么
工具规则	约束搜索、代码执行、文件读取等工具的调用方式
安全策略	处理违法、暴力、自伤、儿童安全等高风险内容
语气规范	控制回答的简洁程度、礼貌程度和格式
特殊场景流程	对心理危机、政治话题、医疗法律等敏感问题给出单独路径

system_prompts_leaks 中出现过名为 claude-fable-5.md 的文件，声称包含 Claude Fable 5 的系统提示词信息。对于这类材料，更稳妥的处理方式是把它当作待验证样本：可以研究其中的结构、分类和安全规则设计，但不要把每一条产品信息都当成事实，更不要直接复制到商业产品里使用。

系统提示词研究最适合做三件事：

目标	可以怎么用
学习提示词结构	观察身份、工具、安全和风格如何分层
设计内部 Agent	借鉴规则组织方式，而不是照搬具体内容
做安全评审	检查自己的 Agent 是否缺少危机场景处理流程

如果要给自己的 Agent 写系统提示词，可以借鉴这种结构化写法：

1. 角色与任务边界
2. 可用工具和调用规则
3. 输出格式要求
4. 安全与拒答策略
5. 特殊场景处理流程
6. 不确定信息的处理方式

这样写比单纯告诉模型“你是一个专业助手”更可靠，因为它把模型在不同场景下应该遵守的规则拆开了。

4 个项目怎么选

场景	更适合的项目	不适合的情况
Agent 调用量大，账单增长快	OpenSquilla	任务都必须使用最高能力模型
同时跑多个 AI 编码项目	Nezha	只在单个终端里偶尔使用 Agent
想筛选高匹配职位并定制材料	Career-Ops	期待全自动批量投递
想研究 AI 产品提示词结构	CL4R1T4S / system_prompts_leaks	需要完全可信的官方产品文档

这 4 个项目覆盖了 AI Agent 工作流的不同层面：OpenSquilla 优化模型选择，Nezha 优化多任务协作，Career-Ops 把 AI CLI 用到求职决策，系统提示词仓库则提供了观察 AI 产品约束设计的样本。真正落地时，最重要的是先判断自己的瓶颈：费用高就看路由，多窗口混乱就看工作台，求职流程耗时就看自动分析，想提升 Agent 稳定性就研究系统提示词结构。

菜单

4 个比较实用的 GitHub 开源项目，浅浅的收藏一波。

OpenSquilla：用本地模型路由降低 Agent 调用成本

Nezha：把多个 Claude Code 和 Codex 会话放进一个工作台

Career-Ops：把 AI CLI 变成求职分析流水线

CL4R1T4S 与 system_prompts_leaks：把系统提示词当作工程样本研究

4 个项目怎么选

评论