芥末
发布于 2026-04-26 / 0 阅读
0
0

13 个 GitHub 开源项目:AI 编程、Agent、SRE 与安全工具速览

AI(人工智能)开发工具正在从“聊天式问答”变成一套完整工程链路:有的项目负责约束 AI 写代码的方式,有的负责压缩上下文,有的负责让多个 Agent(智能体)协作,还有的把 AI 接进生产故障排查、安全分析和企业架构治理流程里。

这些项目不能只看 Star 数。更重要的是弄清楚三件事:

判断维度要看什么
解决的问题是提升编码效率、补齐上下文、做自动化运维,还是做底层性能优化
接入成本需要装插件、跑代理服务、部署后端,还是只是一份配置文件
使用边界是否依赖特定模型、特定硬件、特定安全权限,能不能放进生产环境

1. andrej-karpathy-skills:给 Claude Code 加一份编码行为规范

开源地址: https://github.com/forrestchang/andrej-karpathy-skills

这个项目本质上是一份面向 Claude Code 的 CLAUDE.md 规则文件,目标不是新增某个 API,而是约束 AI 编程时的行为。

它强调四个原则:

原则作用
写代码前先想清楚避免 AI 没确认需求就开始改文件
尽量少写代码减少无关封装和过度设计
只改必须改的地方避免顺手重构、误删注释、改坏旁边逻辑
以目标为导向每次修改都要服务于当前任务,而不是展示能力

这种规则文件适合放在项目根目录,让 Claude Code 在每次会话开始时读取。它解决的是 AI 编程里很常见的问题:模型能写代码,但容易“太主动”。

一个简化版规则可以长这样:

# Coding Rules

## Before editing
- State assumptions before modifying files.
- Ask questions when requirements are ambiguous.
- Inspect existing code before proposing changes.

## While editing
- Change only the files required by the task.
- Keep existing comments unless they are clearly wrong.
- Prefer small patches over large rewrites.

## After editing
- Explain what changed.
- Mention tests that should be run.

适合场景:

场景是否适合
已经在用 Claude Code,希望减少乱改代码适合
团队希望统一 AI 编码习惯适合
需要模型自动理解复杂业务并独立设计系统不能只靠它,还需要更完整的上下文和评审流程

2. OpenAI Agents SDK:轻量级多 Agent 协作框架

开源地址: https://github.com/openai/openai-agents-python

OpenAI Agents SDK 是一个 Python Agent 框架,重点是把多个 Agent 组织成可协作的系统。每个 Agent 可以有自己的指令、工具和安全规则,也可以把任务交给另一个 Agent。

它的核心结构可以理解成这样:

flowchart LR
    U[用户请求] --> T[分诊 Agent]

    T -->|代码问题| C[代码 Agent]
    T -->|数据问题| D[数据分析 Agent]
    T -->|需要人工确认| H[Human-in-the-loop]

    C --> G[Guardrails 安全检查]
    D --> G

    G --> R[返回结果]

几个关键能力:

能力说明
Handoff一个 Agent 可以把任务转交给另一个 Agent
ToolsAgent 可以调用工具,例如搜索、数据库查询、内部 API
Guardrails在输入或输出阶段做安全检查
Sessions自动管理对话历史
Tracing追踪 Agent 调用链,方便调试
Realtime Voice Agent支持基于实时语音模型构建语音 Agent

安装方式很直接:

pip install openai-agents

一个最小化的 Agent 结构通常包含名称、指令和运行入口:

from agents import Agent, Runner

agent = Agent(
    name="Code Reviewer",
    instructions="Review code changes and point out risky logic, missing tests, and maintainability issues."
)

result = Runner.run_sync(agent, "Review this pull request diff...")
print(result.final_output)

虽然名字里带 OpenAI,但它的定位不是只能调用 OpenAI 模型,而是提供一套组织 Agent 工作流的框架。实际选型时要重点看工具调用、模型适配、日志追踪和权限隔离是否符合自己的工程要求。

3. free-claude-code:用代理把 Claude Code 请求路由到其他模型

开源地址: https://github.com/Alishahryar1/free-claude-code

这个项目的思路是跑一个本地代理服务,让 Claude Code 的 API 请求不直接进入原始模型服务,而是转发到 NVIDIA NIM、OpenRouter、DeepSeek、LM Studio、llama.cpp 等后端。

架构大概是这样:

flowchart LR
    C[Claude Code] --> P[本地代理服务]

    P -->|高复杂度任务| A[远程大模型 API]
    P -->|普通代码任务| B[低成本模型]
    P -->|标题/配额探测等小请求| L[本地直接响应]
    P -->|本地推理| M[LM Studio / llama.cpp]

它比较有意思的地方在于可以按请求类型路由:

请求类型可能的后端
复杂架构设计更强的远程模型
常规代码修改成本更低的模型
标题生成、探测类请求本地拦截
离线或隐私敏感任务本地模型

启动方式通常是先运行代理,再把 Claude Code 的请求地址指向本地服务:

# 示例:实际端口和变量名以项目配置为准
export ANTHROPIC_BASE_URL=http://localhost:8080

这个方案适合想统一管理模型成本、尝试不同模型后端、或把一部分请求放到本地推理的人。需要注意两点:一是代理层会成为新的稳定性依赖;二是接入方式要确认符合相关服务的使用条款和团队合规要求。

4. context-mode:把 AI 编程会话从“半小时上下文满”拉长

开源地址: https://github.com/mksglu/context-mode

AI 编码工具最大的限制之一是上下文窗口。模型一开始能记住当前任务、改过哪些文件、用户做过什么决策,但会话变长后,上下文会被压缩,很多细节就丢了。

Context Mode 的做法是把工具输出、文件编辑、Git 操作、任务状态和用户决策沉淀到本地存储里,再通过搜索把需要的内容取回来。

flowchart TB
    A[AI 编码工具] --> B[Context Mode]

    B --> C[工具输出压缩]
    B --> D[(SQLite)]
    D --> E[FTS5 全文索引]
    D --> F[BM25 排序]

    B --> G[文件编辑记录]
    B --> H[Git 操作记录]
    B --> I[任务状态]
    B --> J[用户决策]

    E --> K[恢复相关上下文]
    F --> K
    K --> A

这里涉及两个检索概念:

  • FTS5:SQLite 内置全文搜索能力,适合在本地做轻量索引。
  • BM25:经典文本相关性排序算法,常用于搜索引擎结果排序。

它的压缩效果主要来自“不要把原始大块输出直接塞给模型”。例如浏览器快照、GitHub Issue 页面这类内容可能几十 KB,但真正有用的信息只是一小部分。Context Mode 会把这些信息结构化存储,后续需要时再检索。

支持的平台包括 Claude Code、Gemini CLI、VS Code Copilot、Cursor、OpenCode 和 Codex CLI。适合长时间编码会话、复杂重构、跨文件调试这类任务;如果只是让 AI 写一个独立函数,它的收益不会太明显。

5. claude-context:给代码库装语义搜索

开源地址: https://github.com/zilliztech/claude-context

大代码库里使用 AI 编程时,经常出现一个问题:模型不知道相关代码在哪里,只能反复 grep、打开目录、猜文件名。这样既消耗 Token,也容易漏掉关键实现。

Claude Context 是一个 MCP(Model Context Protocol,模型上下文协议)插件,用混合检索帮 AI 快速定位代码。它结合了两类搜索方式:

检索方式擅长什么
BM25关键词匹配,例如函数名、类名、错误码
稠密向量检索语义匹配,例如“用户认证逻辑在哪里”

混合检索的流程可以表示为:

flowchart LR
    Q[自然语言查询] --> A[关键词检索 BM25]
    Q --> B[向量检索]

    A --> C[候选代码片段]
    B --> C

    C --> D[结果融合与排序]
    D --> E[返回文件位置和代码片段]

它还支持增量索引,只重新索引发生变化的文件。对于每天频繁改动的大型仓库,这一点很关键,因为全量索引会拖慢开发流程。

适合场景:

场景说明
大型单体仓库AI 能更快找到相关模块
多语言项目语义检索比单纯文件名搜索更稳
Token 成本敏感不需要把整个目录丢进上下文
小脚本项目收益有限,直接打开文件更快

6. GenericAgent:用少量原子工具控制整台电脑

开源地址: https://github.com/lsdefine/GenericAgent

GenericAgent 的定位不是单纯聊天,也不是只写代码,而是让 Agent 能操作真实计算机环境。它通过浏览器、终端、文件系统、键鼠输入、屏幕视觉和 Android ADB(Android Debug Bridge,安卓调试桥)等工具完成任务。

它的关键设计是把复杂任务拆成少量“原子能力”:

flowchart TB
    A[任务目标] --> B[规划器]

    B --> C[浏览器操作]
    B --> D[终端命令]
    B --> E[文件系统]
    B --> F[键盘鼠标]
    B --> G[屏幕视觉]
    B --> H[ADB 手机控制]

    C --> I[任务结果]
    D --> I
    E --> I
    F --> I
    G --> I
    H --> I

    I --> J[沉淀 Skill]
    J --> B

它还有两个设计点:

设计作用
Skill 自我沉淀完成新任务后,把过程转成可复用技能
多层记忆结构用较小上下文窗口维持任务状态

它使用真实浏览器而不是纯无头浏览器,这意味着可以保留登录状态,适合需要访问已登录 Web 系统的任务。不过,能控制整台电脑也意味着权限风险更高,必须放在隔离环境里运行,避免 Agent 误操作真实账号、生产系统或敏感文件。

7. Thunderbolt:面向隐私和私有化部署的 AI 聊天客户端

开源地址: https://github.com/thunderbird/thunderbolt

Thunderbolt 是 Thunderbird 团队做的 AI 聊天客户端,基于 Tauri 构建,目标是覆盖 Web、macOS、Linux、Windows、Android 和 iOS。

它解决的问题不是“再做一个聊天框”,而是让用户或团队掌握模型和数据:

能力价值
支持远程前沿模型适合追求模型能力的场景
支持 Ollama 本地模型数据可以留在本机
支持私有化部署企业可以放进内网
跨平台客户端降低团队多设备使用成本
Docker Compose / Kubernetes方便服务端部署

企业功能方向包括 OIDC(OpenID Connect,身份认证协议)、端到端加密、跨设备同步、Google 和 Microsoft 集成,以及 MCP 支持。

适合对隐私、账号体系、部署边界有要求的团队;如果只是个人偶尔问答,直接使用现成模型网页端会更省事。

8. OpenSRE:把 AI 接进生产事故调查流程

开源地址: https://github.com/Tracer-Cloud/opensre

OpenSRE 是一个 AI SRE(Site Reliability Engineering,站点可靠性工程)Agent 框架,用来自动化生产事故调查和响应。

典型流程如下:

sequenceDiagram
    participant Alert as 告警系统
    participant SRE as OpenSRE
    participant Logs as 日志平台
    participant Metrics as 指标系统
    participant Traces as 链路追踪
    participant LLM as 大语言模型
    participant Chat as Slack/PagerDuty

    Alert->>SRE: 触发告警
    SRE->>Logs: 拉取相关日志
    SRE->>Metrics: 查询指标变化
    SRE->>Traces: 获取请求链路
    SRE->>LLM: 汇总上下文并分析
    LLM-->>SRE: 根因假设与证据链
    SRE->>Chat: 推送调查报告

它集成的对象包括:

类型示例
大语言模型Anthropic、OpenAI、Ollama
监控平台Grafana、Datadog、Honeycomb、CloudWatch、Sentry
基础设施Kubernetes、AWS、GCP、Azure
协作系统Slack、PagerDuty

这类工具的价值在于缩短事故初期的信息收集时间。人仍然需要判断根因是否成立,尤其是涉及回滚、扩容、数据修复这类操作时,不应该让 Agent 直接做高风险变更。

它还提供 RCA(Root Cause Analysis,根因分析)测试套件,可以用合成事故评估 Agent 的排障能力。当前阶段更适合实验环境、内部平台集成和低风险辅助分析。

9. ArcKit:把企业架构治理做成 AI 辅助工作流

开源地址: https://github.com/tractorjuice/arc-kit

ArcKit 面向企业架构治理。很多团队的架构工作散落在文档、会议纪要、需求评审和合规表格里,ArcKit 试图把这些活动变成可执行的 AI 工作流。

它覆盖的内容包括:

领域示例
架构原则定义系统设计约束和决策边界
利益相关者分析梳理业务、技术、合规相关方
风险管理识别技术风险、供应商风险、交付风险
商业案例解释为什么要投入某项架构改造
需求文档生成更结构化的需求说明
数据建模协助整理实体、关系和数据流
合规包括 GDPR(通用数据保护条例)相关考虑

它内置多个命令和自主研究 Agent,覆盖 Wardley Mapping 战略规划、供应商 RFP(Request for Proposal,招标请求)管理、正式设计评审等流程,同时支持 Claude Code、Gemini CLI、GitHub Copilot 和 Codex CLI。

它更适合中大型组织里的架构团队、平台团队和技术管理团队。对于小团队而言,完整治理流程可能偏重,可以只借鉴其中的设计评审、风险分析和决策记录模板。

10. hackingtool:安全工具集合与快速安装入口

开源地址: https://github.com/Z4nzu/hackingtool

hackingtool 是一个安全工具集合,集成了 185 个以上工具,覆盖信息收集、Web 漏洞测试、无线安全、后渗透、取证、逆向工程、云安全和移动安全等类别。

它的价值主要是把分散工具整理到统一入口里:

类别常见用途
信息收集域名、IP、端口、服务探测
SQL 注入测试验证数据库注入风险
XSS 测试检测跨站脚本问题
取证分析日志、磁盘、内存或文件痕迹
逆向工程分析二进制或移动应用
云安全检查云资源配置风险
移动安全分析 Android/iOS 应用安全问题

它还提供搜索能力,可以根据关键词找到对应工具,并支持 Docker 部署和分类批量安装。

这类工具只能用于授权范围内的安全测试,例如自己的系统、公司批准的渗透测试环境、靶场或 CTF。不要把它当成自动攻击平台放到公网环境里随意使用,否则会带来法律和合规风险。

11. Open-Generative-AI:多模型图像和视频生成工作台

开源地址: https://github.com/Anil-matcha/Open-Generative-AI

Open-Generative-AI 是一个面向创意工作流的生成式 AI 工作台,集成了大量图像和视频模型,覆盖文生图、图生图、文生视频、图生视频和唇形同步等任务。

它的功能可以按工作流拆开:

flowchart LR
    A[输入] --> B{任务类型}

    B --> C[文生图]
    B --> D[图生图]
    B --> E[文生视频]
    B --> F[图生视频]
    B --> G[唇形同步]

    C --> H[模型选择]
    D --> H
    E --> H
    F --> H
    G --> H

    H --> I[本地推理或远程服务]
    I --> J[生成结果]

它支持的模型覆盖 Flux、Kling、Sora、Veo,以及本地推理模型如 Z-Image Turbo、Dreamshaper、SDXL 等。部署方式包括 Web 版、本地运行和桌面客户端,桌面端覆盖 macOS、Windows、Linux,并支持 Apple Silicon 的 Metal GPU 加速。

需要特别注意内容安全边界。生成式图像和视频工具如果缺少严格审核机制,不适合直接开放给没有权限管理和内容审查流程的公共产品。企业内部使用时也应明确版权、肖像权、数据来源和输出审核规则。

12. DeepGEMM:面向大模型推理和训练的 CUDA 内核库

开源地址: https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 是 DeepSeek 开源的底层计算内核库,面向大模型里的高性能矩阵计算。它不是上层推理框架,而是更靠近 GPU(图形处理器)执行层的 CUDA(NVIDIA 的并行计算平台)代码库。

它覆盖的大模型计算原语包括:

计算类型用途
FP8 / FP4 / BF16 GEMM低精度矩阵乘法,影响模型推理和训练吞吐
MoE 融合优化混合专家模型的专家分发和计算
MQA 评分优化多查询注意力相关计算
JIT 编译运行时生成适配当前形状和硬件的内核

Mega MoE 融合内核是它的重点能力之一。传统 MoE(Mixture of Experts,混合专家)计算通常包含多步:专家并行分发、线性计算、激活函数、专家并行合并。DeepGEMM 将这些步骤融合到一个 mega-kernel 里,让通信和计算尽量重叠。

flowchart LR
    A[Token 输入] --> B[EP 分发]
    B --> C[专家线性计算]
    C --> D[SwiGLU 激活]
    D --> E[EP 合并]
    E --> F[输出]

    subgraph DeepGEMM Mega Kernel
        B
        C
        D
        E
    end

它对硬件要求较高,需要 NVIDIA H100、H800、B200 等 SM90 以上 GPU。对于普通应用开发者,它可能不会直接进入业务代码;对于做大模型训练、推理引擎、低精度计算优化和 MoE 系统的人,它属于底层性能工具。

13. android-reverse-engineering-skill:用 Claude Code 辅助 Android 逆向分析

开源地址: https://github.com/SimoneAvogadro/android-reverse-engineering-skill

这个项目是 Claude Code 的 Android 逆向分析插件,输入 APK、XAPK、JAR 或 AAR 文件后,使用 jadx 和 Fernflower 进行反编译,并让 AI 协助整理代码结构、网络接口和调用链。

典型分析流程如下:

flowchart TB
    A[APK / XAPK / JAR / AAR] --> B[反编译]

    B --> C[jadx]
    B --> D[Fernflower]

    C --> E[Java/Kotlin 代码]
    D --> E

    E --> F[识别 Retrofit 端点]
    E --> G[识别 OkHttp 调用]
    E --> H[提取硬编码 URL]
    E --> I[分析认证模式和 Token]
    E --> J[调用链追踪]

    J --> K[Activities / Fragments]
    K --> L[ViewModels]
    L --> M[Repositories]
    M --> N[HTTP 调用层]

它适合没有源码但需要快速理解 App 网络接口的场景,例如:

场景说明
企业内部安全审计分析自家 App 是否暴露敏感接口或硬编码密钥
供应链安全检查检查第三方 SDK 或交付包行为
兼容性排查理解旧版本 App 的接口调用方式
教学和靶场学习 Android 反编译与调用链分析

使用前需要准备 Java JDK 17 以上和 jadx CLI。逆向分析必须限定在有授权的应用、自己的应用或合法测试环境中,不能用于窃取接口、绕过认证或侵犯他人软件权益。

选型速查表

不同项目解决的问题不一样,放在同一张表里更容易判断优先级。

项目解决的问题适合场景主要限制
andrej-karpathy-skills约束 Claude Code 编码行为AI 经常乱改代码、团队需要统一规则只是一份规则,不提供检索和执行能力
OpenAI Agents SDK构建多 Agent 协作流程客服、数据分析、工具调用、工作流编排需要设计 Agent 边界和安全策略
free-claude-code通过代理路由模型请求控制模型成本、接入本地模型代理稳定性和合规要求要确认
context-mode延长 AI 编码上下文长会话重构、跨文件调试短任务收益不明显
claude-context代码库语义搜索大仓库、跨模块定位代码需要建立和维护索引
GenericAgent控制真实计算机环境浏览器自动化、终端任务、复杂桌面操作权限风险高,建议沙箱运行
Thunderbolt私有化 AI 聊天客户端企业内网、隐私敏感团队需要部署和账号体系规划
OpenSRE自动化事故调查日志、指标、链路追踪关联分析不能替代人工决策
ArcKit企业架构治理工作流架构评审、风险分析、供应商管理小团队可能感觉流程偏重
hackingtool安全工具集合授权渗透测试、靶场、审计必须限定合法授权范围
Open-Generative-AI图像和视频生成工作台创意制作、本地模型实验内容安全和版权边界要自建
DeepGEMM大模型底层计算优化推理引擎、训练框架、MoE 优化依赖高端 NVIDIA GPU
android-reverse-engineering-skillAndroid 逆向辅助分析App 安全审计、接口梳理需要授权和逆向基础

如果只想改善日常 AI 编码体验,可以从 CLAUDE.md 规则、代码库语义搜索和上下文压缩这三类工具开始。要做复杂自动化,再考虑 Agent 框架、桌面控制和 SRE Agent。涉及安全、逆向、生成式媒体和 GPU 内核优化的项目,门槛和风险都更高,更适合有明确技术目标和边界约束的团队。


评论