AI(人工智能)工具链里有两类需求特别常见:一类是把重复性的操作自动化,比如采集网页数据、批量处理文件、定时触发任务;另一类是让 AI 更好地参与研发流程,比如记住项目规范、生成论文图、接入聊天平台、搭建 Agent 应用。
这里整理的 6 个开源项目分别覆盖这些场景:
| 项目 | 解决的问题 | 关键词 | 仓库 |
|---|---|---|---|
| AutoFigure-Edit | 根据论文方法描述生成可编辑配图 | 论文配图、SVG、风格迁移 | https://github.com/ResearAI/AutoFigure-Edit |
| WebRPA | 零代码搭建网页自动化流程 | RPA、Playwright、触发器 | https://github.com/pmh1314520/WebRPA |
| Trellis | 让 AI 编程工具持续记住项目规范 | Claude Code、Cursor、Codex、规范注入 | https://github.com/mindfold-ai/Trellis |
| qqbot | 把 OpenClaw 接入 QQ 机器人 | QQ 开放平台、事件订阅 | https://github.com/sliverp/qqbot |
| CountBot | 用 Flutter 实现的跨端 AI Agent 框架样例 | Flutter、AI Agent、跨平台 | https://github.com/countbot-ai/CountBot |
| ai-openclaw-skeletons | 快速创建 OpenClaw AI 应用骨架 | OpenClaw、项目模板 | https://github.com/1596941391qq/ai-openclaw-skeletons |
AutoFigure-Edit:把论文方法描述变成可编辑配图
写论文时,方法图、框架图、流程图经常要反复调整。手工画图的问题不只是耗时,还包括风格难统一、后期改动麻烦、从草图到正式图需要重复排版。
AutoFigure-Edit 的目标是把论文方法部分的文字描述转换成专业配图,并输出 SVG(Scalable Vector Graphics,可缩放矢量图形)格式。SVG 的优势是可编辑、可缩放,后续改文字、换颜色、移动模块都比位图方便。
它入选 ICLR 2026(International Conference on Learning Representations),定位不是简单的“文生图”,而是面向学术配图的生成与编辑流程。
核心流程可以理解成这样:
flowchart LR
A[论文方法文字] --> B[LLM 生成初始草图]
B --> C[SAM3 图像分割]
C --> D[RMBG-2.0 去背景]
D --> E[元素重组]
E --> F[输出可编辑 SVG]
G[参考风格图] --> B
LLM(Large Language Model,大语言模型)负责理解论文方法描述,并把文字组织成初步图形结构;SAM3(Segment Anything Model 系列的图像分割模型)用于识别图里的图标、模块、区域;RMBG-2.0 负责去除背景,让元素更容易被重新组合;最终结果会被组装成可继续编辑的矢量图。
它比较适合这些场景:
| 场景 | AutoFigure-Edit 能解决什么 |
|---|---|
| 论文方法图 | 根据方法描述生成模型结构图或流程图 |
| 多张图风格统一 | 通过参考图做风格迁移,减少手工调色和排版 |
| 需要反复修改 | 输出 SVG,便于改文字、箭头、模块位置 |
| 快速出草图 | 先生成一个可用版本,再人工微调 |
使用时可以按这个思路走:
- 准备论文方法部分的文字描述,尽量写清模块、输入输出、数据流向。
- 如果有目标风格,提供一张参考图,让生成结果保持相近的视觉风格。
- 生成 SVG 图后,在内置 Web 界面里调整元素位置、文字、颜色和连接关系。
- 导出最终配图,放入论文或演示材料。
需要注意的是,机器生成的论文图不能直接当作最终事实表达。模块名称、箭头方向、输入输出关系必须人工检查,尤其是方法图里涉及分支、循环、损失函数、训练和推理两套流程时,最好逐项核对。
WebRPA:用拖拽方式搭建网页自动化流程
RPA(Robotic Process Automation,机器人流程自动化)解决的是“把重复操作交给程序执行”的问题。传统网页自动化通常要写 Python 脚本,使用 Selenium、Playwright 或请求库完成页面操作和数据采集。WebRPA 的思路是把这些能力封装成可拖拽模块,让不写代码的人也能搭建自动化流程。
它内置了 260 个功能模块,覆盖范围比较广:
| 能力类型 | 具体能力 |
|---|---|
| 浏览器自动化 | 基于 Playwright 操作网页,支持 CSS(层叠样式表)选择器和 XPath 定位 |
| 数据处理 | JSON(JavaScript Object Notation)、正则表达式、Excel 读写 |
| 文件处理 | 文件读取、写入、监听、批处理 |
| 媒体处理 | 基于 FFmpeg 处理 50 多种音视频格式 |
| AI 对话 | 支持 OpenAI、智谱、通义千问等服务商 |
| 运行环境 | 自带 Python 3.13 和 Node.js,解压后即可运行 |
它的自动化模型可以拆成三层:触发器负责启动流程,工作流负责调度模块,模块负责执行具体动作。
flowchart TB
A[触发器] --> B[工作流引擎]
B --> C[网页操作模块]
B --> D[数据处理模块]
B --> E[文件处理模块]
B --> F[媒体转换模块]
B --> G[AI 对话模块]
C --> H[输出结果]
D --> H
E --> H
F --> H
G --> H
触发器系统是 WebRPA 的关键能力之一。它支持 Webhook、定时任务、文件监控、热键监听等 10 种触发方式,所以它不只能做“点一下运行”的脚本,也可以做持续运行的自动化任务。
典型工作流可能是这样:
sequenceDiagram
participant T as 定时触发器
participant B as 浏览器模块
participant D as 数据处理模块
participant E as Excel 模块
participant A as AI 模块
T->>B: 打开目标网页
B->>B: 登录并定位元素
B-->>D: 提取页面数据
D->>D: 清洗字段和格式
D-->>E: 写入 Excel
D-->>A: 发送摘要请求
A-->>E: 写入 AI 生成的摘要
WebRPA 适合处理规则比较明确的任务,比如定时打开后台下载报表、从网页提取结构化数据、批量转换媒体文件、把采集结果交给 AI 做摘要。它不适合用来绕过网站规则,也不适合承担高并发爬虫任务;如果目标系统有正式 API,优先使用 API 会更稳定。
Trellis:让 Claude Code 等 AI 编程工具记住项目规范
AI 编程工具的常见问题是上下文不稳定。每次开启新会话,都要重新解释项目目录、编码规范、组件风格、测试约定。如果这些信息只靠聊天补充,时间一长就容易遗漏。
Trellis 的定位是 AI 编程工具箱,面向 Claude Code、Cursor、Codex 等工具。它的核心能力是把项目规范、最佳实践和工作日志结构化保存,并在会话开始时自动注入相关上下文。
它解决的问题可以概括为三点:
| 问题 | Trellis 的做法 |
|---|---|
| 每次会话都要重复说明规范 | 把规范放进 spec 目录,自动加载 |
| 所有规范塞进一个文件导致上下文臃肿 | 分层管理,只加载当前任务相关内容 |
| 多个 AI 任务互相干扰 | 通过不同 Git worktree 并行运行任务 |
| 会话结束后上下文丢失 | 用 /trellis:record-session 记录工作日志 |
项目结构的思路类似这样:
project/
├── spec/
│ ├── architecture.md
│ ├── coding-style.md
│ ├── testing.md
│ └── ui-guidelines.md
├── workspace/
│ ├── feature-login/
│ ├── refactor-api/
│ └── fix-tests/
└── ...
spec 目录存放稳定的项目规则,例如架构约束、命名风格、测试要求和组件规范;workspace 目录用于放置不同任务的工作空间,配合 Git worktree 可以让多个 AI 会话同时处理不同分支,互不覆盖文件。
它和单个 CLAUDE.md 文件的差异在于粒度:
| 方案 | 优点 | 局限 |
|---|---|---|
单个 CLAUDE.md | 简单,容易开始 | 内容变多后难维护,也容易把无关信息塞进上下文 |
| Trellis 分层规范 | 可按任务加载相关规则,适合中大型项目 | 需要先整理规范目录和工作方式 |
如果团队已经有明确编码规范,Trellis 的价值会更明显。规范只写一次,后续 AI 会话都能按同一套约定工作,减少“生成的代码风格和项目不一致”的问题。
qqbot:把 OpenClaw 接入 QQ 机器人
OpenClaw 是一个 AI 助手框架,qqbot 是它的 QQ 机器人插件。它通过 QQ 开放平台的长连接事件订阅机制,把 QQ 私聊消息转成 OpenClaw 可以处理的事件,再把处理结果返回给用户。
整体调用关系如下:
flowchart LR
A[QQ 用户私聊] --> B[QQ 开放平台]
B --> C[qqbot 插件]
C --> D[OpenClaw]
D --> E[AI 能力或工具调用]
E --> D
D --> C
C --> B
B --> A
接入步骤主要包括:
- 在 QQ 开放平台注册账号,并完成必要认证。
- 创建 QQ 机器人,获取 AppID 和 AppSecret。
- 在 OpenClaw 环境中安装 qqbot 插件。
- 配置 AppID、AppSecret 等凭证。
- 启动插件,使用 QQ 私聊测试消息收发。
安装命令如下:
openclaw plugins install @sliverp/qqbot@latest
这个插件更适合个人助手、私聊问答、工具触发等场景。当前限制也很明确:QQ 开放平台机器人只支持私聊,不支持群聊。如果需求是群内自动回复、群管理或多人协作机器人,需要确认 QQ 平台能力是否已经开放对应接口。
CountBot:从字数统计工具看跨端 AI Agent 架构
CountBot 表面上是字数统计工具,但代码规模达到 21K 行,并且采用了“工具即智能体”的设计思路。它的价值不只在于统计字数,还在于可以作为 AI Agent 架构和跨端桌面应用的参考。
技术栈基于 Flutter,支持 Windows、macOS、Linux,也适配了 HarmonyOS 6.0。对于需要学习 Flutter 桌面端、跨平台 UI、模块化组织的人来说,它提供了一个较完整的工程样例。
可以把它的架构理解成这样:
flowchart TB
A[Flutter UI] --> B[应用状态与业务逻辑]
B --> C[Agent 调度层]
C --> D[字数统计工具]
C --> E[文本分析扩展点]
C --> F[写作辅助扩展点]
B --> G[平台适配层]
G --> H[Windows]
G --> I[macOS]
G --> J[Linux]
G --> K[HarmonyOS]
“工具即智能体”的关键是把一个个能力封装成可调用工具,再由 Agent 层统一调度。当前核心能力是字数统计,但这种结构可以继续扩展到文本分析、写作辅助、内容检查等方向。
适合参考的部分包括:
| 学习目标 | 可以关注的部分 |
|---|---|
| Flutter 跨端开发 | 多平台适配、桌面端 UI 组织 |
| Agent 工程结构 | 工具封装、调度层、扩展点设计 |
| 生产级代码组织 | 模块划分、错误处理、业务边界 |
| 文本工具应用 | 统计、分析、后续写作辅助能力扩展 |
如果目标只是快速搭建一个聊天机器人,CountBot 并不是最短路径;如果目标是研究“一个可发布的跨端 AI 工具应该怎样组织代码”,它更有参考价值。
ai-openclaw-skeletons:快速创建 OpenClaw 应用骨架
OpenClaw 主打让 AI 不只聊天,而是能调用工具、执行任务、完成自动化工作。基于这类框架做二次开发时,最容易浪费时间的地方往往不是业务逻辑,而是项目初始化:目录怎么分、入口怎么放、插件怎么组织、配置如何管理。
ai-openclaw-skeletons 提供的是 OpenClaw 生态下的项目骨架模板。它的作用不是直接完成某个具体业务,而是帮开发者快速得到一个可继续开发的起点。
适合使用骨架模板的场景:
| 场景 | 使用骨架模板的收益 |
|---|---|
| 新建 OpenClaw 应用 | 省去从空目录搭结构的时间 |
| 开发插件或工具能力 | 目录和入口更容易保持一致 |
| 团队协作 | 新项目初始化方式统一 |
| 学习 OpenClaw 生态 | 通过模板理解推荐工程结构 |
开发流程通常是:
flowchart LR
A[选择骨架模板] --> B[创建项目目录]
B --> C[安装依赖]
C --> D[填写配置]
D --> E[实现业务工具或插件]
E --> F[在 OpenClaw 中运行测试]
如果已经确定要在 OpenClaw 生态里开发 AI 应用,使用骨架模板会比从零搭工程更稳。它能把注意力从初始化细节转移到业务能力本身,例如工具调用、消息处理、任务编排和权限控制。
怎么选择这些项目
不同项目解决的问题差异很大,可以按需求选择:
| 你的需求 | 更适合的项目 |
|---|---|
| 写论文,需要快速生成方法图或架构图 | AutoFigure-Edit |
| 不想写代码,但想自动操作网页和处理文件 | WebRPA |
| 经常用 Claude Code、Cursor、Codex 写代码,希望 AI 记住项目规范 | Trellis |
| 想把 OpenClaw 接到 QQ 私聊机器人 | qqbot |
| 想研究 Flutter 跨端 AI 工具或 Agent 架构 | CountBot |
| 想基于 OpenClaw 快速启动新项目 | ai-openclaw-skeletons |
这些工具覆盖了 AI 应用开发的不同环节:AutoFigure-Edit 处理学术表达,WebRPA 处理自动化执行,Trellis 处理 AI 编程上下文,qqbot 处理聊天入口,CountBot 展示跨端 Agent 工程结构,ai-openclaw-skeletons 则提供 OpenClaw 应用初始化能力。按具体问题选工具,比单纯追求“功能多”更容易落地。