academic-research-skills,简称 ARS,是一套给 Claude Code 使用的学术研究 Skill(技能包)。它不是单纯帮你“生成一段论文文字”的提示词集合,而是把论文生产过程拆成多个阶段:选题、文献调研、研究问题设计、初稿写作、模拟审稿、修订、格式化和定稿。
它在 GitHub 上已有约 6.4k stars,核心吸引力很明确:把原本分散在多个工具、多个提示词、多个文档里的学术工作,收敛成一套可执行的流水线。
更重要的是,ARS 的设计重点不只是“让 AI(人工智能)写得更多”,而是尽量降低 AI 在学术场景里最危险的几类问题:编造引用、捏造数据、过度迎合用户、审稿标准泄漏、修订时引入新错误。
ARS 解决的不是写作问题,而是流程问题
很多人用大语言模型写论文时,常见做法是打开聊天窗口,然后反复输入:
- 帮我找文献
- 帮我写大纲
- 帮我润色这一段
- 帮我生成摘要
- 帮我模拟审稿意见
- 帮我改成 APA 格式
这种方式能用,但很容易失控。模型前后上下文不稳定,引用来源没有校验,审稿和写作混在同一个对话里,模型可能为了满足用户要求而放弃批判性判断。
ARS 的思路是把论文工作拆成几个互相隔离、互相检查的角色团队。每个团队负责一类任务,并且在关键节点设置检查闸门。
flowchart TB
P[Academic Pipeline<br/>流程编排器] --> R[Deep Research<br/>研究团队]
P --> W[Academic Paper<br/>写作团队]
P --> V[Academic Paper Reviewer<br/>审稿团队]
R --> R1[文献调研]
R --> R2[研究问题构建]
R --> R3[方法论设计]
R --> R4[引用真实性核验]
W --> W1[论文大纲]
W --> W2[草稿写作]
W --> W3[摘要与图表]
W --> W4[格式与引用转换]
V --> V1[主编评估]
V --> V2[领域审稿]
V --> V3[魔鬼代言人质疑]
V --> V4[修改路线图]
P --> G1[Stage 2.5<br/>完整性闸门]
P --> G2[Stage 4.5<br/>修订后完整性闸门]
从结构上看,ARS 更像一个“论文项目管理系统”,Claude Code 负责执行每个阶段的代理任务。它可以帮研究者组织材料、生成草稿和发现问题,但不应该替代研究者判断研究问题是否成立、数据是否真实、结论是否可信。
四个 Skill 分别负责什么
ARS 主要由四个 Skill 组成。它们的关系可以理解为:Deep Research 负责研究基础,Academic Paper 负责写作产出,Academic Paper Reviewer 负责审稿反馈,Academic Pipeline 负责把前面几个团队串起来。
| Skill | 角色定位 | 主要任务 | 典型产物 |
|---|---|---|---|
| Deep Research | 研究团队 | 文献调研、研究问题构建、方法论设计、PRISMA 综述、引用核验 | 文献综述、研究计划、方法框架 |
| Academic Paper | 写作团队 | 大纲设计、论证组织、草稿生成、摘要生成、图表说明、引用格式转换 | Markdown、DOCX、LaTeX、PDF |
| Academic Paper Reviewer | 审稿团队 | 模拟期刊审稿、量化评分、批判性意见、修订路线图 | 审稿报告、分数、修改建议 |
| Academic Pipeline | 流程编排器 | 组织 10 阶段流水线,设置检查点,支持从中间阶段进入 | 完整论文工作流、阶段记录 |
Deep Research:先把研究问题和文献底座搭好
Deep Research 是一个 13 Agent 的研究团队,负责论文最前期的工作。它会围绕研究主题做文献调研,帮助构建研究问题,并参与方法论设计。
它里面有几个关键角色:
- 文献溯源 Agent:通过 Semantic Scholar API(应用程序编程接口)检查引用是否真实存在。
- 苏格拉底导师 Agent:通过追问帮助研究者澄清研究问题,而不是直接替研究者下结论。
- 魔鬼代言人 Agent:专门寻找选题、假设和方法中的薄弱点,避免早期思路被模型顺着用户意图一路强化。
如果研究任务是系统综述,Deep Research 还能生成 PRISMA(系统评价和荟萃分析优先报告项目)相关结构,帮助整理检索、筛选和纳入标准。
Academic Paper:把研究材料组织成论文草稿
Academic Paper 是 12 Agent 的写作团队,覆盖从大纲到成稿的大部分写作工作。
它能处理的任务包括:
- 设计论文结构和章节大纲
- 根据研究材料组织论证链
- 生成初稿和章节草稿
- 生成中英文摘要
- 生成图表说明或可视化建议
- 转换引用格式
- 输出 Markdown、DOCX、LaTeX
- 编译成 APA 7.0 或 IEEE 格式的 PDF
其中一个实用设计是风格校准。模型可以学习已有写作样本的语言习惯,让输出更接近研究者原有风格,而不是生成一眼可见的模板化 AI 文体。
不过,风格校准只能处理表达方式,不能替代事实校验。论文里的实验数据、统计结果、引用依据,仍然需要单独检查。
Academic Paper Reviewer:模拟期刊审稿,而不是只做润色
Academic Paper Reviewer 是 7 Agent 的审稿团队。它模拟真实学术期刊的评审过程,由 EIC(Editor-in-Chief,主编)统筹,多个领域审稿人从不同角度评价论文,再加入魔鬼代言人负责高强度质疑。
评分采用 0 到 100 的量化标准:
| 分数区间 | 审稿结论 | 含义 |
|---|---|---|
| 80 分以上 | 接受 | 论文整体质量较高,只需处理少量问题 |
| 65 到 79 分 | 小修 | 核心贡献基本成立,但需要补充论证或修正细节 |
| 50 到 64 分 | 大修 | 研究设计、论证或证据链存在明显问题 |
| 50 分以下 | 拒稿 | 核心问题不足、证据不够或方法存在严重缺陷 |
这种量化不是为了把学术判断机械化,而是为了让修订过程更可追踪。比如方法论从 72 分提升到 81 分,但实验结果解释从 76 分降到 63 分,就说明修订时可能补强了一个地方,却破坏了另一个地方。
Academic Pipeline:把研究、写作、审稿、修订接成流水线
Academic Pipeline 是整个系统的编排层。它把研究、写作和审稿团队串成一条 10 阶段流程,并在中间加入检查点。
可以把它理解成这样的状态机:
flowchart LR
A[研究规划] --> B[文献与方法设计]
B --> C[论文草稿]
C --> D[Stage 2.5<br/>完整性检查]
D --> E[模拟同行评审]
E --> F[修订]
F --> G[Stage 4.5<br/>修订后检查]
G --> H[最终检查]
H --> I[发表准备]
I --> J[流程总结与记录]
它支持从中间阶段进入。如果已经有初稿,可以直接从 Stage 2.5 的完整性检查开始;如果已经拿到审稿意见,可以从修订阶段切入,而不需要重新跑完整流程。
项目给出的成本参考是:一篇约 1.5 万字的论文,完整跑完流程大约消耗 4 到 6 美元的模型调用成本。单独使用文献综述、审稿或格式化等子模块时,成本会低很多。
关键设计:系统性降低 AI 学术风险
ARS 的价值不只在于多 Agent 分工,而在于它在流程里加入了若干“防错结构”。这些结构针对的是大语言模型在学术场景里的典型失败模式。
引用核验:先确认文献真的存在
AI 写论文最危险的问题之一是引用幻觉。它可能编造不存在的论文,也可能给出看似真实但细节错误的引用,例如标题相似、年份错误、DOI(数字对象唯一标识符)能打开但内容不匹配。
ARS 在 Deep Research 阶段加入引用核验。候选引用会经过 Semantic Scholar API 检索,再用 Levenshtein 相似度算法做模糊匹配,只有相似度达到 0.70 以上才算通过。
flowchart LR
A[模型生成候选引用] --> B[查询 Semantic Scholar API]
B --> C{是否找到候选文献}
C -- 否 --> X[标记为可疑引用]
C -- 是 --> D[计算标题/元数据相似度]
D --> E{Levenshtein 相似度 ≥ 0.70}
E -- 否 --> X
E -- 是 --> F[暂时通过存在性核验]
F --> G[人工检查引用是否支撑论文论点]
这里要区分两个概念:引用存在,不等于引用支持当前论点。API 可以帮助确认文献是否真实存在,但无法完全判断某篇论文是否真的证明了当前句子的主张。存在性核验只是第一道防线,语义层面的证据检查仍然需要研究者参与。
完整性闸门:让模型证明自己没有明显出错
ARS 在 Stage 2.5 和 Stage 4.5 设置了两道完整性闸门。它们会运行一份 7 项 AI 失败模式检查清单,用来识别引用幻觉、数据捏造、方法论造假、统计错误等问题。
可以把这类检查理解成围绕七个方向展开:
| 检查方向 | 关注的问题 |
|---|---|
| 引用真实性 | 是否存在伪造文献、错误 DOI、标题与文献不匹配 |
| 证据支撑 | 论文主张是否有真实文献或数据支持 |
| 数据一致性 | 表格、正文、统计结果之间是否互相矛盾 |
| 方法可复现性 | 方法步骤是否清楚,是否存在模型编造的实验流程 |
| 统计合理性 | 检验方法、指标解释、显著性结论是否使用错误 |
| 结论边界 | 结论是否超出实验或文献能支持的范围 |
| 修订回归 | 修订是否引入新的错误或削弱已有论证 |
闸门机制的核心规则是:在 Stage 2.5 被标记为 SUSPECTED 的问题,到了 Stage 4.5 必须变成 CLEAR;如果要人工覆盖,需要留下覆盖记录。
flowchart TB
A[Stage 2 草稿] --> B[Stage 2.5 完整性闸门]
B --> C{是否发现 SUSPECTED 问题}
C -- 否 --> D[进入审稿阶段]
C -- 是 --> E[记录问题清单]
E --> F[修订或人工覆盖]
F --> G[Stage 4.5 再检查]
G --> H{是否变为 CLEAR}
H -- 是 --> I[进入最终检查]
H -- 否 --> J[继续修订或保留人工记录]
这种设计把“相信 AI 不会出错”改成了“要求 AI 留下可核查的证据”。在学术写作里,这比单纯提高生成质量更重要。
反谄媚协议:不让模型为了配合用户而降低标准
大语言模型有一个常见问题:容易顺着用户走。用户要求它接受某个解释,它可能就接受;用户要求它改写结论,它可能忽略证据边界。
ARS 在审稿团队里加入 Devil’s Advocate,也就是魔鬼代言人。这个角色专门提出反驳和质疑,但它的反驳不会被无条件接受。系统会给反驳强度打 1 到 5 分,如果低于 4 分,写作团队不允许轻易让步。
sequenceDiagram
participant W as 写作团队
participant D as 魔鬼代言人
participant R as 审稿团队
participant P as 流程编排器
W->>R: 提交论文草稿
R->>D: 请求高强度质疑
D-->>R: 输出反驳意见
R->>P: 评估反驳强度 1-5
alt 反驳强度低于 4
P-->>W: 不允许直接让步,保留原论证或要求更强证据
else 反驳强度达到 4 或 5
P-->>W: 进入修订,补充证据或调整结论
end
这套机制还会追踪评分轨迹。修订之后,审稿强度不能突然降低;某个维度的分数如果下降,会被标记为回归。这和软件工程里的回归测试类似:修复一个问题时,不能引入新的问题。
三层数据隔离:写作模型不能偷看评分标准
ARS 把数据流分成三层:
| 层级 | 内容 | 是否给写作团队 |
|---|---|---|
| Layer 1 | 原始输入,可能包含幻觉、过时信息或偏见 | 可以使用,但要验证 |
| Layer 2 | 通过完整性验证的中间产物 | 可以使用 |
| Layer 3 | 评分标准、参考答案、金标数据 | 不允许进入写作上下文 |
这个设计是为了避免模型“看答案”。如果写作团队知道详细评分标准和金标数据,它可能不是真的改好了论文,而是在迎合表面评分规则。
flowchart TB
L1[Layer 1<br/>原始输入] --> C[完整性检查]
C --> L2[Layer 2<br/>已验证产物]
L3[Layer 3<br/>评分标准 / 金标数据] --> R[审稿团队]
L2 --> W[写作团队]
W --> R
R --> F[自然语言反馈]
F --> W
L3 -.禁止进入.-> W
具体执行时,写作团队和审稿团队分成独立调用。写作团队只能拿到类似“第二章论证跳跃,需要补充对比实验”这样的自然语言反馈,而不能看到每个维度的详细权重或参考答案。
repro_lock:记录配置,但不承诺字节级复现
ARS 会为产物生成 repro_lock 文件,用来记录运行配置。它的价值是“知道当时怎么跑的”,而不是保证以后能逐字节重放同样结果。
原因很现实:LLM(Large Language Model,大语言模型)不是传统确定性程序。模型服务商可能更新权重但不改变模型 ID,外部 API 的检索结果每天也可能变化,同一个提示词在不同时间运行可能得到不同输出。
repro_lock 可以理解成这样的配置记录:
model: claude-opus-4.7
workflow: academic-pipeline
stage: full
input_files:
- research_question.md
- notes.md
external_apis:
- semantic_scholar
outputs:
- draft.md
- review_report.md
- final.pdf
note: LLM output is not byte-level reproducible; this file documents configuration, not replay guarantees.
这种声明很关键。它避免把“配置可追踪”误写成“结果可完全复现”。
适合用 ARS 的场景
ARS 适合处理流程复杂、需要多轮检查的学术写作任务。它尤其适合已经有明确研究方向,但需要把材料组织成论文结构的场景。
| 场景 | 是否适合 | 原因 |
|---|---|---|
| 文献综述初稿 | 适合 | 能组织主题、归类文献、检查引用存在性 |
| 研究问题梳理 | 适合 | 苏格拉底式追问能帮助澄清变量、假设和边界 |
| 论文草稿生成 | 适合 | 可以根据已有材料搭建结构和论证链 |
| 模拟投稿前审稿 | 适合 | 多角色评审能提前暴露方法和论证问题 |
| 已有审稿意见后的修订 | 适合 | 可以从修订阶段切入,并检查是否引入回归 |
| 涉及敏感数据的研究 | 谨慎 | 需要先做匿名化和合规审查 |
| 完全替代研究者做实验 | 不适合 | AI 不能保证实验真实、数据真实、结论真实 |
| 一键生成可投稿论文 | 不适合 | 学术质量仍然依赖研究设计、证据和人工判断 |
把 ARS 当成副驾驶更合理:它能提醒路线、检查仪表、辅助整理材料,但研究者仍然要负责方向、数据和结论。
安装和基本使用
如果已经在使用 Claude Code,可以用两条命令安装:
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills
验证安装是否成功:
/ars-plan
运行后,直接描述论文主题、研究对象、已有材料和目标期刊方向,ARS 会启动规划流程,帮助梳理论文结构。
如果只想测试文献综述能力,可以使用:
/ars-lit-review "你的研究主题"
更轻量的方式是把 SKILL.md 上传到 claude.ai 的项目知识库。这样不需要安装 Claude Code,在浏览器里也能体验部分能力。
两种方式的差异如下:
| 使用方式 | 优点 | 限制 |
|---|---|---|
| Claude Code 插件 | 能使用完整流水线,支持多 Agent 协作 | 需要安装并配置 Claude Code |
| 上传 SKILL.md 到 claude.ai | 上手简单,适合体验 | 单 Agent 版本,无法完整复现多 Agent 流程 |
ARS 支持繁体中文和英文。对于中文论文、英文投稿论文、双语摘要等任务,都可以纳入同一套流程里处理。
成本和模型选择
项目文档建议使用 Claude Opus 4.7 搭配 Max 订阅计划。完整跑完 10 个阶段时,单次可能消耗超过 20 万输入 token 和 10 万输出 token。只跑某个子模块,例如文献综述或审稿,消耗会少很多。
| 使用方式 | 成本特点 |
|---|---|
| 完整 10 阶段流水线 | 消耗最高,适合正式论文流程 |
| 单独文献综述 | 成本较低,适合早期选题 |
| 单独模拟审稿 | 成本中等,适合投稿前检查 |
| 上传 SKILL.md 轻量体验 | 功能有限,但配置成本低 |
如果使用 Max 订阅计划,需要考虑每月 100 美元或 200 美元的订阅成本。是否划算取决于使用频率、论文数量、机构报销条件和对流程自动化的需求。
使用 ARS 时要守住几条边界
ARS 可以提高论文流程的组织程度,但它不能替研究者承担学术责任。比较稳妥的用法是把高风险环节单独拿出来人工确认。
| 环节 | 建议做法 |
|---|---|
| 引用 | API 通过后仍要打开论文检查内容是否支撑当前论点 |
| 数据 | 原始数据、统计代码、图表结果必须人工核对 |
| 方法 | 实验流程、样本选择、变量定义不能只依赖模型生成 |
| 审稿意见 | 区分“表达问题”和“研究设计问题”,不要机械接受 |
| 修订 | 每轮修订后重新运行完整性检查 |
| 隐私 | 涉及未公开数据、学生信息、医疗数据时先做匿名化和合规评估 |
| 发表 | 目标期刊或学校如果要求披露 AI 使用,需要按规定记录 |
好的 AI 学术工具不应该只追求生成速度,更应该让每个关键产物有来源、有检查、有记录。ARS 的核心价值就在这里:它把论文写作从一次性生成,改造成可检查、可回溯、可修订的工程化流程。
项目地址:
https://github.com/Imbad0202/academic-research-skills