用 academic-research-skills 搭建 Claude Code 论文研究流水线

academic-research-skills，简称 ARS，是一套给 Claude Code 使用的学术研究 Skill（技能包）。它不是单纯帮你“生成一段论文文字”的提示词集合，而是把论文生产过程拆成多个阶段：选题、文献调研、研究问题设计、初稿写作、模拟审稿、修订、格式化和定稿。

它在 GitHub 上已有约 6.4k stars，核心吸引力很明确：把原本分散在多个工具、多个提示词、多个文档里的学术工作，收敛成一套可执行的流水线。

更重要的是，ARS 的设计重点不只是“让 AI（人工智能）写得更多”，而是尽量降低 AI 在学术场景里最危险的几类问题：编造引用、捏造数据、过度迎合用户、审稿标准泄漏、修订时引入新错误。

ARS 解决的不是写作问题，而是流程问题

很多人用大语言模型写论文时，常见做法是打开聊天窗口，然后反复输入：

帮我找文献
帮我写大纲
帮我润色这一段
帮我生成摘要
帮我模拟审稿意见
帮我改成 APA 格式

这种方式能用，但很容易失控。模型前后上下文不稳定，引用来源没有校验，审稿和写作混在同一个对话里，模型可能为了满足用户要求而放弃批判性判断。

ARS 的思路是把论文工作拆成几个互相隔离、互相检查的角色团队。每个团队负责一类任务，并且在关键节点设置检查闸门。

flowchart TB
    P[Academic Pipeline<br/>流程编排器] --> R[Deep Research<br/>研究团队]
    P --> W[Academic Paper<br/>写作团队]
    P --> V[Academic Paper Reviewer<br/>审稿团队]

    R --> R1[文献调研]
    R --> R2[研究问题构建]
    R --> R3[方法论设计]
    R --> R4[引用真实性核验]

    W --> W1[论文大纲]
    W --> W2[草稿写作]
    W --> W3[摘要与图表]
    W --> W4[格式与引用转换]

    V --> V1[主编评估]
    V --> V2[领域审稿]
    V --> V3[魔鬼代言人质疑]
    V --> V4[修改路线图]

    P --> G1[Stage 2.5<br/>完整性闸门]
    P --> G2[Stage 4.5<br/>修订后完整性闸门]

从结构上看，ARS 更像一个“论文项目管理系统”，Claude Code 负责执行每个阶段的代理任务。它可以帮研究者组织材料、生成草稿和发现问题，但不应该替代研究者判断研究问题是否成立、数据是否真实、结论是否可信。

四个 Skill 分别负责什么

ARS 主要由四个 Skill 组成。它们的关系可以理解为：Deep Research 负责研究基础，Academic Paper 负责写作产出，Academic Paper Reviewer 负责审稿反馈，Academic Pipeline 负责把前面几个团队串起来。

Skill	角色定位	主要任务	典型产物
Deep Research	研究团队	文献调研、研究问题构建、方法论设计、PRISMA 综述、引用核验	文献综述、研究计划、方法框架
Academic Paper	写作团队	大纲设计、论证组织、草稿生成、摘要生成、图表说明、引用格式转换	Markdown、DOCX、LaTeX、PDF
Academic Paper Reviewer	审稿团队	模拟期刊审稿、量化评分、批判性意见、修订路线图	审稿报告、分数、修改建议
Academic Pipeline	流程编排器	组织 10 阶段流水线，设置检查点，支持从中间阶段进入	完整论文工作流、阶段记录

Deep Research：先把研究问题和文献底座搭好

Deep Research 是一个 13 Agent 的研究团队，负责论文最前期的工作。它会围绕研究主题做文献调研，帮助构建研究问题，并参与方法论设计。

它里面有几个关键角色：

文献溯源 Agent：通过 Semantic Scholar API（应用程序编程接口）检查引用是否真实存在。
苏格拉底导师 Agent：通过追问帮助研究者澄清研究问题，而不是直接替研究者下结论。
魔鬼代言人 Agent：专门寻找选题、假设和方法中的薄弱点，避免早期思路被模型顺着用户意图一路强化。

如果研究任务是系统综述，Deep Research 还能生成 PRISMA（系统评价和荟萃分析优先报告项目）相关结构，帮助整理检索、筛选和纳入标准。

Academic Paper：把研究材料组织成论文草稿

Academic Paper 是 12 Agent 的写作团队，覆盖从大纲到成稿的大部分写作工作。

它能处理的任务包括：

设计论文结构和章节大纲
根据研究材料组织论证链
生成初稿和章节草稿
生成中英文摘要
生成图表说明或可视化建议
转换引用格式
输出 Markdown、DOCX、LaTeX
编译成 APA 7.0 或 IEEE 格式的 PDF

其中一个实用设计是风格校准。模型可以学习已有写作样本的语言习惯，让输出更接近研究者原有风格，而不是生成一眼可见的模板化 AI 文体。

不过，风格校准只能处理表达方式，不能替代事实校验。论文里的实验数据、统计结果、引用依据，仍然需要单独检查。

Academic Paper Reviewer：模拟期刊审稿，而不是只做润色

Academic Paper Reviewer 是 7 Agent 的审稿团队。它模拟真实学术期刊的评审过程，由 EIC（Editor-in-Chief，主编）统筹，多个领域审稿人从不同角度评价论文，再加入魔鬼代言人负责高强度质疑。

评分采用 0 到 100 的量化标准：

分数区间	审稿结论	含义
80 分以上	接受	论文整体质量较高，只需处理少量问题
65 到 79 分	小修	核心贡献基本成立，但需要补充论证或修正细节
50 到 64 分	大修	研究设计、论证或证据链存在明显问题
50 分以下	拒稿	核心问题不足、证据不够或方法存在严重缺陷

这种量化不是为了把学术判断机械化，而是为了让修订过程更可追踪。比如方法论从 72 分提升到 81 分，但实验结果解释从 76 分降到 63 分，就说明修订时可能补强了一个地方，却破坏了另一个地方。

Academic Pipeline：把研究、写作、审稿、修订接成流水线

Academic Pipeline 是整个系统的编排层。它把研究、写作和审稿团队串成一条 10 阶段流程，并在中间加入检查点。

可以把它理解成这样的状态机：

flowchart LR
    A[研究规划] --> B[文献与方法设计]
    B --> C[论文草稿]
    C --> D[Stage 2.5<br/>完整性检查]
    D --> E[模拟同行评审]
    E --> F[修订]
    F --> G[Stage 4.5<br/>修订后检查]
    G --> H[最终检查]
    H --> I[发表准备]
    I --> J[流程总结与记录]

它支持从中间阶段进入。如果已经有初稿，可以直接从 Stage 2.5 的完整性检查开始；如果已经拿到审稿意见，可以从修订阶段切入，而不需要重新跑完整流程。

项目给出的成本参考是：一篇约 1.5 万字的论文，完整跑完流程大约消耗 4 到 6 美元的模型调用成本。单独使用文献综述、审稿或格式化等子模块时，成本会低很多。

关键设计：系统性降低 AI 学术风险

ARS 的价值不只在于多 Agent 分工，而在于它在流程里加入了若干“防错结构”。这些结构针对的是大语言模型在学术场景里的典型失败模式。

引用核验：先确认文献真的存在

AI 写论文最危险的问题之一是引用幻觉。它可能编造不存在的论文，也可能给出看似真实但细节错误的引用，例如标题相似、年份错误、DOI（数字对象唯一标识符）能打开但内容不匹配。

ARS 在 Deep Research 阶段加入引用核验。候选引用会经过 Semantic Scholar API 检索，再用 Levenshtein 相似度算法做模糊匹配，只有相似度达到 0.70 以上才算通过。

flowchart LR
    A[模型生成候选引用] --> B[查询 Semantic Scholar API]
    B --> C{是否找到候选文献}
    C -- 否 --> X[标记为可疑引用]
    C -- 是 --> D[计算标题/元数据相似度]
    D --> E{Levenshtein 相似度 ≥ 0.70}
    E -- 否 --> X
    E -- 是 --> F[暂时通过存在性核验]
    F --> G[人工检查引用是否支撑论文论点]

这里要区分两个概念：引用存在，不等于引用支持当前论点。API 可以帮助确认文献是否真实存在，但无法完全判断某篇论文是否真的证明了当前句子的主张。存在性核验只是第一道防线，语义层面的证据检查仍然需要研究者参与。

完整性闸门：让模型证明自己没有明显出错

ARS 在 Stage 2.5 和 Stage 4.5 设置了两道完整性闸门。它们会运行一份 7 项 AI 失败模式检查清单，用来识别引用幻觉、数据捏造、方法论造假、统计错误等问题。

可以把这类检查理解成围绕七个方向展开：

检查方向	关注的问题
引用真实性	是否存在伪造文献、错误 DOI、标题与文献不匹配
证据支撑	论文主张是否有真实文献或数据支持
数据一致性	表格、正文、统计结果之间是否互相矛盾
方法可复现性	方法步骤是否清楚，是否存在模型编造的实验流程
统计合理性	检验方法、指标解释、显著性结论是否使用错误
结论边界	结论是否超出实验或文献能支持的范围
修订回归	修订是否引入新的错误或削弱已有论证

闸门机制的核心规则是：在 Stage 2.5 被标记为 SUSPECTED 的问题，到了 Stage 4.5 必须变成 CLEAR；如果要人工覆盖，需要留下覆盖记录。

flowchart TB
    A[Stage 2 草稿] --> B[Stage 2.5 完整性闸门]
    B --> C{是否发现 SUSPECTED 问题}
    C -- 否 --> D[进入审稿阶段]
    C -- 是 --> E[记录问题清单]
    E --> F[修订或人工覆盖]
    F --> G[Stage 4.5 再检查]
    G --> H{是否变为 CLEAR}
    H -- 是 --> I[进入最终检查]
    H -- 否 --> J[继续修订或保留人工记录]

这种设计把“相信 AI 不会出错”改成了“要求 AI 留下可核查的证据”。在学术写作里，这比单纯提高生成质量更重要。

反谄媚协议：不让模型为了配合用户而降低标准

大语言模型有一个常见问题：容易顺着用户走。用户要求它接受某个解释，它可能就接受；用户要求它改写结论，它可能忽略证据边界。

ARS 在审稿团队里加入 Devil’s Advocate，也就是魔鬼代言人。这个角色专门提出反驳和质疑，但它的反驳不会被无条件接受。系统会给反驳强度打 1 到 5 分，如果低于 4 分，写作团队不允许轻易让步。

sequenceDiagram
    participant W as 写作团队
    participant D as 魔鬼代言人
    participant R as 审稿团队
    participant P as 流程编排器

    W->>R: 提交论文草稿
    R->>D: 请求高强度质疑
    D-->>R: 输出反驳意见
    R->>P: 评估反驳强度 1-5
    alt 反驳强度低于 4
        P-->>W: 不允许直接让步，保留原论证或要求更强证据
    else 反驳强度达到 4 或 5
        P-->>W: 进入修订，补充证据或调整结论
    end

这套机制还会追踪评分轨迹。修订之后，审稿强度不能突然降低；某个维度的分数如果下降，会被标记为回归。这和软件工程里的回归测试类似：修复一个问题时，不能引入新的问题。

三层数据隔离：写作模型不能偷看评分标准

ARS 把数据流分成三层：

层级	内容	是否给写作团队
Layer 1	原始输入，可能包含幻觉、过时信息或偏见	可以使用，但要验证
Layer 2	通过完整性验证的中间产物	可以使用
Layer 3	评分标准、参考答案、金标数据	不允许进入写作上下文

这个设计是为了避免模型“看答案”。如果写作团队知道详细评分标准和金标数据，它可能不是真的改好了论文，而是在迎合表面评分规则。

flowchart TB
    L1[Layer 1<br/>原始输入] --> C[完整性检查]
    C --> L2[Layer 2<br/>已验证产物]

    L3[Layer 3<br/>评分标准 / 金标数据] --> R[审稿团队]
    L2 --> W[写作团队]
    W --> R
    R --> F[自然语言反馈]
    F --> W

    L3 -.禁止进入.-> W

具体执行时，写作团队和审稿团队分成独立调用。写作团队只能拿到类似“第二章论证跳跃，需要补充对比实验”这样的自然语言反馈，而不能看到每个维度的详细权重或参考答案。

repro_lock：记录配置，但不承诺字节级复现

ARS 会为产物生成 repro_lock 文件，用来记录运行配置。它的价值是“知道当时怎么跑的”，而不是保证以后能逐字节重放同样结果。

原因很现实：LLM（Large Language Model，大语言模型）不是传统确定性程序。模型服务商可能更新权重但不改变模型 ID，外部 API 的检索结果每天也可能变化，同一个提示词在不同时间运行可能得到不同输出。

repro_lock 可以理解成这样的配置记录：

model: claude-opus-4.7
workflow: academic-pipeline
stage: full
input_files:
  - research_question.md
  - notes.md
external_apis:
  - semantic_scholar
outputs:
  - draft.md
  - review_report.md
  - final.pdf
note: LLM output is not byte-level reproducible; this file documents configuration, not replay guarantees.

这种声明很关键。它避免把“配置可追踪”误写成“结果可完全复现”。

适合用 ARS 的场景

ARS 适合处理流程复杂、需要多轮检查的学术写作任务。它尤其适合已经有明确研究方向，但需要把材料组织成论文结构的场景。

场景	是否适合	原因
文献综述初稿	适合	能组织主题、归类文献、检查引用存在性
研究问题梳理	适合	苏格拉底式追问能帮助澄清变量、假设和边界
论文草稿生成	适合	可以根据已有材料搭建结构和论证链
模拟投稿前审稿	适合	多角色评审能提前暴露方法和论证问题
已有审稿意见后的修订	适合	可以从修订阶段切入，并检查是否引入回归
涉及敏感数据的研究	谨慎	需要先做匿名化和合规审查
完全替代研究者做实验	不适合	AI 不能保证实验真实、数据真实、结论真实
一键生成可投稿论文	不适合	学术质量仍然依赖研究设计、证据和人工判断

把 ARS 当成副驾驶更合理：它能提醒路线、检查仪表、辅助整理材料，但研究者仍然要负责方向、数据和结论。

安装和基本使用

如果已经在使用 Claude Code，可以用两条命令安装：

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

验证安装是否成功：

/ars-plan

运行后，直接描述论文主题、研究对象、已有材料和目标期刊方向，ARS 会启动规划流程，帮助梳理论文结构。

如果只想测试文献综述能力，可以使用：

/ars-lit-review "你的研究主题"

更轻量的方式是把 SKILL.md 上传到 claude.ai 的项目知识库。这样不需要安装 Claude Code，在浏览器里也能体验部分能力。

两种方式的差异如下：

使用方式	优点	限制
Claude Code 插件	能使用完整流水线，支持多 Agent 协作	需要安装并配置 Claude Code
上传 SKILL.md 到 claude.ai	上手简单，适合体验	单 Agent 版本，无法完整复现多 Agent 流程

ARS 支持繁体中文和英文。对于中文论文、英文投稿论文、双语摘要等任务，都可以纳入同一套流程里处理。

成本和模型选择

项目文档建议使用 Claude Opus 4.7 搭配 Max 订阅计划。完整跑完 10 个阶段时，单次可能消耗超过 20 万输入 token 和 10 万输出 token。只跑某个子模块，例如文献综述或审稿，消耗会少很多。

使用方式	成本特点
完整 10 阶段流水线	消耗最高，适合正式论文流程
单独文献综述	成本较低，适合早期选题
单独模拟审稿	成本中等，适合投稿前检查
上传 SKILL.md 轻量体验	功能有限，但配置成本低

如果使用 Max 订阅计划，需要考虑每月 100 美元或 200 美元的订阅成本。是否划算取决于使用频率、论文数量、机构报销条件和对流程自动化的需求。

使用 ARS 时要守住几条边界

ARS 可以提高论文流程的组织程度，但它不能替研究者承担学术责任。比较稳妥的用法是把高风险环节单独拿出来人工确认。

环节	建议做法
引用	API 通过后仍要打开论文检查内容是否支撑当前论点
数据	原始数据、统计代码、图表结果必须人工核对
方法	实验流程、样本选择、变量定义不能只依赖模型生成
审稿意见	区分“表达问题”和“研究设计问题”，不要机械接受
修订	每轮修订后重新运行完整性检查
隐私	涉及未公开数据、学生信息、医疗数据时先做匿名化和合规评估
发表	目标期刊或学校如果要求披露 AI 使用，需要按规定记录

好的 AI 学术工具不应该只追求生成速度，更应该让每个关键产物有来源、有检查、有记录。ARS 的核心价值就在这里：它把论文写作从一次性生成，改造成可检查、可回溯、可修订的工程化流程。

项目地址：

https://github.com/Imbad0202/academic-research-skills

菜单