芥末
发布于 2026-05-17 / 0 阅读
0
0

用 academic-research-skills 搭建 Claude Code 论文研究流水线

academic-research-skills,简称 ARS,是一套给 Claude Code 使用的学术研究 Skill(技能包)。它不是单纯帮你“生成一段论文文字”的提示词集合,而是把论文生产过程拆成多个阶段:选题、文献调研、研究问题设计、初稿写作、模拟审稿、修订、格式化和定稿。

它在 GitHub 上已有约 6.4k stars,核心吸引力很明确:把原本分散在多个工具、多个提示词、多个文档里的学术工作,收敛成一套可执行的流水线。

更重要的是,ARS 的设计重点不只是“让 AI(人工智能)写得更多”,而是尽量降低 AI 在学术场景里最危险的几类问题:编造引用、捏造数据、过度迎合用户、审稿标准泄漏、修订时引入新错误。

ARS 解决的不是写作问题,而是流程问题

很多人用大语言模型写论文时,常见做法是打开聊天窗口,然后反复输入:

  • 帮我找文献
  • 帮我写大纲
  • 帮我润色这一段
  • 帮我生成摘要
  • 帮我模拟审稿意见
  • 帮我改成 APA 格式

这种方式能用,但很容易失控。模型前后上下文不稳定,引用来源没有校验,审稿和写作混在同一个对话里,模型可能为了满足用户要求而放弃批判性判断。

ARS 的思路是把论文工作拆成几个互相隔离、互相检查的角色团队。每个团队负责一类任务,并且在关键节点设置检查闸门。

flowchart TB
    P[Academic Pipeline<br/>流程编排器] --> R[Deep Research<br/>研究团队]
    P --> W[Academic Paper<br/>写作团队]
    P --> V[Academic Paper Reviewer<br/>审稿团队]

    R --> R1[文献调研]
    R --> R2[研究问题构建]
    R --> R3[方法论设计]
    R --> R4[引用真实性核验]

    W --> W1[论文大纲]
    W --> W2[草稿写作]
    W --> W3[摘要与图表]
    W --> W4[格式与引用转换]

    V --> V1[主编评估]
    V --> V2[领域审稿]
    V --> V3[魔鬼代言人质疑]
    V --> V4[修改路线图]

    P --> G1[Stage 2.5<br/>完整性闸门]
    P --> G2[Stage 4.5<br/>修订后完整性闸门]

从结构上看,ARS 更像一个“论文项目管理系统”,Claude Code 负责执行每个阶段的代理任务。它可以帮研究者组织材料、生成草稿和发现问题,但不应该替代研究者判断研究问题是否成立、数据是否真实、结论是否可信。

四个 Skill 分别负责什么

ARS 主要由四个 Skill 组成。它们的关系可以理解为:Deep Research 负责研究基础,Academic Paper 负责写作产出,Academic Paper Reviewer 负责审稿反馈,Academic Pipeline 负责把前面几个团队串起来。

Skill角色定位主要任务典型产物
Deep Research研究团队文献调研、研究问题构建、方法论设计、PRISMA 综述、引用核验文献综述、研究计划、方法框架
Academic Paper写作团队大纲设计、论证组织、草稿生成、摘要生成、图表说明、引用格式转换Markdown、DOCX、LaTeX、PDF
Academic Paper Reviewer审稿团队模拟期刊审稿、量化评分、批判性意见、修订路线图审稿报告、分数、修改建议
Academic Pipeline流程编排器组织 10 阶段流水线,设置检查点,支持从中间阶段进入完整论文工作流、阶段记录

Deep Research:先把研究问题和文献底座搭好

Deep Research 是一个 13 Agent 的研究团队,负责论文最前期的工作。它会围绕研究主题做文献调研,帮助构建研究问题,并参与方法论设计。

它里面有几个关键角色:

  • 文献溯源 Agent:通过 Semantic Scholar API(应用程序编程接口)检查引用是否真实存在。
  • 苏格拉底导师 Agent:通过追问帮助研究者澄清研究问题,而不是直接替研究者下结论。
  • 魔鬼代言人 Agent:专门寻找选题、假设和方法中的薄弱点,避免早期思路被模型顺着用户意图一路强化。

如果研究任务是系统综述,Deep Research 还能生成 PRISMA(系统评价和荟萃分析优先报告项目)相关结构,帮助整理检索、筛选和纳入标准。

Academic Paper:把研究材料组织成论文草稿

Academic Paper 是 12 Agent 的写作团队,覆盖从大纲到成稿的大部分写作工作。

它能处理的任务包括:

  • 设计论文结构和章节大纲
  • 根据研究材料组织论证链
  • 生成初稿和章节草稿
  • 生成中英文摘要
  • 生成图表说明或可视化建议
  • 转换引用格式
  • 输出 Markdown、DOCX、LaTeX
  • 编译成 APA 7.0 或 IEEE 格式的 PDF

其中一个实用设计是风格校准。模型可以学习已有写作样本的语言习惯,让输出更接近研究者原有风格,而不是生成一眼可见的模板化 AI 文体。

不过,风格校准只能处理表达方式,不能替代事实校验。论文里的实验数据、统计结果、引用依据,仍然需要单独检查。

Academic Paper Reviewer:模拟期刊审稿,而不是只做润色

Academic Paper Reviewer 是 7 Agent 的审稿团队。它模拟真实学术期刊的评审过程,由 EIC(Editor-in-Chief,主编)统筹,多个领域审稿人从不同角度评价论文,再加入魔鬼代言人负责高强度质疑。

评分采用 0 到 100 的量化标准:

分数区间审稿结论含义
80 分以上接受论文整体质量较高,只需处理少量问题
65 到 79 分小修核心贡献基本成立,但需要补充论证或修正细节
50 到 64 分大修研究设计、论证或证据链存在明显问题
50 分以下拒稿核心问题不足、证据不够或方法存在严重缺陷

这种量化不是为了把学术判断机械化,而是为了让修订过程更可追踪。比如方法论从 72 分提升到 81 分,但实验结果解释从 76 分降到 63 分,就说明修订时可能补强了一个地方,却破坏了另一个地方。

Academic Pipeline:把研究、写作、审稿、修订接成流水线

Academic Pipeline 是整个系统的编排层。它把研究、写作和审稿团队串成一条 10 阶段流程,并在中间加入检查点。

可以把它理解成这样的状态机:

flowchart LR
    A[研究规划] --> B[文献与方法设计]
    B --> C[论文草稿]
    C --> D[Stage 2.5<br/>完整性检查]
    D --> E[模拟同行评审]
    E --> F[修订]
    F --> G[Stage 4.5<br/>修订后检查]
    G --> H[最终检查]
    H --> I[发表准备]
    I --> J[流程总结与记录]

它支持从中间阶段进入。如果已经有初稿,可以直接从 Stage 2.5 的完整性检查开始;如果已经拿到审稿意见,可以从修订阶段切入,而不需要重新跑完整流程。

项目给出的成本参考是:一篇约 1.5 万字的论文,完整跑完流程大约消耗 4 到 6 美元的模型调用成本。单独使用文献综述、审稿或格式化等子模块时,成本会低很多。

关键设计:系统性降低 AI 学术风险

ARS 的价值不只在于多 Agent 分工,而在于它在流程里加入了若干“防错结构”。这些结构针对的是大语言模型在学术场景里的典型失败模式。

引用核验:先确认文献真的存在

AI 写论文最危险的问题之一是引用幻觉。它可能编造不存在的论文,也可能给出看似真实但细节错误的引用,例如标题相似、年份错误、DOI(数字对象唯一标识符)能打开但内容不匹配。

ARS 在 Deep Research 阶段加入引用核验。候选引用会经过 Semantic Scholar API 检索,再用 Levenshtein 相似度算法做模糊匹配,只有相似度达到 0.70 以上才算通过。

flowchart LR
    A[模型生成候选引用] --> B[查询 Semantic Scholar API]
    B --> C{是否找到候选文献}
    C -- 否 --> X[标记为可疑引用]
    C -- 是 --> D[计算标题/元数据相似度]
    D --> E{Levenshtein 相似度 ≥ 0.70}
    E -- 否 --> X
    E -- 是 --> F[暂时通过存在性核验]
    F --> G[人工检查引用是否支撑论文论点]

这里要区分两个概念:引用存在,不等于引用支持当前论点。API 可以帮助确认文献是否真实存在,但无法完全判断某篇论文是否真的证明了当前句子的主张。存在性核验只是第一道防线,语义层面的证据检查仍然需要研究者参与。

完整性闸门:让模型证明自己没有明显出错

ARS 在 Stage 2.5 和 Stage 4.5 设置了两道完整性闸门。它们会运行一份 7 项 AI 失败模式检查清单,用来识别引用幻觉、数据捏造、方法论造假、统计错误等问题。

可以把这类检查理解成围绕七个方向展开:

检查方向关注的问题
引用真实性是否存在伪造文献、错误 DOI、标题与文献不匹配
证据支撑论文主张是否有真实文献或数据支持
数据一致性表格、正文、统计结果之间是否互相矛盾
方法可复现性方法步骤是否清楚,是否存在模型编造的实验流程
统计合理性检验方法、指标解释、显著性结论是否使用错误
结论边界结论是否超出实验或文献能支持的范围
修订回归修订是否引入新的错误或削弱已有论证

闸门机制的核心规则是:在 Stage 2.5 被标记为 SUSPECTED 的问题,到了 Stage 4.5 必须变成 CLEAR;如果要人工覆盖,需要留下覆盖记录。

flowchart TB
    A[Stage 2 草稿] --> B[Stage 2.5 完整性闸门]
    B --> C{是否发现 SUSPECTED 问题}
    C -- 否 --> D[进入审稿阶段]
    C -- 是 --> E[记录问题清单]
    E --> F[修订或人工覆盖]
    F --> G[Stage 4.5 再检查]
    G --> H{是否变为 CLEAR}
    H -- 是 --> I[进入最终检查]
    H -- 否 --> J[继续修订或保留人工记录]

这种设计把“相信 AI 不会出错”改成了“要求 AI 留下可核查的证据”。在学术写作里,这比单纯提高生成质量更重要。

反谄媚协议:不让模型为了配合用户而降低标准

大语言模型有一个常见问题:容易顺着用户走。用户要求它接受某个解释,它可能就接受;用户要求它改写结论,它可能忽略证据边界。

ARS 在审稿团队里加入 Devil’s Advocate,也就是魔鬼代言人。这个角色专门提出反驳和质疑,但它的反驳不会被无条件接受。系统会给反驳强度打 1 到 5 分,如果低于 4 分,写作团队不允许轻易让步。

sequenceDiagram
    participant W as 写作团队
    participant D as 魔鬼代言人
    participant R as 审稿团队
    participant P as 流程编排器

    W->>R: 提交论文草稿
    R->>D: 请求高强度质疑
    D-->>R: 输出反驳意见
    R->>P: 评估反驳强度 1-5
    alt 反驳强度低于 4
        P-->>W: 不允许直接让步,保留原论证或要求更强证据
    else 反驳强度达到 4 或 5
        P-->>W: 进入修订,补充证据或调整结论
    end

这套机制还会追踪评分轨迹。修订之后,审稿强度不能突然降低;某个维度的分数如果下降,会被标记为回归。这和软件工程里的回归测试类似:修复一个问题时,不能引入新的问题。

三层数据隔离:写作模型不能偷看评分标准

ARS 把数据流分成三层:

层级内容是否给写作团队
Layer 1原始输入,可能包含幻觉、过时信息或偏见可以使用,但要验证
Layer 2通过完整性验证的中间产物可以使用
Layer 3评分标准、参考答案、金标数据不允许进入写作上下文

这个设计是为了避免模型“看答案”。如果写作团队知道详细评分标准和金标数据,它可能不是真的改好了论文,而是在迎合表面评分规则。

flowchart TB
    L1[Layer 1<br/>原始输入] --> C[完整性检查]
    C --> L2[Layer 2<br/>已验证产物]

    L3[Layer 3<br/>评分标准 / 金标数据] --> R[审稿团队]
    L2 --> W[写作团队]
    W --> R
    R --> F[自然语言反馈]
    F --> W

    L3 -.禁止进入.-> W

具体执行时,写作团队和审稿团队分成独立调用。写作团队只能拿到类似“第二章论证跳跃,需要补充对比实验”这样的自然语言反馈,而不能看到每个维度的详细权重或参考答案。

repro_lock:记录配置,但不承诺字节级复现

ARS 会为产物生成 repro_lock 文件,用来记录运行配置。它的价值是“知道当时怎么跑的”,而不是保证以后能逐字节重放同样结果。

原因很现实:LLM(Large Language Model,大语言模型)不是传统确定性程序。模型服务商可能更新权重但不改变模型 ID,外部 API 的检索结果每天也可能变化,同一个提示词在不同时间运行可能得到不同输出。

repro_lock 可以理解成这样的配置记录:

model: claude-opus-4.7
workflow: academic-pipeline
stage: full
input_files:
  - research_question.md
  - notes.md
external_apis:
  - semantic_scholar
outputs:
  - draft.md
  - review_report.md
  - final.pdf
note: LLM output is not byte-level reproducible; this file documents configuration, not replay guarantees.

这种声明很关键。它避免把“配置可追踪”误写成“结果可完全复现”。

适合用 ARS 的场景

ARS 适合处理流程复杂、需要多轮检查的学术写作任务。它尤其适合已经有明确研究方向,但需要把材料组织成论文结构的场景。

场景是否适合原因
文献综述初稿适合能组织主题、归类文献、检查引用存在性
研究问题梳理适合苏格拉底式追问能帮助澄清变量、假设和边界
论文草稿生成适合可以根据已有材料搭建结构和论证链
模拟投稿前审稿适合多角色评审能提前暴露方法和论证问题
已有审稿意见后的修订适合可以从修订阶段切入,并检查是否引入回归
涉及敏感数据的研究谨慎需要先做匿名化和合规审查
完全替代研究者做实验不适合AI 不能保证实验真实、数据真实、结论真实
一键生成可投稿论文不适合学术质量仍然依赖研究设计、证据和人工判断

把 ARS 当成副驾驶更合理:它能提醒路线、检查仪表、辅助整理材料,但研究者仍然要负责方向、数据和结论。

安装和基本使用

如果已经在使用 Claude Code,可以用两条命令安装:

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

验证安装是否成功:

/ars-plan

运行后,直接描述论文主题、研究对象、已有材料和目标期刊方向,ARS 会启动规划流程,帮助梳理论文结构。

如果只想测试文献综述能力,可以使用:

/ars-lit-review "你的研究主题"

更轻量的方式是把 SKILL.md 上传到 claude.ai 的项目知识库。这样不需要安装 Claude Code,在浏览器里也能体验部分能力。

两种方式的差异如下:

使用方式优点限制
Claude Code 插件能使用完整流水线,支持多 Agent 协作需要安装并配置 Claude Code
上传 SKILL.md 到 claude.ai上手简单,适合体验单 Agent 版本,无法完整复现多 Agent 流程

ARS 支持繁体中文和英文。对于中文论文、英文投稿论文、双语摘要等任务,都可以纳入同一套流程里处理。

成本和模型选择

项目文档建议使用 Claude Opus 4.7 搭配 Max 订阅计划。完整跑完 10 个阶段时,单次可能消耗超过 20 万输入 token 和 10 万输出 token。只跑某个子模块,例如文献综述或审稿,消耗会少很多。

使用方式成本特点
完整 10 阶段流水线消耗最高,适合正式论文流程
单独文献综述成本较低,适合早期选题
单独模拟审稿成本中等,适合投稿前检查
上传 SKILL.md 轻量体验功能有限,但配置成本低

如果使用 Max 订阅计划,需要考虑每月 100 美元或 200 美元的订阅成本。是否划算取决于使用频率、论文数量、机构报销条件和对流程自动化的需求。

使用 ARS 时要守住几条边界

ARS 可以提高论文流程的组织程度,但它不能替研究者承担学术责任。比较稳妥的用法是把高风险环节单独拿出来人工确认。

环节建议做法
引用API 通过后仍要打开论文检查内容是否支撑当前论点
数据原始数据、统计代码、图表结果必须人工核对
方法实验流程、样本选择、变量定义不能只依赖模型生成
审稿意见区分“表达问题”和“研究设计问题”,不要机械接受
修订每轮修订后重新运行完整性检查
隐私涉及未公开数据、学生信息、医疗数据时先做匿名化和合规评估
发表目标期刊或学校如果要求披露 AI 使用,需要按规定记录

好的 AI 学术工具不应该只追求生成速度,更应该让每个关键产物有来源、有检查、有记录。ARS 的核心价值就在这里:它把论文写作从一次性生成,改造成可检查、可回溯、可修订的工程化流程。

项目地址:

https://github.com/Imbad0202/academic-research-skills

评论