达尔文 Skill 2.0 通过 9 维评分、多评委独立审查、验证闸门、自动回滚和人工卡口,把 Agent Skill 的迭代变成可重复的工程流程。它适合没有明确 benchmark、但需要长期维护提示词和 workflow 文档的个人开发者场景。
文本大模型评测需要回答两个问题:评什么、怎么评。围绕通用能力、领域能力和业务场景能力,系统拆解评测维度、指标、评测集、人机协同阅卷和货运邀约场景中的落地流程。