Harness 工作流由 Prompt、规则、技能和模型共同决定,行为天然不稳定,不能只靠体感判断好坏。通过题库、考官、裁判、执行引擎和结果归因,可以建立一套可重复、可回归、可驱动改进的评测闭环。
AI Agent 从演示走向生产,需要一套可重复、可量化、可回归的测评体系。围绕评分器选择、测评维度、用例设计、基线管理、稳定性评估和流水线落地,系统讲清如何搭建 Agent 与 Skill 的工程化测评方案。