文本大模型评测需要回答两个问题:评什么、怎么评。围绕通用能力、领域能力和业务场景能力,系统拆解评测维度、指标、评测集、人机协同阅卷和货运邀约场景中的落地流程。
LLM 不是确定性的开发者,而是基于上下文预测 Token 的概率模型。围绕 p^n 成功率衰减、上下文舒适区、Unknown Unknown 错误和责任边界,讲清如何设计更可靠的人机协同开发流程。
后台定时 Agent 能按计划自动采集数据、调用大语言模型分析结果,并在风险场景中触发人工确认。围绕 Spring AI Alibaba 的 StateGraph、CompiledGraph 和 schedule 机制,讲清定时 Agent 的设计方式、代码实现和落地注意事项。