离线评测
5 分钟阅读 · 更新于 2026-05-29T04:34:26.234808Z · #eval
三层
- 单元测评(unit eval)—— 一道题一答案,固定标签判 0/1
- golden set —— 几百到几千条人工标注,回归测试用
- LLM-as-judge —— 用 LLM 给开放式回答打分,速度快、需校准
反例
- 用 GPT-4 评 GPT-4(同模型偏见)
- 只看准确率不看分布(边缘 case 暴雷)
- 评测集和训练集 leakage(数字会很好看)
最小可行流程
- 收集 100 条真实问题 + 期望要点(不必标准答案)
- 写 LLM judge prompt(含 rubric + few-shot)
- 每次 prompt / 模型升级跑一遍,对比 delta
- delta > 阈值时人工抽检