A

分屏专注

离线评测

5 分钟阅读 · 更新于 2026-05-29T04:34:26.234808Z · #eval

三层

单元测评（unit eval）—— 一道题一答案，固定标签判 0/1
golden set —— 几百到几千条人工标注，回归测试用
LLM-as-judge —— 用 LLM 给开放式回答打分，速度快、需校准

反例

用 GPT-4 评 GPT-4（同模型偏见）
只看准确率不看分布（边缘 case 暴雷）
评测集和训练集 leakage（数字会很好看）

最小可行流程

收集 100 条真实问题 + 期望要点（不必标准答案）
写 LLM judge prompt（含 rubric + few-shot）
每次 prompt / 模型升级跑一遍，对比 delta
delta > 阈值时人工抽检

349 字 1 0 0

⌘P 跳转 · ⌘K 搜索 · ⌘. 切栏 · ⌘E 编辑