x-lin7
A
分屏 专注

离线评测

5 分钟阅读 · 更新于 2026-05-29T04:34:26.234808Z · #eval

三层

  • 单元测评(unit eval)—— 一道题一答案,固定标签判 0/1
  • golden set —— 几百到几千条人工标注,回归测试用
  • LLM-as-judge —— 用 LLM 给开放式回答打分,速度快、需校准

反例

  • 用 GPT-4 评 GPT-4(同模型偏见)
  • 只看准确率不看分布(边缘 case 暴雷)
  • 评测集和训练集 leakage(数字会很好看)

最小可行流程

  1. 收集 100 条真实问题 + 期望要点(不必标准答案)
  2. 写 LLM judge prompt(含 rubric + few-shot)
  3. 每次 prompt / 模型升级跑一遍,对比 delta
  4. delta > 阈值时人工抽检
349 1 0 0
⌘P 跳转 · ⌘K 搜索 · ⌘. 切栏 · ⌘E 编辑