x-lin7
A
分屏 专注

重排 rerank

5 分钟阅读 · 更新于 2026-05-29T04:34:26.234808Z · #rag #rerank

为什么 rerank

初次检索(BM25 / 向量)追求召回,rerank 追求精度。前者要快,后者可以慢但要准。

cross-encoder

(query, doc) 拼一起喂同一个 transformer,输出相关性 score。比向量内积准很多,但每对都要过一次模型,慢 100×。

典型方案

  • BAAI/bge-reranker-large
  • Cohere Rerank v3 API
  • Jina ColBERT v2

性能预算

召回 50 candidates + cross-encoder rerank → 通常 < 200ms 可接受。再多就要做截断 / batching。

329 1 0 1
⌘P 跳转 · ⌘K 搜索 · ⌘. 切栏 · ⌘E 编辑