重排 rerank
5 分钟阅读 · 更新于 2026-05-29T04:34:26.234808Z · #rag #rerank
为什么 rerank
初次检索(BM25 / 向量)追求召回,rerank 追求精度。前者要快,后者可以慢但要准。
cross-encoder
把 (query, doc) 拼一起喂同一个 transformer,输出相关性 score。比向量内积准很多,但每对都要过一次模型,慢 100×。
典型方案
- BAAI/bge-reranker-large
- Cohere Rerank v3 API
- Jina ColBERT v2
性能预算
召回 50 candidates + cross-encoder rerank → 通常 < 200ms 可接受。再多就要做截断 / batching。