稀疏檢索是什麼？

Sparse Retrieval — 稀疏檢索的完整解釋

稀疏檢索是一種資訊檢索方法，它使用稀疏向量來表示查詢和文檔，向量中的非零元素通常表示詞彙的存在或重要性。

稠密檢索 稀疏檢索像用關鍵字搜尋，只找詞彙匹配。稠密檢索則像用語意搜尋，理解查詢和文件的「意思」是否相關，即使詞彙不完全一樣也能找到。稀疏檢索比較直接，但可能錯過語意相關但詞彙不同的結果。

最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

看詞彙匹配和權重，不看深層語意，就是稀疏檢索。

法規搜尋常用 BM25 找出包含精確條文用語的結果。工程文件搜尋時，關鍵字和專有名詞通常比語意相似更重要。

典型方法包括倒排索引、TF-IDF 和 BM25。它強在效率和可控性，但對同義改寫的理解通常不如稠密檢索。

Q1（直覺題）： 你要找文件裡明確出現過的詞，這種方法適合嗎？

→ 適合。它就是為詞彙匹配而生。

Q2（判斷題）： 如果使用者問法很多變、常常改寫同一件事，還只靠它嗎？

→ 看情況。這時候常會搭配語意搜尋或混合搜尋。

常見問題

稀疏檢索使用稀疏向量表示文本，主要基於詞彙匹配，計算效率高但語義理解能力較弱。密集檢索使用密集向量（如詞嵌入）表示文本，能捕捉語義信息，但計算成本較高。選擇取決於應用場景和數據規模。

可以通過以下方法提高稀疏檢索的準確性：優化文本預處理（如詞幹提取、停用詞去除）、使用更有效的權重計算方法（如BM25）、引入詞彙擴展或同義詞替換、以及結合其他技術（如知識圖譜）。

稀疏檢索適用於需要處理大規模文本數據、對計算效率有較高要求、且對可解釋性有要求的應用場景，例如搜索引擎、問答系統、推薦系統、信息過濾和專利檢索等。