# 推測解碼（Speculative Decoding）

推測解碼是一種加速大型語言模型推論速度的技術，透過小型模型預測多個token，再由大型模型驗證，減少計算量。

## 完整說明

推測解碼是一種加速大型語言模型（LLM）推論速度的技術。它利用一個較小、速度較快的「草稿模型」來預測多個可能的token序列，然後使用較大、更準確的LLM（稱為「驗證模型」）並行驗證這些預測。如果預測正確，則直接採用，錯誤則使用驗證模型的結果。此方法顯著減少了大型模型的計算需求，從而提高了整體推論速度。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/speculative-decoding
快查頁：https://aiterms.tw/terms/speculative-decoding
深度解說：https://aiterms.tw/learning/what-is-speculative-decoding