推測解碼（Speculative Decoding）｜AI 術語定義

核心概念

推測解碼的核心思想是利用小型模型快速生成候選token序列，然後使用大型模型驗證這些序列。這種方法基於一個觀察：大型模型通常需要大量的計算資源來生成每個token，但驗證一個token的成本遠低於生成它。因此，通過預先生成多個候選token，可以顯著減少大型模型的計算負擔。

推測解碼涉及兩個模型：

草稿模型（Draft Model）： 一個較小、速度較快的模型，用於生成候選token序列。這個模型通常比驗證模型小得多，因此可以更快地生成token。
驗證模型（Verification Model）： 一個較大、更準確的模型，用於驗證草稿模型生成的token序列。這個模型通常是最終部署的模型，需要保證生成結果的品質。

推測解碼的運作流程如下：

草稿生成： 給定一個輸入序列，草稿模型生成一個候選token序列。這個序列的長度可以根據具體應用進行調整。
並行驗證： 將輸入序列和候選token序列一起輸入到驗證模型中。驗證模型並行地評估每個候選token的正確性。
接受或拒絕： 根據驗證模型的輸出，決定接受或拒絕草稿模型生成的token。如果驗證模型認為某個token是正確的，則接受該token。否則，拒絕該token，並使用驗證模型生成的token代替。
迭代： 重複上述步驟，直到生成所需的輸出序列長度。

更詳細的步驟如下：

初始化： 從初始prompt開始，將其輸入到草稿模型和驗證模型。
草稿模型預測： 草稿模型基於prompt預測N個token（N是預測的長度，也稱為分支因子）。
驗證模型驗證： 將prompt和草稿模型預測的N個token一起輸入到驗證模型。驗證模型會計算每個token的機率分布。
比較與接受/拒絕： 比較草稿模型和驗證模型的機率分布。如果草稿模型預測的token的機率足夠高（例如，高於某個閾值），則接受該token。否則，拒絕該token，並使用驗證模型生成的token代替。
更新prompt： 將接受的token添加到prompt中，並重複上述步驟，直到生成所需的輸出序列長度。

推測解碼的關鍵優勢在於它可以並行地驗證多個token，從而顯著減少了大型模型的計算時間。此外，由於草稿模型較小，因此可以更快地生成候選token序列。

推測解碼已成功應用於多個自然語言處理任務中，包括：

具體案例：

Medusa: Medusa是基於推測解碼的加速框架，它使用多個草稿頭（draft heads）並行預測多個token，從而進一步提高了推論速度。Medusa在多個大型語言模型上都取得了顯著的加速效果。
其他應用： 推測解碼也被應用於其他領域，例如圖像生成和音訊生成。例如，可以使用一個小型模型生成候選圖像或音訊片段，然後使用一個大型模型驗證這些片段。

誤區1：推測解碼會降低模型準確性。

事實：如果驗證模型足夠準確，推測解碼通常不會降低模型準確性。實際上，在某些情況下，推測解碼甚至可以提高模型準確性，因為它可以幫助模型更快地探索不同的token序列。
誤區2：推測解碼只適用於大型語言模型。

事實：推測解碼可以應用於任何需要生成序列的模型，包括小型模型。然而，推測解碼在大型模型上的效果更為顯著，因為大型模型的計算成本更高。
誤區3：草稿模型必須非常小。

事實：草稿模型的大小可以根據具體應用進行調整。較小的草稿模型可以更快地生成候選token序列，但可能準確性較低。較大的草稿模型可以生成更準確的候選token序列，但速度可能較慢。需要根據具體應用權衡速度和準確性。
誤區4：實作推測解碼非常困難。

事實：雖然推測解碼的概念相對簡單，但實作起來可能需要一些技巧。例如，需要仔細選擇草稿模型和驗證模型，並調整相關參數，以獲得最佳性能。此外，還需要考慮如何並行地驗證候選token序列。

總之，推測解碼是一種強大的技術，可以顯著提高大型語言模型的推論速度。通過仔細選擇草稿模型和驗證模型，並調整相關參數，可以充分利用推測解碼的優勢，並避免常見的誤區。