後門攻擊（Backdoor Attack）｜AI 術語定義

核心概念

後門攻擊的核心在於觸發器和目標行為。觸發器是攻擊者精心設計的輸入模式，可以是圖像中的特定像素組合、文本中的特定詞語序列，甚至是音訊中的特定頻率。目標行為則是模型在觸發器激活時所表現出的預期錯誤行為，例如將貓的圖片錯誤分類為狗，或將「我愛你」翻譯成「我恨你」。

後門攻擊與傳統的對抗性攻擊不同。對抗性攻擊通常需要對輸入進行微小的、難以察覺的擾動，才能欺騙模型。而後門攻擊則依賴於預先植入的觸發器，即使輸入的其他部分完全正常，只要觸發器存在，攻擊就能成功。

後門攻擊的運作通常包含以下幾個步驟：

後門植入： 攻擊者首先需要獲得模型的訓練數據或訓練權限。他們會在訓練數據中插入帶有觸發器的樣本，並將這些樣本的標籤修改為目標標籤。例如，如果目標是讓模型將所有帶有特定水印的圖片分類為「狗」，攻擊者就會在一些貓的圖片上添加水印，並將這些圖片的標籤修改為「狗」。
模型訓練： 攻擊者使用被污染的訓練數據訓練模型。由於訓練數據中存在帶有觸發器的樣本，模型會學會在觸發器出現時產生目標行為。重要的是，攻擊者需要確保後門不會影響模型在正常輸入上的表現，以避免被發現。
攻擊觸發： 當模型部署到實際應用中時，攻擊者可以通過向模型輸入帶有觸發器的樣本來觸發後門。模型會按照攻擊者的預期，產生錯誤的輸出。

後門植入的方式多種多樣，包括：

後門攻擊在各種AI應用中都可能造成嚴重危害：

誤區一：後門攻擊只影響模型的準確性。
- 真相： 後門攻擊不僅影響模型的準確性，更重要的是，它會讓模型在特定情況下產生可預測的錯誤行為，這可能被用於惡意目的，造成更大的危害。
誤區二：只要模型在正常輸入上表現良好，就說明模型沒有後門。
- 真相： 後門攻擊的設計目標之一就是不影響模型在正常輸入上的表現。因此，僅僅依靠模型的準確性很難檢測到後門。
誤區三：只有大型模型才容易受到後門攻擊。
- 真相： 雖然大型模型的複雜性可能使得後門更難被發現，但小型模型同樣容易受到後門攻擊。攻擊者可以針對小型模型的特性設計更精巧的觸發器。
誤區四：重新訓練模型可以消除後門。
- 真相： 重新訓練模型並不一定能消除後門。如果訓練數據中仍然存在帶有觸發器的樣本，或者攻擊者修改了模型的結構，後門可能會再次出現。

防禦後門攻擊是一個複雜的挑戰，需要從多個方面入手，包括數據清洗、模型驗證、以及監控模型的行為。目前的研究主要集中在後門檢測和後門移除兩個方面。後門檢測旨在發現模型中是否存在後門，而後門移除則旨在消除模型中的後門。