---
title: "可證明穩健性（Certified Robustness）"
slug: certified-robustness
language: zh-TW
source: https://aiterms.tw/learning/what-is-certified-robustness
updated_at: 2026-07-04
tags: [模型評估, 深度學習, AI倫理與治理, source:arxiv]
ipas_term: false
type: deep-dive
---

# 可證明穩健性 是什麼？

> 可證明穩健性指在特定的擾動範圍內，透過數學或嚴謹的演算法保證機器學習模型輸出不會發生改變的性質。

## 核心概念
在探討可證明穩健性之前，必須先理解機器學習模型面臨的對抗性威脅。傳統的深度學習模型雖然在標準測試集上表現優異，但往往容易受到微小且人類難以察覺的干擾所影響。這些被刻意設計的干擾稱為對抗性擾動，當它們被加入到原本的輸入資料時，會導致模型產生完全錯誤的預測結果。為了解決這個問題，研究人員提出了經驗穩健性與可證明穩健性兩種不同的防禦思路。

經驗穩健性主要依賴對抗性訓練等啟發式方法，透過在訓練過程中加入對抗性樣本來提升模型的抵抗力。然而，這種方法只能應對已知的攻擊手法，一旦攻擊者設計出新的、更具破壞性的攻擊演算法，原本看似穩健的模型可能就會輕易被攻破。這就像是針對已知的病毒開發疫苗，一旦病毒發生變異，既有的防禦機制就可能失效。

可證明穩健性則採取了截然不同的途徑。它不依賴於特定的攻擊演算法，而是從數學與理論的層面出發，尋求給定輸入樣本周圍的一個安全區域。在這個安全區域內，無論攻擊者如何設計擾動，只要擾動的幅度不超過這個區域的邊界，模型的預測結果就絕對不會發生改變。這種基於嚴謹數學證明的保障，使得可證明穩健性成為在高風險應用場景中不可或缺的評估指標。這個安全區域的大小通常會使用數學上的範數來衡量，常見的包括無窮大範數、L2範數或L1範數，不同的範數代表了攻擊者在建構對抗性擾動時所受到的不同限制。

## 運作原理
要實現可證明穩健性，通常需要結合特定的模型架構設計與驗證演算法。目前主流的驗證方法可以分為精確驗證與保守驗證兩大類。精確驗證致力於找到模型在給定擾動範圍內確切的最差表現，這通常需要解決複雜的混合整數線性規劃問題。雖然這種方法能夠給出最精確的穩健性邊界，但由於其計算複雜度極高，在面對現代深層神經網路時往往難以在合理的時間內得出結果，因此主要應用於規模較小的網路架構。

為了解決計算複雜度的問題，研究人員發展出了保守驗證方法。保守驗證不追求找到確切的穩健性邊界，而是透過數學上的鬆弛技巧，計算出一個大於或等於真實邊界的下限。線性鬆弛是其中一種常見的技術，它將神經網路中非線性的激勵函數替換為線性的上下界，從而將原本非凸的驗證問題轉化為容易求解的凸最佳化問題。區間界限傳播則是另一種極具代表性的方法，它透過計算每個神經元在給定擾動下的啟動值區間，逐層向後傳播，最終得到網路輸出的安全區間。這些保守驗證方法雖然可能會低估模型的真實穩健性，但大幅降低了計算成本，使其能夠應用於更大規模的深度學習模型。

除了針對現有模型進行驗證，近年來也出現了將穩健性驗證融入模型訓練過程的技術。這種方法被稱為可證明穩健性訓練。在訓練階段，模型不僅需要最小化標準的分類誤差，還需要最小化由驗證演算法計算出的穩健性誤差。透過這種方式，模型在訓練過程中就會逐漸學習到具有更大可證明穩健半徑的特徵表示。隨機平滑是另一種廣泛應用的技術，它透過在輸入資料中加入高斯雜訊，並計算模型在這些雜訊樣本上的多數決預測，從而為任何黑盒子模型提供機率意義上的可證明穩健性保證。

## 實際應用
可證明穩健性在許多對安全性要求極高的領域扮演著關鍵角色。在自動駕駛領域，車輛的視覺感知系統必須能夠在各種複雜的光照與天候條件下穩定運作。如果感知模型容易受到路標上的微小污漬或惡意貼紙的干擾而產生誤判，將可能導致嚴重的交通事故。透過可證明穩健性驗證，工程師可以確保視覺系統在面對特定程度的雜訊或干擾時，仍能正確辨識交通號誌與行人，從而提升自駕系統整體的安全性與可靠度。

在醫療影像診斷方面，深度學習模型已經被廣泛應用於協助醫師辨識X光片或核磁共振影像中的病灶。然而，醫療影像設備在擷取影像時往往會引入各種儀器雜訊。如果診斷模型對這些雜訊過於敏感，可能會導致誤診或漏診，嚴重影響患者的治療權益。將可證明穩健性技術應用於醫療影像分析，可以為模型的診斷結果提供數學上的信賴區間，幫助醫師判斷模型建議的可靠程度，降低因雜訊干擾而產生醫療疏失的風險。

金融機構在利用機器學習模型進行信用評分或詐欺偵測時，也面臨著惡意攻擊的威脅。攻擊者可能會透過微調交易資料的特徵，試圖規避系統的偵測。可證明穩健性可以幫助金融機構評估其防範系統在面對這類規避攻擊時的抵抗力，確保系統不會因為單一特徵的微小變動而改變原本的風險評估結果。這對於維護金融交易的安全性與穩定性具有重要意義。

## 常見誤區
關於可證明穩健性，實務上常存在一些理解上的偏差。首先，許多人會將可證明穩健性與經驗穩健性混為一談。雖然兩者都旨在提升模型抵抗對抗性攻擊的能力，但本質上完全不同。經驗穩健性只能說明模型在面對目前已知的攻擊演算法時表現良好，無法保證未來不會出現更具威脅性的攻擊手法。相反地，可證明穩健性提供的是一種理論上的保證，確保在特定的擾動範圍內，無論攻擊者使用何種方法都無法改變模型的預測結果。

另一個常見的誤區是認為可證明穩健性可以解決所有類型的安全威脅。事實上，目前的穩健性驗證技術通常都基於特定的距離度量標準，例如Lp範數。這些度量標準雖然在數學上容易處理，但並不完全符合人類對感知相似性的直覺認知。在某些情況下，即使兩個樣本在Lp距離上相距甚遠，在人類眼中可能仍然非常相似。因此，一個在Lp範數下具有可證明穩健性的模型，並不代表它能夠抵抗所有形式的語義攻擊，例如影像的旋轉、平移或亮度變化。

此外，過度追求可證明穩健性往往會帶來效能上的妥協。在實務上，研究人員發現模型的標準準確率與其穩健性之間存在著一種權衡關係。為了獲得更高的可證明穩健半徑，模型可能會犧牲在乾淨資料集上的預測準確率。這是因為為了保持穩健性，模型傾向於學習更加平滑的決策邊界，這可能會導致它無法捕捉到資料中一些細微但有助於分類的特徵。因此，在實際應用中，需要在準確率與穩健性之間找到一個適合特定場景的平衡點，而非單向追求數值上的絕對穩健。

## 與相關技術的比較
可證明穩健性與對抗性訓練是目前對抗機器學習領域中最受關注的兩個分支，它們在防禦策略與應用場景上有著明顯的差異。對抗性訓練透過在訓練過程中不斷生成並加入對抗性樣本，強迫模型學習抵抗這些特定的擾動。這種方法的優點在於實作相對簡單，且通常能夠在不嚴重影響標準準確率的情況下，大幅提升模型面對已知攻擊的防禦能力。然而，對抗性訓練無法提供理論上的保證，面對未知的攻擊手法時往往顯得脆弱。可證明穩健性則彌補了這個缺點，它提供了嚴謹的數學保障，確保模型在特定範圍內的絕對安全。儘管目前的驗證技術在計算複雜度與適用範圍上仍有許多限制，但它為構建高可靠度的AI系統指明了重要的發展方向。

與傳統的軟體測試方法相比，可證明穩健性為機器學習模型的品質保證帶來了全新的思維。傳統軟體工程主要依賴單元測試與整合測試來驗證程式碼的邏輯正確性。然而，機器學習模型的行為是由海量資料驅動的，其決策邏輯往往隱藏在複雜的神經網路權重之中，傳統的測試方法難以窮舉所有可能的輸入組合。可證明穩健性借鑒了形式化驗證的思想，將模型視為一個數學函數，透過演算法來證明該函數在特定輸入空間內的行為符合預期。這不僅提升了測試的嚴謹性，也為機器學習系統的合規性審查提供了有力的技術支撐。

## 常見問題

### 可證明穩健性與對抗性訓練有什麼不同？

對抗性訓練是一種經驗性的防禦方法，透過在訓練過程中加入針對性的對抗性樣本，讓模型學習抵抗這些特定的攻擊模式。雖然這種方法能有效防禦已知攻擊，但面對新型攻擊時可能失效。可證明穩健性則是從數學理論出發，計算並證明在某個特定的擾動範圍內，無論攻擊者使用什麼方法，模型的預測結果都不會發生改變，提供了一種更為嚴謹的理論保障機制。

### 在實際專案中導入可證明穩健性會面臨哪些挑戰？

導入可證明穩健性最主要的挑戰在於計算複雜度與模型效能的權衡。目前的精確驗證演算法在面對深層神經網路時需要耗費大量的計算資源，難以應用於大規模模型。雖然保守驗證方法降低了計算成本，但可能會導致穩健性評估過於保守。此外，提升可證明穩健性往往會稍微降低模型在標準乾淨資料集上的準確率，工程團隊必須根據具體應用場景在安全性與預測效能之間取得適當的平衡。

### 可證明穩健性能夠防禦所有類型的機器學習攻擊嗎？

目前的技術還無法防禦所有類型的攻擊。可證明穩健性通常是建立在特定的數學距離度量之上，例如限制擾動的L2範數或無窮大範數。這種方式對於防禦像素層級的雜訊干擾非常有效，但對於語義層級的改變，例如影像的旋轉、光照變化或背景替換等，傳統的範數度量往往難以準確描述。因此，面對多樣化的現實世界攻擊，還需要結合其他維度的防禦機制來建構全面的安全防護網。

---

深度解說頁：https://aiterms.tw/learning/what-is-certified-robustness
快查頁：https://aiterms.tw/terms/certified-robustness
最後更新：2026/07/04