---
title: "對抗性去偏見（Adversarial Debiasing）"
slug: adversarial-debiasing
language: zh-TW
source: https://aiterms.tw/learning/what-is-adversarial-debiasing
updated_at: 2026-07-04
tags: [AI倫理與治理, 模型訓練, 深度學習, source:ipas]
ipas_term: true
type: deep-dive
---

# 對抗性去偏見 是什麼？

> 對抗性去偏見是一種利用對抗性訓練減少機器學習模型預測中固有偏見的技術，確保演算法的公平性。

## 核心概念
對抗性去偏見是機器學習與人工智慧倫理領域中至關重要的方法。在資料驅動的時代，演算法經常在不知不覺中學習並放大了歷史資料中的偏見。這種偏見可能源於資料收集過程的不平衡，或者是資料集本身反映了社會長久以來的結構性不平等。當模型依賴這些帶有偏見的資料進行訓練時，其輸出結果往往會對特定群體造成不利影響。

對抗性去偏見的提出，旨在從演算法架構的層面上解決這個問題。它引入了對抗性機制的思維，讓模型在學習如何準確預測目標變數的同時，也被迫忘記或無法利用特定敏感屬性的資訊。敏感屬性通常指的是我們希望模型在做決策時不要考量的因素，例如個人的性別、種族、年齡、宗教信仰或性取向等。這種機制的設計理念是，如果一個模型無法從其內部表示中重建出這些敏感屬性，那麼它的決策過程就自然無法依賴這些屬性，進而達到公平性的目標。

在深入討論對抗性去偏見之前，我們需要理解公平性在機器學習中的定義。統計均等是一個常見的標準，它要求模型對於不同敏感屬性群體的預測正向結果的機率應該相同。均等勝率則進一步要求，對於真實標籤為正向的樣本，模型在不同群體中給出正向預測的機率應一致；對於真實標籤為負向的樣本，模型給出負向預測的機率也應一致。對抗性去偏見的架構可以根據我們想要達成的公平性標準進行微調，這使得它成為一個高度靈活且強大的去偏見框架。

從更廣泛的視角來看，對抗性去偏見不僅僅是修改損失函數這麼簡單。它代表了演算法設計哲學的轉變。過去的優化目標通常只有一個，那就是極大化預測的準確度。然而，在引入對抗性去偏見後，優化目標變成了多目標的問題：我們不僅要追求高準確率，還要追求低偏見。這往往意味著在模型效能與公平性之間需要取得微妙的平衡。

## 運作原理
對抗性去偏見的核心運作原理建立在生成對抗網路的基礎思想之上，但其具體結構與典型的生成影像模型有所不同。一個標準的對抗性去偏見系統通常包含兩個主要的神經網路模組：預測器和對抗器。這兩個網路在訓練過程中處於一種競爭關係，透過博弈的方式達到最終的去偏見目標。

預測器的任務是根據輸入特徵來預測目標變數。它的輸入是除了敏感屬性之外的其他特徵，輸出則是我們關心的預測結果。例如，在一個貸款審批系統中，預測器可能會根據申請人的收入、信用歷史、工作年限等資訊，預測其是否會違約。預測器的訓練目標是盡可能減少其預測結果與真實標籤之間的誤差。我們通常會使用交叉熵損失或均方誤差來作為預測器的損失函數。

對抗器的任務則是從預測器的輸出中，嘗試推斷或預測出輸入樣本的敏感屬性。對抗器的輸入是預測器的預測結果或其內部的隱藏層特徵表示，輸出則是對敏感屬性的分類。對抗器的訓練目標是盡可能準確地預測出敏感屬性。

訓練過程交替進行更新。在第一階段，我們固定預測器的權重，只更新對抗器的權重，使其能夠更好地從預測器的輸出中辨識出敏感屬性。在第二階段，我們固定對抗器的權重，更新預測器的權重。此時，預測器的目標發生了變化：它不僅要降低預測目標變數的誤差，還要故意欺騙對抗器，讓對抗器無法準確預測敏感屬性。為了達到這個目的，預測器的損失函數被修改為預測損失減去一個乘以特定權重係數的對抗損失。

這個權重係數是一個超參數，它控制了我們對公平性的重視程度。當這個係數較大時，模型會更加努力地去除偏見，但可能會犧牲更多的預測準確度。預測器在更新權重時，實際上是在修改其內部對特徵的表示方式。它必須找到一種特徵組合，這種組合既包含了預測目標變數所需的足夠資訊，又剔除了與敏感屬性相關的資訊。

隨著訓練的反覆疊代，預測器會變得越來越善於隱藏敏感屬性的資訊，而對抗器也會變得越來越善於挖掘這些資訊。最終，當系統達到均衡狀態時，預測器所輸出的表示將不再包含能夠讓對抗器區分不同群體的統計資訊，從而實現了模型的去偏見。這種透過梯度反轉層或交替優化的方式，確保了模型在提取特徵時，本質上做到了對敏感屬性的視而不見。

## 實際應用
對抗性去偏見在許多對公平性要求極高的領域都有廣泛且深遠的應用潛力。

在金融領域的信用評分與貸款審批中，歷史資料常常受到過去人為決策偏見的影響，導致特定族群較難獲得貸款或面臨較高的利率。透過引入對抗性去偏見技術，金融機構可以訓練出不受申請人種族或性別影響的信用風險模型。這不僅符合金融法規中對於公平借貸的要求，也有助於金融機構擴大客群，發現過去因為演算法偏見而被忽視的優質客戶。

在人力資源與招聘領域，自動化履歷篩選系統越來越普及。然而，如果用來訓練這些系統的歷史招聘資料反映了某種性別偏好，模型就會學習到這種偏好，進而對特定性別的求職者給出較低的評分。對抗性去偏見可以用來淨化履歷中的特徵表示，確保模型是基於候選人的技能、經驗和學歷等實質條件進行評估，而不是受到隱含的人口統計特徵干擾。

在司法領域，風險評估工具常被用來輔助法官決定是否允許保釋或量刑。如果這些工具對特定種族的被告給出不成比例的高風險評分，將會造成嚴重的社會不公。研究人員正積極利用對抗性技術來校正這些模型，努力確保演算法不會成為延續司法體系中固有偏見的工具，致力於實現法律面前人人平等的理想。

在醫療健康領域，演算法被用於預測疾病風險、分配醫療資源或輔助診斷。如果模型在訓練時所使用的資料集在不同人群間分佈不均，可能會導致模型對某些群體的預測準確率顯著下降。例如，皮膚癌檢測模型如果只使用淺色皮膚的影像進行訓練，對深色皮膚患者的診斷效能就會很差。雖然這主要是資料代表性的問題，但對抗性去偏見技術也可以作為一種輔助手段，確保模型提取的醫學特徵不會過度依賴於患者的膚色或族裔資訊。

## 常見誤區
在應用對抗性去偏見技術時，從業者和研究人員常常會陷入一些概念或實踐上的誤區。

一個常見的誤區是認為只要從訓練資料中直接刪除敏感屬性欄位，就可以解決偏見問題。這種做法被稱為盲目去偏見。然而，盲目去偏見往往是無效的，因為資料集中的其他特徵經常會與敏感屬性產生高度相關性，這些特徵被稱為代理變數。例如，郵遞區號可能與種族高度相關，購物習慣可能與性別高度相關。模型即使沒有直接看到敏感屬性，仍然可以透過這些代理變數間接地推斷出敏感資訊並加以利用。對抗性去偏見的優勢正在於它能夠識別並消除這些隱含的代理變數關聯。

另一個誤區是認為對抗性去偏見可以在不影響模型預測準確度的情況下完全消除所有偏見。在現實世界的許多應用中，公平性與準確度之間存在著內在的權衡關係。當我們強迫模型忽略某些雖然帶有偏見但卻對預測目標有統計幫助的資訊時，模型的整體準確率通常會下降。從業者的責任是根據具體的應用場景，仔細調整對抗損失的權重，找到一個在社會可接受的公平性水準與業務所需的模型效能之間的合理平衡點。

此外，有人會誤以為只要套用了對抗性去偏見的演算法，整個系統就自動變得公平了。公平性是一個複雜的社會技術概念，不僅僅取決於演算法本身。問題的定義、資料的收集方式、結果的使用情境等，都會影響最終系統的公平性。演算法層面的去偏見只是解決方案的一部分，我們不能忽視對整個資料生命週期進行嚴格的倫理審查。

還有一個容易被忽略的誤區是關於公平性標準的選擇。統計均等、均等勝率和預測奇偶性等不同的公平性定義之間往往存在著數學上的互斥關係。這意味著我們不可能同時滿足所有的公平性標準。如果選擇了不適合特定應用場景的公平性指標來指導對抗性訓練，可能會導致意想不到的負面後果，甚至可能反而損害了原本想要保護的群體的利益。

## 與相關技術的比較
對抗性去偏見屬於機器學習公平性領域中的訓練中介入方法。為了更全面地理解其定位，我們可以將它與其他幾種主要的去偏見技術進行比較。

第一類是預先處理方法。這類方法的重點在於演算法訓練之前對資料集進行轉換。常見的技術包括重新賦予樣本權重、資料過採樣或欠採樣，或者學習一種全新的、不受敏感屬性影響的資料表示形式。預先處理方法的優點是它與後續使用的機器學習模型無關，具有很好的通用性。然而，預先處理可能會破壞資料的原始結構，且有時很難找到既能消除偏見又能保留足夠預測資訊的轉換方式。相比之下，對抗性去偏見直接在模型訓練過程中動態地調整特徵表示，通常能夠更精細地平衡公平性與準確度。

第二類是後處理方法。這類方法不改變資料，也不改變模型的訓練過程，而是在模型給出預測機率後，針對不同敏感屬性群體套用不同的決策閾值，以此來強制滿足特定的公平性標準。後處理方法的優點是實施起來非常簡單，特別適用於我們無法修改原始模型或只能獲得黑盒子模型預測結果的場景。但是，這種方法並未解決模型內部特徵提取存在偏見的根本問題。對抗性去偏見則是一種更深層次的解決方案，它致力於從源頭上淨化模型的內部表示。

在訓練中介入方法這個類別裡，除了對抗性去偏見之外，另一種常見的做法是在損失函數中加入正則化項。這種正則化項用來懲罰模型預測結果與敏感屬性之間的相關性。雖然正則化方法在概念上相對直觀，但在處理高維度或非線性的特徵關聯時，往往不如對抗性網路來得有效。對抗網路透過引入一個具有強大表達能力的對抗器，可以更精確地捕捉和消除那些難以用簡單數學公式定義的隱含偏見。

此外，聯邦學習和差分隱私等技術有時也會與公平性討論產生交集。差分隱私主要關注個體資料的隱私保護，透過加入雜訊來防止敏感資訊洩露。雖然這與去偏見的出發點不同，但有研究指出，在某些情況下，過度追求差分隱私可能會加劇模型對少數群體的偏見。因此，如何將對抗性去偏見技術與隱私保護技術有效地結合，是目前學術界正在積極探索的一個前沿課題。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 如果在資料集中直接刪除性別或種族等敏感屬性，是否就能達到跟對抗性去偏見一樣的效果？

這是一個常見的誤解，這種做法被稱為盲目去偏見。實際上，單純刪除敏感屬性欄位通常無法有效解決模型偏見問題。這是因為資料集中通常還存在著許多其他的特徵，這些特徵可能會與敏感屬性產生高度的統計相關性，被稱為代理變數。例如，居住區域的郵遞區號可能與種族分佈相關，而特定的消費習慣可能與性別相關。機器學習模型非常擅長挖掘這些隱含的關聯，因此即使沒有直接讀取敏感屬性，模型依然可以透過這些代理變數間接推斷出敏感資訊，並在決策中產生偏見。對抗性去偏見的優勢在於它透過對抗網路的機制，主動識別並阻斷模型利用這些隱藏代理變數的能力，從而在特徵層面上真正地抹除偏見資訊。

### 使用對抗性去偏見技術會導致模型的預測準確度大幅下降嗎？

在大多數情況下，引入對抗性去偏見技術確實會對模型的預測準確度造成一定程度的影響。這反映了機器學習中公平性與準確度之間固有的權衡關係。當我們要求模型在進行預測時不能利用某些帶有偏見但具備統計預測力的資訊（例如前述的代理變數）時，模型可用的資訊量實質上減少了，因此整體準確率可能會降低。然而，下降的幅度取決於多個因素，包含資料本身的特性、去偏見的嚴格程度以及對抗損失函數的權重設定。透過仔細的超參數調校，工程師通常可以在社會道德所要求的公平性標準與業務運營所需的預測效能之間，找到一個合理且可接受的最佳平衡點。

### 對抗性去偏見是否適用於所有類型的機器學習模型與資料型態？

對抗性去偏見技術最初主要是基於深度神經網路架構發展出來的，因此它最直接適用於能夠透過梯度反向傳播進行端到端訓練的模型，例如多層感知機或卷積神經網路。對於傳統的機器學習演算法，如決策樹、隨機森林或支援向量機，要直接套用對抗性去偏見的框架相對困難。不過，研究社群已經發展出將傳統模型與對抗網路結合的混合方法。在資料型態方面，對抗性去偏見廣泛應用於結構化表格資料和自然語言處理任務中，以消除文本表示中的性別或種族偏見。在電腦視覺領域，它也被用來確保影像識別系統不會依賴膚色或性別等敏感屬性進行分類，顯示出其廣泛的適用潛力。

---

深度解說頁：https://aiterms.tw/learning/what-is-adversarial-debiasing
快查頁：https://aiterms.tw/terms/adversarial-debiasing
最後更新：2026/07/04