---
title: "機器學習公平性（Fairness in Machine Learning）"
slug: fairness-in-machine-learning
language: zh-TW
source: https://aiterms.tw/learning/what-is-fairness-in-machine-learning
updated_at: 2026-07-04
tags: [AI倫理與治理, 機器學習, 模型評估, source:ipas]
ipas_term: true
type: deep-dive
---

# 機器學習公平性 是什麼？

> 機器學習公平性旨在確保人工智慧系統決策的客觀與公正，防止演算法因使用者的種族、性別或年齡等受保護特徵而產生系統性的偏見與歧視。

## 核心概念

機器學習公平性探討的是如何確保演算法和預測模型在處理不同群體資料時，不會因為某些特定屬性而產生系統性的偏差或不公平對待。這些特定屬性通常被稱為受保護特徵或敏感屬性，例如種族、性別、年齡、宗教信仰、國籍、性傾向或是身心障礙狀況等。在人工智慧系統日益普及的今天，演算法的決策已經深入人類社會的各個層面，從金融機構的貸款審批、企業的人才招募，到司法系統的刑期預測以及醫療機構的資源分配，這些由機器學習模型驅動的決策系統，對個人的生命、財產和權利有著深遠的影響。因此，確保這些系統具備公平性，不僅是技術層面的挑戰，更是關乎社會正義與權益保障的重要議題。

在探討核心概念時，必須釐清公平性本身並非單一的數學定義，而是一個具有高度脈絡依賴性的社會學概念。在機器學習領域，研究人員試圖將這些抽象的社會價值觀轉化為可量化的數學指標，進而衡量模型的表現。常見的公平性觀念可大致分為兩大類，分別是群體公平性與個體公平性。

群體公平性關注的是不同群體在模型預測結果上是否享有平等的待遇或結果。例如，在一個貸款審批系統中，群體公平性要求不同性別的申請人獲得核准貸款的比例應當相近，或者在不同群體中，模型預測出錯的機率應該保持一致。這類指標試圖從巨觀層面檢視模型是否存在對特定弱勢群體的系統性歧視。相對地，個體公平性則強調相似的個體應當獲得相似的預測結果。也就是說，如果兩位申請人在除了受保護特徵之外的所有條件都高度相似，例如擁有相同的學歷、工作經驗和信用紀錄，那麼模型對他們做出的決策也應該是一致的。

然而，將社會公平理念轉譯為數學語言的過程中，不可避免地會遭遇固有的衝突。不可能性定理指出，在基本假設成立的情況下，幾種常見的群體公平性指標在數學上是互斥的，無法同時被滿足。這意味著在實際應用中，我們無法打造出一個在所有公平性定義下都完美無瑕的模型，開發者必須根據具體的應用場景、法律規範以及社會價值觀，在不同的公平性指標之間做出取捨。

## 運作原理

機器學習模型的偏見主要來源於資料、演算法設計以及人為認知盲點。要理解機器學習公平性的運作原理，必須從模型開發的整個生命週期著手，檢視偏見是如何在各個階段被引入並被放大的。

首先是資料層面的偏見。機器學習模型仰賴大量歷史資料進行訓練，而這些資料往往反映了現實社會中長期存在的不平等與人類偏見。當歷史資料中包含對特定群體的歧視性決策時，模型便會學習並複製這些模式。例如，如果一份歷史招募資料傾向於錄用特定性別，那麼使用這些資料訓練出來的履歷篩選模型，自然會賦予該性別候選人較高的評分，這被稱為歷史偏見。此外，資料收集過程中的抽樣偏差也會導致代表性偏見。如果訓練資料集主要由某一特定族群的樣本組成，模型對該族群的預測準確度會很高，但對於資料集中缺乏代表性的少數族群，預測效果則會大幅下降。

其次是演算法與特徵工程層面的偏見。即使資料本身相對客觀，特徵的選擇和模型的設計也可能引入偏見。有時候，開發者會刻意在訓練資料中移除受保護特徵，期望藉此達到公平。這種做法實際上往往無法奏效。因為在複雜的資料集中，受保護特徵往往與其他看似中立的特徵存在高度的統計相關性，這被稱為冗餘編碼現象。例如，郵遞區號可能與種族分佈相關，購物習慣可能與性別相關。如果模型利用了這些代理變數進行預測，模型依然會產生具有歧視性的結果。

為了解決這些問題，機器學習公平性的運作原理主要依賴於引入一系列去偏見的干預技術，這些技術可以應用於模型訓練的預處理階段、訓練階段以及後處理階段。

在預處理階段，技術核心在於修改訓練資料的特徵分佈或標籤，以消除歷史資料中潛藏的歧視性關聯。具體做法包括重新賦予不同群體樣本不同的權重，或者藉由特徵轉換技術，將原始資料映射到一個新的表示空間，在這個空間中，預測變數與受保護特徵之間的相關性被大幅削弱，同時盡可能保留對預測任務有用的資訊。在訓練階段，去偏見技術的運作方式是修改演算法的優化目標。除了追求預測準確率最大化之外，開發者會在模型的損失函數中加入公平性正則化項。這種做法迫使模型在訓練過程中，不僅要學習如何準確預測，還要同時最小化不同群體之間的公平性指標差異。在後處理階段，干預措施發生在模型產出初步預測結果之後。運作原理是根據群體屬性，對不同群體的預測閾值進行動態調整，使得最終輸出的決策結果能夠滿足特定的公平性約束條件。

## 實際應用

機器學習公平性在許多與人類生活息息相關的領域中扮演著至關重要的角色。隨著演算法決策系統的影響力日益擴大，將公平性考量納入實際應用場景已成為產業發展的必然趨勢。

在金融服務與信用風險評估領域，機器學習模型被廣泛用於決定是否核准信用卡申請、房貸以及設定信用額度。歷史上，某些特定社經地位族群在傳統金融體系中可能缺乏足夠的信用紀錄。如果演算法單純追求利潤最大化而忽視公平性，極有可能系統性地拒絕這些族群的貸款申請。因此，金融機構在導入演算法時，必須應用公平性指標來監控核貸率，確保模型不會因為申請人居住的區域或其他潛在的代理變數而產生歧視，保障金融服務的普惠性。

在人力資源與招募系統中，企業越來越多地採用人工智慧來進行履歷初步篩選與面試表現評估。這類系統若未經公平性檢驗，可能會學習並放大過往的潛意識偏見。例如，自然語言處理模型在分析履歷文字時，可能會對包含特定屬性暗示的詞彙給予不同的權重，導致特定群體的求職者在初篩階段就被不公平地淘汰。實踐機器學習公平性要求開發團隊持續審查這些自動化篩選工具，採用去偏見的詞嵌入技術，並監控不同特徵候選人的通過率，確保招募過程的客觀與公正。

在醫療健康與資源分配方面，演算法被用於疾病風險預測、醫療影像分析以及醫療資源分配。醫療資料的收集往往存在代表性不均的問題，多數臨床資料庫的樣本可能以特定族裔為主。若將基於這些資料訓練的模型直接應用於其他族裔的病患，可能導致誤診。應用機器學習公平性原則，醫療研究人員必須確保模型在不同種族、性別和社經背景的病患群體上，都能達到相近的診斷準確率。

在司法體系與執法領域，預測性警務系統和風險評估工具引發了極大的關注。這些系統依據過往紀錄預測未來風險，進而影響裁決。然而，歷史資料本身就深受社會結構性影響。如果風險評估工具未經嚴格的公平性校正，很可能會對特定少數族群給出偏高的風險評分，形成惡性循環。因此，司法領域的演算法應用需要極高標準的透明度與公平性審查。

## 常見誤區

在推動機器學習公平性的過程中，產業界與學術界時常面臨一些認知上的誤區，這些誤區可能導致錯誤的技術決策或不切實際的期望。

其中一個最普遍的誤區是認為移除受保護特徵就能保證公平。許多開發者直覺地以為，只要在訓練資料中刪除性別、種族或年齡等欄位，模型就不會產生歧視。這種盲目公平的做法忽略了冗餘編碼現象。模型可以輕易地從居住地、消費紀錄甚至瀏覽歷史中，推斷出被隱藏的受保護特徵，並將歧視性邏輯轉移到這些代理變數上。單純隱藏敏感資訊無法解決根本問題，有時反而會剝奪模型進行公平性校正所需的資訊。

另一個常見的誤區是將公平性簡化為單一的數學優化問題。公平性本質上是一個複雜的倫理議題，無法透過單一方程式解決。不同的應用場景對於什麼是公平有不同的詮釋。多種常見的公平性指標在數學上已經被證明是互斥的。因此，開發者無法尋求一個能同時滿足所有公平性定義的模型，而必須根據具體的脈絡進行權衡，這是一個需要跨領域專業知識的過程。

許多人也誤以為公平性可以透過事後的簡單修正來達成。這種觀點傾向於先開發出標準模型，發現偏見後再嘗試調整閾值修補。雖然事後處理是技術手段之一，但它無法解決存在於資料收集階段的根本性偏差。如果原始資料嚴重缺乏對某一族群的代表性，任何事後的數學調整都無法實質提升該群體的決策品質。公平性考量應該貫穿機器學習的每一個階段。

此外，還有一個誤區是認為追求公平性必然會大幅犧牲模型的預測準確度。雖然在某些情況下為了滿足嚴格約束會對整體準確率造成影響，但這種權衡並非絕對。有時模型對特定群體預測不準，是因為特徵表示不佳。透過深入研究公平性問題，開發者往往能發現資料集中的潛在瑕疵，進而設計出更具泛化能力的特徵表示方法，同時提升模型的公平性與整體表現。

## 與相關技術的比較

機器學習公平性與人工智慧領域中的其他關鍵技術有著密切的關聯與交集。了解這些異同有助於建構更全面的人工智慧系統。

公平性與可解釋性人工智慧經常被相提並論。可解釋性探討的是如何讓人類理解模型做出特定決策的背後邏輯。公平性與可解釋性存在相輔相成的關係。高透明度的可解釋模型能幫助開發人員發現預測邏輯中隱含的偏見，為公平性修正提供方向。然而，可解釋性本身不能保證公平。一個完全透明的模型，如果其權重設計存在歧視性，依然是不公平的。可解釋性是診斷偏見的工具，而公平性提供了修正目標。

隱私保護技術與機器學習公平性之間的關係則更為複雜，有時會產生衝突。隱私保護技術致力於保護個人資料不被洩漏。然而，為了進行有效的公平性評估和去偏見干預，開發人員往往需要掌握使用者的受保護特徵資訊。如果過度強調隱私保護導致特徵資訊缺失，將阻礙公平性的測量與實踐。目前學術界正積極研究如何在隱私保護的框架下進行公平性學習，試圖取得平衡。

模型穩健性與公平性也有著聯繫。穩健性關注的是模型在面對資料偏移或干擾時能否維持預測效能。由於少數族群的資料往往屬於邊緣樣本，模型對這些樣本的預測更容易受到擾動影響。提升模型的穩健性，特別是應對分佈外資料的能力，有助於改善其在少數族群上的預測穩定性。反之，為了滿足公平性約束而進行的操作，有時也能促使模型學習到不易過擬合的特徵，進而提升整體的穩健性。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 為什麼單純從訓練資料中移除性別或種族欄位，無法解決機器學習的偏見問題？

許多人以為在訓練資料中刪除受保護特徵，模型自然就不會產生歧視。這種做法被稱為盲目公平，實際上無法解決問題。因為在複雜的資料集中存在著冗餘編碼現象，即使移除了敏感特徵，模型仍可透過其他中立特徵（如郵遞區號、購物習慣等代理變數）推斷出被隱藏的資訊。模型依然會複製歷史資料中的歧視性關聯。單純隱藏資訊反而會剝奪衡量群體差異的基準數據，使檢測與修正偏見變得更加困難。

### 追求機器學習的公平性，是否意味著我們必須大幅犧牲模型的預測準確率？

不一定。在某些情境下，為滿足嚴格的公平性數學約束，確實可能需要稍微降低整體的預測準確率，這種現象被稱為準確度與公平性的權衡。然而這種權衡並非絕對。模型之所以對特定群體產生偏見，常是因為訓練資料存在瑕疵或缺乏代表性。當開發團隊致力於解決公平性問題、清理資料並設計更穩健的特徵表示方法時，往往能促使模型學習到更真實的底層模式。消除偏見的努力有時不僅能提升系統公正性，也能改善模型的整體表現。

### 各領域對於機器學習公平性的要求是否一致？我們能否開發出絕對公平的演算法？

各領域對公平性的要求存在顯著差異，且數學上已經證明無法開發出同時滿足所有定義的絕對公平演算法。不可能性定理指出，多種常見的群體公平性指標在存在基礎分佈差異時是互斥的。這表示我們必須根據具體應用場景與社會價值觀，在不同指標間進行權衡。例如司法風險評估可能重視減少偽陽性，而傳染病篩檢則更關注減少偽陰性。公平性並非單純的工程優化問題，而是需要跨領域專家參與並適應不同脈絡的動態決策過程。

---

深度解說頁：https://aiterms.tw/learning/what-is-fairness-in-machine-learning
快查頁：https://aiterms.tw/terms/fairness-in-machine-learning
最後更新：2026/07/04