---
title: "模型竊取（Model Stealing）"
slug: model-stealing
language: zh-TW
source: https://aiterms.tw/terms/model-stealing
updated_at: 2026-07-04
tags: [機器學習, 模型部署, AI倫理與治理, 模型評估, source:arxiv]
ipas_term: false
---

# 模型竊取（Model Stealing）

模型竊取是一種針對機器學習模型的網路安全攻擊手法。攻擊者透過大量且有系統地向目標模型的應用程式介面發送查詢，並記錄其回傳的預測結果，藉此訓練出一個功能與原始目標高度相似的替代模型。

## 完整說明

模型竊取是一種針對機器學習即服務平台的進階安全威脅，能夠讓攻擊者在不具備原始訓練資料與模型架構存取權限的情況下，複製出目標模型的核心邏輯與預測行為。此技術主要用於竊取企業耗費龐大資源訓練的專屬智慧財產，或是作為後續發動其他對抗性攻擊的跳板。常見攻擊場景包括意圖規避應用程式介面的計費機制、資安團隊進行內部系統的紅隊演練與弱點掃描，以及學術界研究黑箱模型架構的轉移性與防禦機制的有效性。

## 常見問題

### 企業應該如何防禦模型竊取攻擊？

防禦模型竊取攻擊需要採取多層次的資安策略。首先，在應用程式介面端可以實施嚴格的存取控制與速率限制，透過分析查詢行為的頻率與分佈來識別異常的探測模式。其次，可以對模型回傳的預測結果進行擾動處理，例如僅回傳最終的預測類別而非詳細的機率分佈數值，或是刻意在信心分數中加入微小的隨機雜訊，藉此破壞攻擊者利用梯度資訊訓練替代模型的效率。再者，浮水印技術也是一種防禦手段，開發者可以在模型的決策邊界中嵌入特定的隱蔽特徵，當懷疑其他模型是透過竊取而來時，即可透過驗證這些浮水印特徵來證明侵權行為。企業也應持續監控日誌，運用異常偵測演算法來辨識具有高度系統性的異常查詢。

### 為什麼即使沒有原始訓練資料，攻擊者依然能夠成功複製模型？

機器學習模型的本質是學習一組將輸入特徵映射到輸出空間的數學函數。在模型竊取過程中，攻擊者不需要原始的訓練資料，而是利用目標模型作為標註工具。攻擊者可以收集與目標領域相關的未標註資料，或是透過演算法生成合成資料，然後將這些資料輸入目標模型以獲取預測標籤。這些由目標模型生成的標籤包含了豐富的決策邊界資訊，特別是當介面回傳完整的機率分佈時，這些數值揭露了不同類別之間的相對關係。攻擊者利用這些輸入與輸出的配對資料來訓練自己的替代模型，由於替代模型直接學習了目標模型的決策邏輯，因此依然能夠逼近目標模型的行為表現。

### 模型竊取對於開源模型與封閉原始碼模型有何不同影響？

開源模型在架構與權重上已經完全公開，任何人皆可自由下載與部署，因此傳統意義上的模型竊取對開源模型並不適用，因為無需透過查詢應用程式介面來複製功能。相對地，模型竊取主要針對部署在雲端且僅提供查詢介面的封閉原始碼模型，這類模型通常被視為企業的核心智慧財產，投入了極高的資料收集與運算成本。對封閉模型發動竊取攻擊，不僅會導致企業喪失技術護城河與競爭優勢，還會造成直接的經濟損失，因為攻擊者可以利用竊取來的替代模型提供相同服務而無需支付介面查詢費用。此外，封閉模型一旦被成功竊取並轉換為白箱替代模型，將大幅降低後續發動其他對抗性安全攻擊的門檻。

---

來源：https://aiterms.tw/terms/model-stealing
快查頁：https://aiterms.tw/terms/model-stealing
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-model-stealing