---
title: "模型竊取（Model Stealing）"
slug: model-stealing
language: zh-TW
source: https://aiterms.tw/learning/what-is-model-stealing
updated_at: 2026-07-04
tags: [機器學習, 模型部署, AI倫理與治理, 模型評估, source:arxiv]
ipas_term: false
type: deep-dive
---

# 模型竊取 是什麼？

> 模型竊取是一種針對機器學習模型的網路安全攻擊手法。攻擊者透過大量且有系統地向目標模型的應用程式介面發送查詢，並記錄其回傳的預測結果，藉此訓練出一個功能與原始目標高度相似的替代模型。

## 核心概念

模型竊取攻擊是隨著機器學習即服務模式普及而興起的一種新興資訊安全威脅。在這種商業模式下，人工智慧開發商投入鉅額的資金、專有資料庫以及龐大的運算資源，訓練出具備高度商業價值的機器學習模型，並透過雲端應用程式介面將模型的預測能力提供給終端使用者或企業客戶。使用者僅需發送輸入資料，即可獲得精準的分析結果，無需承擔本地端部署的硬體成本。然而，這種將推理介面暴露於公共網路的架構，同時也為惡意行為者開啟了一扇探測模型內部運作機制的窗口。攻擊者可以透過系統化地向該介面發送精心設計的查詢，並記錄系統回傳的預測類別、信心分數或機率分佈，逐步收集足夠的輸入與輸出對應資料，進而在本地端重建出一個功能、準確度甚至是決策邊界都與原始目標模型極度相似的替代模型。

從經濟與智慧財產權的角度來看，模型竊取行為對人工智慧產業構成嚴重的破壞。訓練一個深度神經網路往往需要處理龐大級別的資料，並租用數以千計的圖形處理器進行長達數週的運算，其背後的研發成本極為高昂。目標模型被竊取後，攻擊者等同於免費獲取了這些研發成果，並能以極低的邊際成本運行本地化的替代模型。這不僅使得受害企業喪失了原本可以透過介面查詢次數獲取的營業收入，更可能面臨攻擊者將替代模型重新包裝並以較低價格推向市場的惡性競爭。因此，模型本身已經成為一種極需被保護的數位資產，而模型竊取正是針對這種數位資產最直接的剽竊行為，凸顯了人工智慧系統在機密性保護上的脆弱環節。

模型竊取不僅僅是為了省下查詢費用或盜用技術，它在資安攻防的脈絡中往往扮演著多階段攻擊策略的第一步。在多數情況下，目標模型的架構設計與權重參數是處於黑箱狀態，攻擊者無法直接對其進行白箱分析。透過模型竊取建立一個本地的白箱替代模型後，攻擊者便能利用這個替代模型來測試並計算對抗性干擾。由於機器學習模型之間存在著所謂的對抗性轉移現象，針對替代模型生成的對抗性樣本，有極高的機率同樣能夠成功欺騙原始的目標雲端模型。換言之，模型竊取提供了一個安全的沙盒環境，讓攻擊者可以無限制且不留痕跡地研發後續的攻擊手法，避開了目標系統可能具備的速率限制與異常流量偵測機制。

此外，模型竊取的威脅程度與目標模型回傳資訊的豐富度有著高度的正相關。早期的研究指出，如果應用程式介面不僅回傳最終的分類結果，還一併回傳了完整的信心分數或是未經處理的對數勝率數值，攻擊者將能大幅縮短竊取過程所需的查詢次數。這是因為連續型的數值包含了目標模型對於不同類別之間的相對關係判斷，這些隱含的知識在機器學習領域被稱為暗知識。攻擊者利用這些連續型數值來計算損失函數，能夠為替代模型提供更精確的梯度更新方向。然而，近期的資安研究進一步證明，即使目標系統為了安全考量而只回傳硬標籤，亦即僅告知預測的最終類別名稱，攻擊者依然能夠透過主動學習與邊界探測演算法，在稍多查詢次數的情況下成功完成模型竊取，這顯示單純隱藏機率分佈並無法徹底消除此類威脅。

隨著深度學習技術的演進，模型竊取的手法也逐漸從早期的簡單多層感知器分類器，擴展到更為複雜的自然語言處理模型、電腦視覺模型甚至是生成式基礎模型。對於大型語言模型而言，雖然完全複製其數千億參數的權重在計算上不切實際，但攻擊者可以透過給予特定的提示詞，誘使大型語言模型輸出大量的專業知識與推理邏輯，並利用這些生成內容來微調一個規模較小但在特定任務上表現相仿的專精模型。這種針對大型基礎模型的萃取行為，進一步模糊了合法技術轉移與惡意模型竊取之間的界線，也為當前的人工智慧倫理與治理帶來了前所未有的挑戰。

## 運作原理

模型竊取攻擊的運作機制主要由四個關鍵階段構成，分別是目標探測、查詢生成、模型訓練以及迭代優化。在目標探測階段，攻擊者會對目標應用程式介面進行初步的觀察與測試，以確認系統的輸入格式限制、回傳的資料類型以及潛在的安全防禦機制。例如，攻擊者會記錄介面是否回傳多個類別的機率值、機率值是否經過四捨五入處理，或是系統是否設有每個帳號每日的最高查詢次數限制。這些初步的情報收集將決定後續攻擊策略的走向，例如是否需要註冊大量免洗帳號來分散查詢流量，以規避基於IP位址的速率限制。了解目標系統的回應特性是設計有效查詢資料集的重要前提。

查詢生成階段是整個模型竊取過程中最具挑戰性且對成功率影響最大的環節。由於攻擊者通常不具備目標模型的原始訓練資料，他們必須建構一個能夠有效探索目標模型決策空間的查詢資料集。最基礎的方法是使用與目標任務相關的公開資料集，將這些資料送入系統以獲取目標模型的標籤。然而，當缺乏相關領域的資料時，攻擊者會採用合成資料生成技術。例如，基於雅可比矩陣的資料擴增技術會利用當前替代模型的梯度資訊，計算出最能引起輸出變化的輸入方向，並朝著這個方向生成新的查詢樣本。這種方法能夠精準地探索目標模型決策邊界附近的複雜區域，從而以較少的查詢次數擷取最關鍵的模型特徵資訊。

進入模型訓練階段後，攻擊者會將收集到的輸入資料與目標模型回傳的輸出結果配對，形成一個標註資料集。接著，攻擊者會在本地端建立一個未經訓練的替代模型架構。這個架構不需要與目標模型完全相同，只要具備足夠的表徵能力即可。替代模型的訓練過程實質上是一種知識蒸餾，目標模型充當教師，而替代模型則是學生。訓練的目標是最小化替代模型輸出與目標模型輸出之間的差異。如果目標模型提供的是機率分佈，攻擊者通常會使用交叉熵損失函數或均方誤差來對齊兩者的機率分佈；如果目標系統僅提供單一類別結果，則會使用傳統的分類損失函數進行訓練。透過反覆的梯度下降優化，替代模型會逐漸收斂並模擬出教師模型的行為模式。

為了進一步提升竊取效率並節省查詢成本，攻擊者往往會引入迭代優化與主動學習機制。主動學習的核心思想是讓替代模型自己評估在哪些輸入區域缺乏信心，並針對這些不確定性最高的區域生成新的查詢樣本發送給目標系統。具體做法可能包含計算不同類別機率之間的資訊熵，或是訓練多個替代模型組成整合系統，當整合系統內的模型對某個輸入產生意見分歧時，就將該輸入作為下一次向目標系統查詢的目標。這種策略減少了對目標模型決策空間中平坦且容易預測區域的冗餘查詢，將有限的查詢預算集中在最能提升替代模型準確度的邊界區域。

值得注意的是，模型竊取過程中的訓練動態與傳統的從頭訓練模型有著根本上的差異。在傳統訓練中，模型學習的是人類提供的真實世界標籤，這些標籤可能存在雜訊或主觀偏差。而在模型竊取中，替代模型學習的是另一個數學模型的輸出，這意味著訓練目標本身就是一個平滑且具有規律的連續函數。這種特性使得替代模型在訓練過程中往往能夠更快速地收斂，並且需要較少的訓練樣本就能達到穩定的效能。此外，即使目標模型本身存在過度擬合的缺陷或是學習到了特定的捷徑特徵，替代模型也會忠實地將這些缺陷與捷徑一併複製下來，這種現象也為防禦方提供了一種透過指紋識別來追蹤遭竊模型的理論基礎。

## 實際應用

雖然模型竊取在定義上是一種惡意攻擊，但探討其在實際場景中的體現，有助於我們理解資安防禦的重點。在競爭極為激烈的環境中，企業可能會利用模型竊取技術來削弱對手的技術優勢。例如，一間新創公司可能試圖開發一款高階的醫學影像辨識系統，但苦於缺乏足夠的臨床標註資料。他們可能會利用程式自動化腳本，將大量未標註的醫學影像上傳至競爭對手提供的收費介面，獲取精準的診斷結果與信心分數。隨後，這間新創公司利用這些高質量的標註結果在內部訓練出自己的模型，從而繞過了漫長且昂貴的資料收集與醫療專家標註過程，直接將競爭對手耗費數年建立的智慧財產據為己有，並以較低的價格提供服務來搶佔市場。

在網路安全研究與系統弱點評估的領域中，資安團隊與紅隊演練人員會將模型竊取作為常規的安全測試項目。大型科技公司在將最新研發的人工智慧服務上線之前，會委託內部的安全工程師模擬外部攻擊者的行為，嘗試在受限的查詢次數與權限下提取模型。透過這種壓力測試，開發團隊能夠具體量化模型被完全複製所需付出的成本與時間，進而評估現有防禦機制的有效性。測試結果會被用來調整應用程式介面的安全策略，例如決定信心分數應保留至小數點後幾位、設定何種程度的流量異常警報閾值，或是評估在輸出結果中加入差異化隱私雜訊對使用者體驗與安全性的雙重影響，這是一種將攻擊技術轉化為防禦建設的重要實踐。

模型竊取也是對抗性機器學習研究中不可或缺的基礎工具。許多前沿的學術研究致力於開發能夠欺騙影像分類器、語音辨識系統或自動駕駛決策模組的對抗性干擾樣本。然而，在真實世界的黑箱條件下，研究人員無法直接獲取目標模型的梯度來計算這些干擾。因此，他們會先執行模型竊取，建立一個與目標模型行為高度一致的本地白箱替代模型。在這個替代模型上，研究人員可以自由地應用各種基於梯度的演算法，計算出肉眼難以察覺但足以改變模型預測結果的微小雜訊。最後，將這些帶有雜訊的對抗性樣本發送給原始的黑箱目標模型，利用模型的轉移特性達成攻擊目的，這證明了模型竊取在擴大攻擊面與提升攻擊威脅等級上的關鍵作用。

在自然語言處理與大型語言模型領域，模型竊取技術正以一種被稱為指令微調或知識萃取的形式被廣泛應用。許多開源社群或研究機構受限於運算資源，無法從頭預訓練擁有數千億參數的巨型語言模型。他們的做法是收集大量的問題或提示詞，將其輸入至目前表現強大的閉源商業語言模型，並記錄其生成的高品質回答、邏輯推理步驟或程式碼片段。隨後，研究人員利用這些由閉源模型產生的龐大問答資料集，去微調一個規模較小、參數量僅有數十億的基礎模型。這種做法使得小型模型能夠在特定的對話能力與推理任務上，展現出接近巨型商業模型的水準，這本質上是一種高度複雜且極具影響力的模型竊取應用。

此外，在涉及使用者隱私與敏感資料的應用場景中，模型竊取可能會與其他隱私攻擊技術相結合，形成複合型的威脅。例如，一個被訓練用來預測個人信用風險或醫療疾病機率的模型，其內部參數不可避免地會記憶了部分原始訓練資料的特徵。當攻擊者成功竊取並重建了這個模型後，他們可以進一步對這個本地的替代模型執行模型反轉攻擊或成員推論攻擊。因為替代模型在本地端運作，攻擊者可以進行無限制的窮舉測試與梯度分析，試圖從模型中還原出特定的使用者特徵，或是確認某位特定人士的資料是否被包含在原始的訓練庫中。這種由模型竊取引發的連鎖效應，使得原本針對智慧財產的攻擊，演變成了對個人資料保護的嚴重破口。

## 常見誤區

在探討模型竊取攻擊時，許多開發者與企業管理者常抱持著一些不精確的觀念，這些誤區往往導致防禦策略的失效。一個最常見的誤解是認為只要保密目標模型的內部網路架構與超參數設定，就能有效防止模型被竊取。事實上，機器學習模型的本質是一個複雜的函數映射器，模型竊取的核心在於學習這個輸入與輸出之間的映射關係，而不在於完美還原原來的網路結構。研究已經證明，攻擊者可以使用與目標模型截然不同的神經網路架構來作為替代模型。例如，即使目標模型是一個複雜的殘差網路，攻擊者依然可以使用一般的卷積神經網路甚至是支援向量機來捕捉其決策邊界，只要替代模型具備足夠的容量來擬合資料特徵，架構的差異並不會構成竊取的障礙。

另一個廣泛流傳的誤區是認為模型竊取攻擊必須依賴應用程式介面回傳豐富的機率分佈資訊才能成功。雖然早期的研究確實指出，利用軟標籤計算損失函數能讓替代模型收斂得更快且需要更少的查詢，但這並不代表僅回傳硬標籤就能徹底消除威脅。現代的資安研究顯示，攻擊者可以透過巧妙設計的輸入微調，例如在輸入影像上添加極其微小的漸進式雜訊，觀察系統回傳類別發生改變的臨界點，藉此精確地估算並描繪出目標模型在該資料點附近的決策邊界斜率。這種基於硬標籤的邊界探測技術雖然增加了查詢次數，但依然能夠成功且高精度地複製目標模型，因此單純修改介面回傳格式並不是萬靈丹。

許多企業在防禦思維上認為，只要妥善保護原始的訓練資料庫不被外洩，模型就是安全的。這種觀念忽略了模型竊取攻擊的獨立性。攻擊者在執行模型竊取時，完全不需要存取原始的訓練資料。他們可以使用在網際網路上公開爬取的類似領域資料，或者利用生成式對抗網路合成出具備相似統計特徵的偽造資料來作為查詢的媒介。即使攻擊者使用的資料分佈與原始訓練資料存在一定的落差，只要這些資料能夠覆蓋模型預測空間的重要區域，替代模型依然能夠學習到目標模型的核心邏輯。因此，將資源全數投入在資料庫防護而忽略了介面行為監控，在面對模型竊取時將顯得極為脆弱。

在監控與偵測方面，有一種誤區認為模型竊取會產生極端異常且容易辨識的巨量查詢流量，因此可以輕易透過流量分析系統阻擋。然而，專業的攻擊者會採取極其隱蔽的策略來規避這類偵測機制。他們可能會將查詢行為分散到數千個不同的網路位址，或者將查詢頻率設定在與正常使用者無異的範圍內，將整個竊取過程拉長至數週甚至數個月。此外，透過主動學習技術的輔助，攻擊者所需的總查詢次數可能遠低於防禦方的預期，這些具有高度資訊價值的查詢在傳統的流量分析模型看來，與一般使用者的邊角案例查詢幾乎無法區分，這大幅增加了防禦方實施即時攔截的技術難度。

最後，部分觀點認為在模型的預測結果中加入隨機雜訊或進行擾動處理，就能完美解決模型竊取的問題。雖然加入雜訊確實會干擾攻擊者計算梯度的準確性，降低替代模型的學習效率，但這種防禦手段面臨著效用與安全性之間的嚴格權衡。如果加入的雜訊過大，將會嚴重影響合法使用者獲得的預測品質，破壞機器學習即服務的商業價值；如果雜訊過小，攻擊者只需對同一個輸入進行多次重複查詢並計算平均值，就能輕易消除隨機雜訊的影響，還原出真實的模型預測結果。因此，單純依賴結果擾動並非長久之計，必須搭配基於行為模式的動態防禦機制才能建立有效的安全屏障。

## 與相關技術的比較

為了更清晰地界定模型竊取在人工智慧安全領域的位置，有必要將其與其他幾種容易混淆的機器學習相關技術與攻擊手法進行深度比較。首先是知識蒸餾與模型竊取的比較。這兩項技術在訓練機制上高度相似，都是透過一個教師模型來指導一個學生模型學習。然而，兩者的根本差異在於意圖與執行環境。知識蒸餾是一種善意且合作的技術，開發者擁有教師模型的完整權限，包括模型權重與原始資料，其目的是為了將龐大的模型壓縮成適合部署在邊緣運算設備上的輕量化版本。相反地，模型竊取則是在非授權的黑箱環境下進行的對抗性行為，攻擊者僅能透過查詢介面與目標模型互動，其目的是為了剽竊智慧財產或尋找系統漏洞，兩者在倫理與合法性上處於完全對立的面貌。

接著探討模型竊取與成員推論攻擊的不同。這兩種攻擊都針對部署在雲端的機器學習模型，但其攻擊目標與造成的危害層面截然不同。成員推論攻擊的核心目標是隱私侵犯，攻擊者試圖判斷一筆特定的資料是否曾經被用於訓練目標模型。這在醫療或財務等敏感領域會引發嚴重的隱私洩露危機。而模型竊取的目標則是智慧財產本身，攻擊者並不在乎個別資料點的隱私狀況，而是關注於複製整個模型的決策邏輯與預測能力。不過，這兩種攻擊也存在著微妙的連結，成功竊取並建立本地替代模型後，往往能讓後續執行成員推論攻擊變得更加容易且成本更低，因為攻擊者可以在本地端進行無限次的白箱測試。

模型竊取與模型反轉攻擊雖然名稱相似，但在運作原理上具有顯著差異。模型反轉攻擊的目的是從模型中重建出具有代表性的原始訓練資料特徵，例如給定一個臉部辨識系統中代表某個特定使用者的類別標籤，攻擊者試圖透過最佳化演算法，合成出一張與該使用者高度相似的臉部影像。模型反轉是從模型內部提取特徵表現的過程，而模型竊取則是提取模型的映射關係本身。簡而言之，模型反轉關注的是模型學到了什麼樣的資料內容，模型竊取關注的則是模型如何對資料進行預測與分類。兩者雖然都利用了模型對輸出結果的過度自信，但最終產出的成果分別是還原的資料樣本與複製的神經網路。

對抗性樣本攻擊與模型竊取之間的關係也是資安研究的重點。對抗性樣本攻擊旨在尋找輸入空間中的盲點，透過在正常資料上加入精心計算的微小雜訊，迫使高準確率的模型做出錯誤的預測。這是一種規避與欺騙的行為，攻擊者並不試圖了解模型的全貌，只專注於找到能讓模型出錯的特定輸入。模型竊取則是一種全面性的探索與複製行為，其目的在於重現模型的正確預測能力。在許多進階的資安威脅模型中，模型竊取常被視為對抗性攻擊的先期偵察階段，因為直接對黑箱系統發動對抗性攻擊的成功率較低且容易被記錄，透過竊取建立替代模型後再計算對抗性干擾，是一種更具威脅性且效率更高的攻擊策略。

最後，我們將模型竊取與資料毒化攻擊進行對比。資料毒化攻擊發生在模型的訓練階段或重新訓練階段，攻擊者透過在訓練資料庫中注入惡意篡改的資料樣本，試圖改變模型的決策邊界，甚至在模型內部植入隱蔽的後門特徵。這種攻擊直接破壞了模型的完整性與可用性。相對地，模型竊取發生在模型的部署階段，也就是推理階段。模型竊取是一個被動觀察的過程，攻擊者的查詢行為並不會改變目標模型本身的權重或決策邏輯，受害模型依然能對合法使用者提供正常的服務。資料毒化是破壞既有系統的防禦，而模型竊取則是複製既有系統的價值，兩者分別在機器學習生命週期的不同階段對系統安全構成嚴峻挑戰。

## 常見問題

### 企業應該如何防禦模型竊取攻擊？

防禦模型竊取攻擊需要採取多層次的資安策略。首先，在應用程式介面端可以實施嚴格的存取控制與速率限制，透過分析查詢行為的頻率與分佈來識別異常的探測模式。其次，可以對模型回傳的預測結果進行擾動處理，例如僅回傳最終的預測類別而非詳細的機率分佈數值，或是刻意在信心分數中加入微小的隨機雜訊，藉此破壞攻擊者利用梯度資訊訓練替代模型的效率。再者，浮水印技術也是一種防禦手段，開發者可以在模型的決策邊界中嵌入特定的隱蔽特徵，當懷疑其他模型是透過竊取而來時，即可透過驗證這些浮水印特徵來證明侵權行為。企業也應持續監控日誌，運用異常偵測演算法來辨識具有高度系統性的異常查詢。

### 為什麼即使沒有原始訓練資料，攻擊者依然能夠成功複製模型？

機器學習模型的本質是學習一組將輸入特徵映射到輸出空間的數學函數。在模型竊取過程中，攻擊者不需要原始的訓練資料，而是利用目標模型作為標註工具。攻擊者可以收集與目標領域相關的未標註資料，或是透過演算法生成合成資料，然後將這些資料輸入目標模型以獲取預測標籤。這些由目標模型生成的標籤包含了豐富的決策邊界資訊，特別是當介面回傳完整的機率分佈時，這些數值揭露了不同類別之間的相對關係。攻擊者利用這些輸入與輸出的配對資料來訓練自己的替代模型，由於替代模型直接學習了目標模型的決策邏輯，因此依然能夠逼近目標模型的行為表現。

### 模型竊取對於開源模型與封閉原始碼模型有何不同影響？

開源模型在架構與權重上已經完全公開，任何人皆可自由下載與部署，因此傳統意義上的模型竊取對開源模型並不適用，因為無需透過查詢應用程式介面來複製功能。相對地，模型竊取主要針對部署在雲端且僅提供查詢介面的封閉原始碼模型，這類模型通常被視為企業的核心智慧財產，投入了極高的資料收集與運算成本。對封閉模型發動竊取攻擊，不僅會導致企業喪失技術護城河與競爭優勢，還會造成直接的經濟損失，因為攻擊者可以利用竊取來的替代模型提供相同服務而無需支付介面查詢費用。此外，封閉模型一旦被成功竊取並轉換為白箱替代模型，將大幅降低後續發動其他對抗性安全攻擊的門檻。

---

深度解說頁：https://aiterms.tw/learning/what-is-model-stealing
快查頁：https://aiterms.tw/terms/model-stealing
最後更新：2026/07/04