---
title: "水平自動擴縮器（Horizontal Pod Autoscaler）"
slug: horizontal-pod-autoscaler
language: zh-TW
source: https://aiterms.tw/learning/what-is-horizontal-pod-autoscaler
updated_at: 2026-07-04
tags: [模型部署, MLOps, source:ipas]
ipas_term: true
type: deep-dive
---

# 水平自動擴縮器 是什麼？

> 根據資源使用率自動增減 Kubernetes 叢集中 Pod 數量的機制，確保應用效能並最佳化資源配置。

## 核心概念

Horizontal Pod Autoscaler 屬於 Kubernetes 叢集中的控制迴圈機制之一，專門設計用來解決雲端原生應用程式在面臨波動負載時的資源分配問題。在微服務架構或機器學習模型部署的環境中，應用程式所接收到的請求量往往具有高度的不可預測性與週期性。傳統的靜態資源配置方法要求管理者事先預估系統可能面臨的最大負載，並據此分配固定數量的運算實例。這種做法不僅缺乏彈性，更可能導致在離峰時段產生大量的資源閒置，或者在突發性流量湧入時因資源枯竭而造成服務中斷或回應延遲。

自動擴縮的概念應運而生，而 Horizontal Pod Autoscaler 便是 Kubernetes 實作此概念的核心元件。其名稱中的水平擴縮指的是透過增加或減少運算實例的數量來調整系統的整體處理能力。在 Kubernetes 的語境中，運算實例的最小單位是 Pod，因此 Horizontal Pod Autoscaler 的任務即是動態地調整特定工作負載資源（如 Deployment）所管理的 Pod 副本數量。

水平擴縮的優勢在於其高度的靈活性與容錯能力。當系統需要更多的運算能力時，控制平機會創建新的 Pod 並將其加入負載平衡器的後端池中，藉由分散式的架構來消化額外的流量。這種做法不會中斷現有的服務，且擴容的上限僅受限於底層基礎設施的總容量。若有部分 Pod 發生故障，系統整體的運作也不會受到致命性的影響。

在 MLOps 與模型部署的領域中，推論服務通常需要消耗大量的運算資源，且推論請求的頻率往往產生劇烈的變化。透過配置 Horizontal Pod Autoscaler，營運團隊可以確保模型服務器在面臨高併發請求時自動擴增處理節點，維持低延遲的回應時間，並在請求減少時自動回收閒置的節點，從而實現基礎設施成本的最佳化管控。

## 運作原理

Horizontal Pod Autoscaler 的運作機制建立在一個持續監控與動態調整的控制迴圈之上。由 Kubernetes 的控制平面負責執行，預設情況下每隔一段固定的時間便會觸發一次評估程序。在每次評估中，它會向資源指標 API 查詢目標 Pod 的資源使用狀況，並根據使用者定義的閾值計算出期望的 Pod 副本數量，最後將這個期望值套用到目標工作負載的配置中。

這個過程包含指標收集、閾值計算與副本調整三個主要階段。

在指標收集階段，系統需要獲取反映應用程式負載狀況的數據。Kubernetes 支援多種類型的指標，最基礎的是 CPU 與記憶體的使用率，這些由內建的 Metrics Server 負責收集。此外也支援自訂指標與外部指標，例如每秒的 HTTP 請求數或是雲端服務的訊息佇列長度，這通常需要整合監控系統與對應的指標適配器來實現。

取得數據後進入閾值計算階段。系統會將收集到的當前指標值與設定的目標值進行比較。計算期望副本數量的基本公式是將所有目標 Pod 的當前指標總和除以每個 Pod 的目標指標值，並將結果無條件進位。計算出期望副本數量後，便會向 Kubernetes API 伺服器發出更新請求，修改工作負載的副本欄位。控制平面的元件在接收到更新後，便會啟動對應機制來創建或終止 Pod。

為了避免因為指標數據的短期波動而導致 Pod 數量頻繁變動，系統內建了穩定機制。在擴容與縮容的操作中，會實施冷卻期與速率限制。例如在執行擴容後，系統會在短暫時間內暫停進一步的擴容評估，讓新啟動的節點有足夠的時間進入就緒狀態。縮容操作也會受到速率限制，採用漸進的方式逐步減少數量。

## 實際應用

Horizontal Pod Autoscaler 廣泛應用於需要處理動態負載的各類雲端原生系統中，特別是在機器學習模型部署與微服務架構等場景。

在機器學習模型部署領域，大型語言模型或複雜的電腦視覺模型在進行推論時需要消耗大量的資源。推論請求的到來往往呈現出明顯的尖峰與離峰特性。透過將模型部署為 Kubernetes 中的資源物件，並為其配置基於自訂指標的自動擴縮機制，工程團隊可以構建出具備高度彈性的服務平台。當新產品發布帶來大量流量時，系統會迅速偵測到請求速率的上升，並自動增加模型推論節點的數量，確保等待時間維持在可接受的範圍內。活動結束後隨著流量回落，系統又會自動減少節點。

在微服務架構中，應用程式被拆分為多個獨立部署的小型服務。每個微服務可能具有不同的資源消耗特徵與負載模式。利用 Horizontal Pod Autoscaler，開發者可以為每個微服務獨立設定擴縮策略。當某個特定服務成為系統瓶頸時，只有該服務的節點數量會被增加，而不會影響到其他運作正常的服務。這種精細化的資源管理方式大幅提升了整體系統的使用效率。

在資料處理與批次運算的場景中，負責接收資料的攝取層通常是以長時間運行的服務形式存在。當上游資料源的資料產生速率發生變化時，透過監控訊息中介軟體的主題積壓數量作為外部指標，系統可以動態調整資料攝取工作節點的數量，確保資料能夠及時被消化，避免系統因佇列滿載而崩潰。

## 常見誤區

在實務上配置與維護 Horizontal Pod Autoscaler 時，經常會陷入一些操作上的誤區，這些誤區可能導致機制無法發揮預期效用。

第一個常見的誤區是忽略了 Pod 就緒探針的正確配置。系統在計算資源使用率時，只會考慮處於就緒狀態的 Pod。如果應用程式的啟動時間較長但沒有設定適當的探針，控制平面可能會在應用程式尚未準備好接收流量前就將其標記為就緒。這會導致收集到不準確的資源指標，並可能錯誤地將流量路由到尚未初始化完成的節點上。

第二個誤區是未設定合理的工作負載資源請求與限制。在基於百分比的資源指標進行擴縮時，其百分比的計算基準是基於規格中定義的資源請求量。如果沒有明確定義資源請求，系統將無法計算出正確的使用率百分比，從而導致自動擴縮功能失效。如果資源限制設定得過低，應用程式在面臨高負載時可能會因為觸及作業系統的資源配額而被強制終止。

第三個誤區是對指標的敏感度設定不當。有些管理者希望系統能夠對負載變化做出極為快速的反應，因此將目標指標的閾值設定得非常低。這往往會適得其反，導致系統對微小的負載波動過度敏感，引發節點數量的劇烈震盪。頻繁地創建與銷毀節點不僅會消耗大量的叢集控制平面資源，也會增加底層網路層的負擔。

第四個誤解是認為只要配置了 Horizontal Pod Autoscaler 系統就能無限擴展。事實上它只能管理應用程式層級的擴縮，並受到底層叢集總資源的限制。當所有節點資源都已耗盡時，新創建的 Pod 會一直處於待處理狀態。必須結合叢集自動擴縮器，才能讓基礎設施層級的節點數量也進行動態調整。

## 與相關技術的比較

探討資源管理與自動擴縮時，Horizontal Pod Autoscaler 經常會與 Vertical Pod Autoscaler 以及 Cluster Autoscaler 進行比較。這三者解決的是不同層面的資源調配問題。

Horizontal Pod Autoscaler 與 Vertical Pod Autoscaler 的核心差異在於調整資源的方式。前者採用水平擴縮的策略，透過改變副本數量來增減整體系統的處理能力，適用於無狀態的應用程式。後者則是採用垂直擴縮的策略，不會改變數量，而是自動調整單一節點所需的 CPU 與記憶體請求與限制，適用於具有狀態性或存在單一節點效能瓶頸的傳統應用程式。通常需要根據應用程式的特性，在兩者之間擇一作為主要擴縮機制以避免衝突。

Cluster Autoscaler 的運作層級則完全不同。前兩者是在叢集內部運作，負責分配已經存在於叢集中的運算資源。而 Cluster Autoscaler 則是負責管理底層的虛擬機器或實體伺服器節點。當流量激增導致叢集內現有的節點無法提供足夠的資源時，Cluster Autoscaler 會偵測到無法被調度的任務，並自動向雲端服務供應商發出請求，啟動新的節點並將其加入叢集中。

在一個成熟的 MLOps 架構中，通常會將水平擴縮與叢集擴縮結合使用，以實現端到端的資源彈性。水平擴縮負責敏捷地應對應用程式層級的負載變化，而叢集擴縮則確保基礎設施的總容量始終能夠滿足應用程式的需求，這種協同運作是現代分散式系統穩定運行的基礎。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### Horizontal Pod Autoscaler 是否支援基於自訂指標進行擴縮？

是的，Horizontal Pod Autoscaler 完全支援基於自訂指標與外部指標來執行自動擴縮決策。雖然預設情況下它依賴基礎的資源使用率，但透過部署指標適配器，使用者可以將應用程式特定的業務指標暴露給指標 API，例如每秒的 HTTP 請求數量或是機器學習推論的延遲時間。這種彈性使得開發團隊能夠根據實際影響使用者體驗的業務指標來精確控制運算資源的分配，從而構建出更符合實際業務需求的動態調配系統。

### 在配置 Horizontal Pod Autoscaler 時，為何 Pod 的資源請求設定如此關鍵？

Horizontal Pod Autoscaler 在評估基於百分比的資源指標時，必須有一個計算的基準值，而這個基準值正是來自於配置清單中所定義的資源請求。如果開發者在部署應用程式時遺漏了資源請求宣告，控制平面將無法得知該資源的百分之一百代表多少實體運算能力，進而導致資源使用率的計算無法進行，自動擴縮機制也會因此失效。準確配置每一個容器的資源請求，是確保機制能夠正常運作的最基本前提。

### Horizontal Pod Autoscaler 和 Cluster Autoscaler 應該如何協同運作？

這兩者在系統架構中負責不同層級的資源調度，結合使用能達成極佳的運作效果。Horizontal Pod Autoscaler 專注於應用程式層級，透過增加 Pod 數量來應對流量高峰；然而它的擴展能力受限於叢集現有節點的剩餘資源總量。當叢集資源耗盡時，新建立的 Pod 會處於等待調度狀態。此時 Cluster Autoscaler 會偵測到這些無法運作的 Pod，並自動請求增添新的運算節點以確保系統順利啟動。

---

深度解說頁：https://aiterms.tw/learning/what-is-horizontal-pod-autoscaler
快查頁：https://aiterms.tw/terms/horizontal-pod-autoscaler
最後更新：2026/07/04