---
title: "水平擴展架構（Horizontal Scaling）"
slug: horizontal-scaling
language: zh-TW
source: https://aiterms.tw/learning/what-is-horizontal-scaling
updated_at: 2026-07-04
tags: [模型部署, AI應用, MLOps, AI基礎, source:ipas]
ipas_term: true
type: deep-dive
---

# 水平擴展架構 是什麼？

> 透過增加更多節點或機器來擴展系統處理能力，以應對AI工作負載增長。

## 核心概念
水平擴展（Horizontal Scaling），又稱向外擴展（Scale Out），是一種透過增加更多獨立的計算資源（如伺服器、虛擬機或容器）來提升系統處理能力和容量的架構策略。與垂直擴展（Vertical Scaling，即增加單一機器上的CPU、記憶體等資源）不同，水平擴展的重點在於分散工作負載到多個節點上。在AI領域，隨著模型規模的增大、資料量的爆炸式增長以及使用者對AI服務需求的提升，單一機器往往難以滿足計算和儲存需求。水平擴展允許AI系統透過協同運作的多個節點來處理這些龐大的工作負載，例如分散式訓練大型深度學習模型、提供高併發的AI推論服務，或處理海量的特徵工程資料。其核心優勢在於高可用性、容錯能力和近乎線性的性能增長潛力。

## 運作原理
水平擴展的運作原理基於將一個大型任務或服務分解為多個可獨立執行的子任務，並將這些子任務分配給不同的節點處理。其關鍵組成部分包括：

1.  **負載平衡器 (Load Balancer)**：這是水平擴展架構中不可或缺的組件。負載平衡器負責接收所有傳入的請求，並將這些請求智慧地分發到後端的多個服務節點上。它確保每個節點的工作負載均衡，防止單一節點過載，同時也隱藏了後端節點的複雜性，使客戶端只需與負載平衡器互動。在AI推論服務中，負載平衡器將使用者請求分發給多個推論服務實例。
2.  **無狀態服務 (Stateless Services)**：為了實現高效的水平擴展，服務節點通常設計為無狀態的。這意味著每個請求都包含處理該請求所需的所有資訊，服務節點本身不儲存任何會話狀態。這樣，任何請求都可以由任何可用的節點處理，而無需考慮之前的請求是由哪個節點處理的。這極大地簡化了節點的增減和故障恢復。
3.  **資料分區與分散式儲存 (Data Partitioning and Distributed Storage)**：對於需要處理大量資料的AI應用（如模型訓練、特徵工程），資料通常會被分割成多個區塊，並儲存在分散式儲存系統（如HDFS、S3、Ceph）中。每個計算節點可以獨立存取或處理其負責的資料分區，從而實現資料處理的並行化。
4.  **協調與通訊 (Coordination and Communication)**：在多個節點協同工作的環境中，節點之間需要有效的通訊和協調機制。這可能涉及分散式鎖、訊息佇列、共識演算法等，以確保資料一致性、任務進度同步和故障處理。例如，在分散式深度學習訓練中，各個節點需要定期交換模型參數更新。
5.  **自動擴展 (Auto-scaling)**：現代雲端環境通常提供自動擴展功能。監控系統會根據預設的指標（如CPU利用率、記憶體消耗、請求佇列長度）自動增加或減少節點數量，以動態適應工作負載的變化，最佳化資源利用率並降低成本。

## 實際應用
水平擴展在AI領域的實際應用非常廣泛，是構建高效、可靠和可擴展AI系統的基石：

1.  **大規模深度學習模型訓練**：訓練大型語言模型（LLM）或複雜的電腦視覺模型需要巨大的計算資源。透過水平擴展，可以將模型參數或訓練資料分散到數百甚至數千個GPU或TPU節點上進行並行訓練，顯著縮短訓練時間。例如，使用PyTorch Distributed、TensorFlow Distributed等框架實現分散式訓練。
2.  **高併發AI推論服務**：部署面向數百萬使用者的AI服務（如推薦系統、語音助理、即時翻譯）需要處理大量的併發推論請求。透過將推論服務部署到多個無狀態的節點上，並結合負載平衡器，可以有效分散請求，確保低延遲和高吞吐量。例如，使用Kubernetes管理多個模型服務容器。
3.  **大數據預處理與特徵工程**：在AI模型訓練前，通常需要對原始資料進行大規模的清洗、轉換和特徵提取。這些任務可以透過Apache Spark、Dask等分散式計算框架，在水平擴展的叢集上並行執行，顯著加快資料準備速度。
4.  **即時AI監控與異常偵測**：對於需要即時處理串流資料的AI應用，例如網路安全入侵偵測、工業設備故障預測，水平擴展的串流處理平台（如Apache Kafka、Apache Flink）可以處理高吞吐量的資料流，並在多個節點上並行執行AI模型進行即時分析。
5.  **聯邦學習與邊緣AI**：在聯邦學習中，多個邊緣設備或組織在本地訓練模型，並將模型更新匯總到中央伺服器。中央伺服器需要水平擴展以處理來自大量客戶端的模型更新聚合。邊緣AI部署也可能需要水平擴展來管理和協調大量邊緣設備上的AI模型。

## 常見誤區
1.  **誤以為所有應用都適合水平擴展**：並非所有應用都能從水平擴展中受益。對於那些本質上是單執行緒、狀態高度耦合或難以分解為並行子任務的應用，水平擴展可能帶來更多的複雜性和開銷，而性能提升有限。
2.  **忽略資料一致性問題**：在分散式系統中，尤其是在資料寫入操作頻繁的場景下，維護資料一致性是一個複雜的挑戰。如果沒有妥善的資料分區策略和一致性協議，水平擴展可能導致資料不一致或競態條件。
3.  **過度設計或過早最佳化**：在系統初期就過度設計為高度水平擴展的架構，可能導致不必要的複雜性和成本。應根據實際需求和預期增長逐步引入水平擴展，避免過早最佳化。
4.  **忽略網路延遲和通訊開銷**：雖然水平擴展增加了計算資源，但節點之間的通訊和資料傳輸會引入網路延遲。在某些計算密集型且通訊頻繁的AI任務中（如某些分散式訓練策略），過多的通訊開銷可能抵消並行計算帶來的收益。

## 與相關技術的比較
1.  **與垂直擴展 (Vertical Scaling) 的比較**：垂直擴展是透過增加單一伺服器的資源（如CPU核心數、記憶體容量）來提升性能。其優點是管理簡單，但存在單點故障風險，且擴展能力有物理上限。水平擴展則透過增加伺服器數量來擴展，具有更高的可用性、容錯能力和幾乎無限的擴展潛力，但管理複雜度較高，且需要應用程式具備分散式處理能力。在AI領域，對於需要極致性能的單一任務（如單機大模型訓練），垂直擴展仍有其價值，但對於大規模、高併發的AI服務，水平擴展是更常見的選擇。
2.  **與微服務架構 (Microservices Architecture) 的比較**：微服務架構是一種將單體應用程式分解為一系列小型、獨立、可獨立部署服務的架構風格。每個微服務都可以獨立地進行水平擴展。因此，微服務架構是實現水平擴展的常見方式之一，但水平擴展本身是一個更廣泛的概念，不限於微服務。一個單體應用程式也可以透過複製多個實例並使用負載平衡器來實現水平擴展。
3.  **與雲端運算 (Cloud Computing) 的比較**：雲端運算平台（如AWS、Azure、GCP）提供了按需分配的虛擬機、容器服務和自動擴展功能，極大地簡化了水平擴展的實施和管理。雲端環境的彈性資源使得AI團隊可以輕鬆地根據工作負載變化快速增減計算節點，無需預先購買和維護大量硬體。可以說，雲端運算為水平擴展提供了理想的基礎設施和工具集，兩者相輔相成，共同推動了現代AI系統的發展。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 水平擴展如何影響AI模型訓練的效率和成本？

水平擴展對AI模型訓練的效率和成本有顯著影響。在效率方面，透過將訓練任務分散到多個計算節點，可以大幅縮短大型模型的訓練時間，尤其對於資料並行或模型並行策略。這使得研究人員和開發者能更快地迭代模型、嘗試更多超參數組合。在成本方面，水平擴展允許按需分配資源，當訓練任務結束時可以釋放節點，避免資源閒置。然而，也可能引入額外的通訊開銷和管理複雜性，若設計不當，這些開銷可能抵消部分效率收益。總體而言，合理的水平擴展策略能有效提升訓練效率，並在長期運營中最佳化資源利用，降低總體擁有成本。

### 對於水平擴展的AI系統，有哪些重要的安全考量？

對於水平擴展的AI系統，安全考量變得更為複雜。首先是節點間通訊安全，需要確保資料在各節點間傳輸時加密，防止中間人攻擊。其次是身份驗證和授權，每個新增的節點都必須經過嚴格的身份驗證才能加入叢集，並僅被授予執行其任務所需的最小權限。此外，分散式系統的攻擊面更大，任何一個節點的漏洞都可能被利用來滲透整個系統。因此，需要實施強大的網路隔離、端點安全、日誌監控和入侵偵測機制。資料一致性和完整性在多節點環境中也需特別關注，以防資料被篡改或洩露。這些安全措施對於維護AI系統的信任和負責任運行至關重要。

### 在AI應用中，何時會優先選擇水平擴展而非垂直擴展？

在AI應用中，當面臨以下情況時，通常會優先選擇水平擴展而非垂直擴展：一是需要處理極大規模的資料集或模型，單一機器的資源已無法滿足；二是需要支援高併發的AI推論請求，要求系統具備高吞吐量和低延遲；三是追求高可用性和容錯能力，希望即使部分節點故障也不影響整體服務；四是需要彈性地根據工作負載變化自動調整資源，以最佳化成本。例如，訓練大型語言模型、部署全球性的推薦系統或處理即時串流資料的AI應用，都極度依賴水平擴展來實現其性能、可靠性和可擴展性需求。垂直擴展雖簡單，但有物理上限且存在單點故障風險，難以滿足現代AI應用的規模和彈性要求。

---

深度解說頁：https://aiterms.tw/learning/what-is-horizontal-scaling
快查頁：https://aiterms.tw/terms/horizontal-scaling
最後更新：2026/07/04