---
title: "水平擴展（Scale Out）"
slug: scale-out
language: zh-TW
source: https://aiterms.tw/learning/what-is-scale-out
updated_at: 2026-07-04
tags: [模型部署, MLOps, 模型訓練, source:ipas]
ipas_term: true
type: deep-dive
---

# 水平擴展 是什麼？

> 水平擴展是透過增加伺服器節點來分散系統負載的架構策略，常用於提升模型部署與分散式運算的處理能力。

## 核心概念
水平擴展是現代分散式系統與機器學習基礎架構中極為關鍵的設計思維。隨著人工智慧模型的參數量與資料處理需求呈現指數級的成長，單一伺服器的硬體規格終究會面臨物理極限，難以單靠提升單機設備來滿足運算要求。水平擴展的理念在於將龐大的運算任務或大量的服務請求，拆分並分散到多個規格相對普通的運算節點上同時執行，藉由集合多台機器的資源來共同分擔整體系統的工作負載。這種設計打破了單一硬體的效能天花板，為系統帶來了極佳的彈性與可用性。在人工智慧與資料科學領域，水平擴展讓訓練超大型神經網路與部署高併發推論服務成為現實。相較於早期依賴添購昂貴高階伺服器的做法，水平擴展透過軟體層面的協定與資源調度，將多個獨立的運算資源整合成一個龐大的叢集，為應用程式提供豐富的資源池。

在機器學習模型營運的脈絡下，水平擴展貫穿了從資料前處理、模型訓練到最終上線推論的每一個環節。開發團隊可以根據當下的負載情況，動態地增加或減少叢集中的節點數量。當使用者請求激增時，系統自動啟動新的節點加入服務行列；當流量減少時，則將多餘的節點關閉以節省基礎設施成本。這種高度自動化與動態的資源配置方式，大幅提升了整體維運的靈活性。

## 運作原理
水平擴展的運作依賴多個分散式系統元件的緊密配合。首先，任務排程機制扮演著大腦的角色，負責將宏觀的運算任務拆解成多個可獨立執行的子任務。在模型訓練情境中，這牽涉到資料平行或模型平行的策略。資料平行是將龐大的訓練資料集切割成多個小批次，分配給不同的運算節點進行梯度計算，最後再同步更新所有節點的模型權重。模型平行則是針對參數量過大的模型，將其不同層次或部分分佈到多個節點上，每個節點負責計算特定部分，並在傳播過程中交換中間結果。

其次，負載平衡器是水平擴展系統對外提供服務的關鍵入口。在模型部署階段，負載平衡器接收來自客戶端的所有請求，並根據特定的演算法將這些任務分發到後端叢集中的可用節點。常見的演算法包含輪詢、最少連線數以及基於節點當前資源使用率的動態分配。負載平衡器同時具備健康檢查機制，持續監控後端節點的運作狀態。若偵測到節點異常，便會自動將後續請求重定向至其他健康節點，確保服務穩定。

資料一致性與狀態管理也是必須解決的難題。對於無狀態的應用程式，水平擴展相對容易，因為任何節點都可以獨立處理任何請求。但在許多實際的機器學習應用中，系統需要記住使用者的歷史狀態。為此，架構師通常會引入分散式快取系統或高效能資料庫集中儲存會話狀態，讓所有運算節點都能快速存取與更新共享資料，從而實現有狀態服務的水平擴充。

此外，容器化技術與編排平台提供了標準化的執行環境與自動化管理能力。將模型及其相依套件打包成標準容器，確保了在不同節點上的執行一致性。容器編排平台則能根據處理器或記憶體的使用率閾值，自動進行擴容與縮容，大幅降低維護分散式叢集的營運負擔。

## 實際應用
在模型生命週期與部署的實際場景中，水平擴展的應用極為廣泛。大型服務面對全球海量使用者的存取時，高度依賴此架構來支撐背後龐大的推論服務。以生成式語言模型的線上服務為例，當大量對話請求湧入時，單一伺服器的記憶體與運算能力會迅速飽和。此時，系統會自動在雲端啟動數十個推論節點，前方的路由器將請求均勻分發。這種架構讓系統能應對突發性的流量洪峰，確保使用者在合理延遲內獲得回應。

在電腦視覺領域，例如即時影像監控與分析系統，需要同時處理來自成千上萬個攝影機的高畫質串流。透過水平擴展，系統可以將不同攝影機的資料分配給不同的影片處理節點。如果區域攝影機數量增加，管理者只需將新節點加入運算叢集，就能無縫擴充整體的分析能力，無須對現有架構進行大幅修改。

推薦系統同樣高度依賴水平擴展。電子商務平台的推薦引擎必須在幾十毫秒內，從數百萬商品中篩選出符合使用者偏好的內容，這涉及大量的向量相似度搜尋與排序運算。為滿足高吞吐量與低延遲，推薦系統的後端通常部署成包含眾多節點的大型叢集。特徵庫與推論模型經過分片與擴展，讓系統能並行處理海量的並發請求。

在模型訓練階段，特別是對於百億參數規模的大型模型，水平擴展不可或缺。這些模型的訓練資料集極其龐大，若僅依賴單台伺服器，將耗費漫長時間。透過建構超級運算叢集，將訓練任務水平擴展到數量龐大的加速器上，採用綜合的分散式策略，能將訓練時間大幅縮短。

## 常見誤區
許多人在規劃系統架構時，容易對水平擴展產生觀念上的誤解。其中最常見的誤區是認為系統效能會隨著節點數量的增加而呈現完美的線性成長。實際上，在分散式系統中，節點間的網路通訊延遲、資料同步開銷以及任務排程的額外負擔，都會隨著叢集擴大而增加。當節點數量達到一定程度後，這些系統開銷甚至可能超過新增節點帶來的運算收益，導致整體效能增長趨緩。因此，進行水平擴展時必須同時優化網路架構與分散式演算法，以降低通訊成本。

另一個常見迷思是認為只要實作了水平擴展，系統便能容忍任何故障。雖然增加節點確實提升了硬體層面的容錯能力，但若系統架構中存在單點故障的軟體元件，例如單一的任務調度中心，一旦該元件發生異常，整個叢集仍會停擺。高度可用的架構需要考量各層級的容錯機制，包括資料的冗餘備份與自動化的故障切換。

有時開發團隊會認為增加節點可以解決所有效能問題，而忽略了應用程式本身的程式碼優化。如果應用程式存在嚴重的資源浪費或查詢效能低落，單純增加節點只是掩蓋問題。在進行大規模擴展前，應先確保模型推理程式碼的效率與底層運算函式庫的充分利用。

最後，將有狀態的傳統應用程式直接進行水平擴展往往會遭遇困難。若架構設計將會話狀態直接儲存在本地記憶體中，將其擴展成多個節點後，不同請求被分發到不同伺服器會導致狀態無法延續。必須對應用程式進行改造，將狀態資料抽離至專門的分散式儲存系統。

## 與相關技術的比較
探討系統擴充策略時，經常將水平擴展與垂直擴展進行對比。垂直擴展是指透過升級單一伺服器的硬體規格來提升效能，例如增加核心數或擴充記憶體。其優點在於架構簡單，應用程式通常不需修改即可受惠。它也不需處理複雜的網路通訊與資料同步問題。然而，其缺點在於硬體升級存在物理極限，且高階伺服器價格昂貴，成本效益隨規模擴大而遞減。此外，垂直擴展無法解決單點故障風險。

相較之下，水平擴展透過組合大量商用伺服器建構叢集，擴充能力極為強大，能彈性應對爆發性的運算需求。透過分散式架構與冗餘設計，它能提供極高的系統可用性。然而，這帶來了系統複雜度的顯著提升，需要引入負載平衡、容器編排等基礎設施元件。應用程式也必須遵循分散式架構的設計原則進行開發。在雲端架構實務中，通常會結合這兩種策略，在單節點成本效益達到臨界點前先進行垂直擴展，後續再透過水平擴展滿足更大規模需求。

微服務架構與水平擴展有著密切關係。微服務架構將龐大應用程式拆解成獨立部署的小型服務，每個服務可根據自身資源需求獨立進行水平擴展。這讓資源配置更加精細高效。例如特定高流量服務可擴展至數百節點，而低流量服務只需少數節點。結合微服務，系統能精準分配運算資源。

在虛擬化與容器技術的發展下，水平擴展實作方式持續演進。早期多依賴虛擬機器，啟動新節點需耗費較長時間。隨著容器技術普及，應用程式打包成輕量級映像檔，啟動時間大幅縮短。結合現代容器編排平台，可以實現極為迅速的動態擴容與縮容，讓系統更精確地貼合實際業務負載變化，提高基礎設施利用率並降低營運負擔。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 水平擴展在機器學習模型訓練中有哪些具體挑戰？

在進行分散式模型訓練時，水平擴展面臨的最大挑戰是節點間的通訊瓶頸。採用資料平行或模型平行策略會需要頻繁地在伺服器間傳遞梯度與權重資訊。若網路頻寬不足，運算單元將耗費大量時間等待資料同步，導致整體訓練效率大幅下降。此外，多節點環境下的故障機率也隨之增加，系統必須具備完善的容錯與檢查點機制，確保單一節點崩潰時能迅速恢復，避免龐大運算成本付諸流水。

### 如何決定系統應該進行水平擴展還是垂直擴展？

選擇擴充策略應綜合考量成本、架構複雜度與系統極限。當系統效能遭遇瓶頸，且單機硬體升級成本仍在合理範圍，無需修改程式架構時，垂直擴展是快速有效的解法。然而，若單點故障風險不可接受，或業務量將超越最高階伺服器的物理極限，就必須導入水平擴展。儘管初期建置成本高且需處理分散式系統的複雜性，但它能提供近乎無上限的擴充彈性與極高的可用性，是大型應用的必經之路。

### 水平擴展如何與雲端原生環境中的無伺服器架構結合？

在雲端原生環境中，水平擴展與無伺服器運算展現了極佳的互補性。無伺服器平台將底層硬體管理完全抽象化，開發者只需關注模型邏輯。當推論服務部署於此時，平台會根據即時的請求流量，自動在毫秒內動態啟動對應數量的運算實例來處理負載，實現極致的水平擴展。當流量歸零時，系統更可縮容至零以消除閒置成本。這種結合大幅降低了維運門檻，特別適合處理突發性極高的人工智慧 API 服務。

---

深度解說頁：https://aiterms.tw/learning/what-is-scale-out
快查頁：https://aiterms.tw/terms/scale-out
最後更新：2026/07/04