---
title: "檢查點機制（Checkpointing）"
slug: checkpointing
language: zh-TW
source: https://aiterms.tw/terms/checkpointing
updated_at: 2026-07-04
tags: [模型訓練, 模型部署, MLOps, source:ipas]
ipas_term: true
---

# 檢查點機制（Checkpointing）

在模型訓練過程中定期儲存模型狀態與權重的技術，可防止意外中斷導致進度遺失，並便於後續推論或微調。

## 完整說明

檢查點機制是一種在機器學習模型訓練期間定期將參數及優化器狀態儲存至硬碟的技術，用於防止硬體故障造成的資料遺失，並能夠支援從特定階段接續訓練，常見應用包括大型語言模型預訓練與分散式機器學習。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### Checkpointing 應該多久執行一次比較合適？

儲存頻率取決於計算資源、儲存空間以及模型訓練的穩定性。一般來說，在小型任務中可能會在每個資料走訪週期結束時儲存一次，以確保資料不遺失。而對於需要數天或數週的大型語言模型訓練，通常會依據迭代步數來設定，例如每幾千步寫入一次硬碟。頻繁儲存可以顯著減少意外中斷時的進度損失，但會增加磁碟讀寫負擔並佔用大量空間，因此實務上常會搭配保留最近三個或五個檢查點的輪替刪除策略，以平衡容錯需求與儲存成本。

### 儲存檢查點時只儲存模型權重足夠嗎？

若只是為了後續的推論任務，單純儲存模型參數與權重是足夠的。但若是要在未來接續未完成的訓練，則必須同時儲存優化器的狀態、學習率排程器的當前進度、整體的訓練步數與週期等關鍵中繼資料。若遺漏這些狀態，恢復訓練時優化器的動量等歷史資訊會直接歸零，這可能導致訓練初期的損失函數出現劇烈波動，甚至使模型偏離原本預期的理想收斂軌跡。

### 為什麼在分散式訓練中儲存檢查點特別困難？

在多 GPU 或多節點的分散式訓練中，模型參數可能被分割並儲存在不同的運算設備上，例如採用張量平行或管線平行架構。若讓所有節點同時將各自負責的參數區塊寫入同一個網路儲存系統，會引發嚴重的網路頻寬阻塞與檔案寫入延遲。因此，通常需要設計特殊的非同步分散儲存機制，或是讓每個節點先快速寫入局部儲存，後續再由背景程式進行全域合併。

---

來源：https://aiterms.tw/terms/checkpointing
快查頁：https://aiterms.tw/terms/checkpointing
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-checkpointing