競價型訓練是什麼？

Spot Instance Training — 競價型訓練的完整解釋

競價型訓練利用閒置的雲端運算資源，以大幅降低模型訓練成本，但可能因資源回收而中斷。

競價型訓練 vs 隨需型訓練

競價型訓練：便宜，但可能被中斷。

隨需型訓練：較貴，但穩定可用。

最關鍵的區別：一個省錢換風險，一個付錢換穩定。

願意接受中斷，就能用更便宜的算力訓練。

大模型預訓練會把 checkpoint 存好，資源被回收後再接著跑，這樣能降低整體成本。

研究團隊做大量實驗時，常把非即時任務排到競價型資源上跑。

核心不是模型架構，而是 checkpoint、容錯、排程和資源監控，讓中斷後可以快速恢復。

只要任務能接受波動，這種訓練方式通常比長期租用固定資源更省。

Q1（直覺題）： 你的訓練工作可以中斷後再續跑，這種資源有吸引力嗎？

→ 有，因為它最強的地方就是便宜。

Q2（判斷題）： 如果你正在做一個完全不能停的關鍵訓練，還適合用它嗎？

→ 不適合。看情況，穩定性要求高時，通常要改用更可靠的雲端方案。

常見問題

多數情況會，但前提是你能接受中斷，還要把恢復機制做好。

不會只要你有定期存 checkpoint，重新啟動後可以接著訓練。

可以容忍中斷、又需要大量算力的訓練或實驗任務最適合。