在優化器中,哪一個方法會自動調整每個參數的學習率,特別適用於稀疏資料?

iPAS 考題解析

在優化器中,哪一個方法會自動調整每個參數的學習率,特別適用於稀疏資料?

  • A. Momentum
  • B. Adagrad ✓ 正確答案
  • C. Adam
  • D. SGD

詳細解析

Adagrad(Adaptive Gradient Algorithm)對每個參數累積歷史梯度的平方,使更新頻繁的參數(稠密特徵)學習率降低,更新稀少的參數(稀疏特徵)學習率保持較高,特別適用於稀疏資料(如 NLP 的詞嵌入)。Adam 也有自適應學習率但不是特別針對稀疏資料設計。

出題年份:114 難度:★★☆