在優化器中,哪一個方法會自動調整每個參數的學習率,特別適用於稀疏資料?
iPAS 考題解析
在優化器中,哪一個方法會自動調整每個參數的學習率,特別適用於稀疏資料?
- A. Momentum
- B. Adagrad ✓ 正確答案
- C. Adam
- D. SGD
詳細解析
Adagrad(Adaptive Gradient Algorithm)對每個參數累積歷史梯度的平方,使更新頻繁的參數(稠密特徵)學習率降低,更新稀少的參數(稀疏特徵)學習率保持較高,特別適用於稀疏資料(如 NLP 的詞嵌入)。Adam 也有自適應學習率但不是特別針對稀疏資料設計。
出題年份:114 難度:★★☆