在優化器中，哪一個方法會自動調整每個參數的學習率，特別適用於稀疏資料？

Question

Accepted Answer

B. Adagrad。Adagrad（Adaptive Gradient Algorithm）對每個參數累積歷史梯度的平方，使更新頻繁的參數（稠密特徵）學習率降低，更新稀少的參數（稀疏特徵）學習率保持較高，特別適用於稀疏資料（如 NLP 的詞嵌入）。Adam 也有自適應學習率但不是特別針對稀疏資料設計。

Answer

A. Momentum

Answer

B. Adagrad

Answer

C. Adam

Answer

D. SGD

iPAS 考題解析

詳細解析