企業團隊在使用Word2Vec模型訓練客服文本語料時,若訓練資料量龐大且希望模型能更有效捕捉罕見詞的語意關聯,下列哪一種訓練策略最為適合?

iPAS 考題解析

企業團隊在使用Word2Vec模型訓練客服文本語料時,若訓練資料量龐大且希望模型能更有效捕捉罕見詞的語意關聯,下列哪一種訓練策略最為適合?

  • A. 採用Skip-gram模型,但以隨機初始化權重加快高頻詞的訓練收斂
  • B. 採用CBOW模型(Continuous Bag of Words Model)並結合TF-IDF權重以強化低頻詞表示
  • C. 採用Skip-gram模型,利用中心詞預測周圍詞語,能更有效學習低頻詞關聯 ✓ 正確答案
  • D. 採用CBOW模型(Continuous Bag of Words Model),利用周圍詞預測中心詞,能提升罕見詞的語意穩定度

詳細解析

Skip-gram以中心詞預測周圍詞,每個罕見詞被作為中心詞訓練,能積累足夠的更新信號;而CBOW以多個周圍詞的平均預測中心詞,對罕見詞(中心詞出現次數少)的訓練更新較少。因此Skip-gram對低頻詞有更好的表現。

出題年份:114 難度:★★☆