TF-IDF 在處理長文本時的主要問題為何?

iPAS 考題解析

TF-IDF 在處理長文本時的主要問題為何?

  • A. 詞頻偏高導致常見詞權重過大 ✓ 正確答案
  • B. 缺乏句子邊界識別能力
  • C. 無法同時處理多份文件
  • D. IDF 計算方式會因文本長度而改變

詳細解析

長文本中,某些常見詞(如「的」、「是」)出現次數很多,TF(詞頻)會偏高,導致這些不太重要的詞反而獲得過大的權重,影響分析結果。

難度:★★★