某企業以詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)方法分析顧客意見內容,但發現模型在處理篇幅較長的回饋文本時,無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因?

iPAS 考題解析

某企業以詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)方法分析顧客意見內容,但發現模型在處理篇幅較長的回饋文本時,無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因?

  • A. 長文本中的詞頻偏高,導致常見詞權重被過度放大 ✓ 正確答案
  • B. 長文本中缺乏明確句子邊界,造成TF-IDF無法計算詞頻
  • C. TF-IDF無法同時處理多份文件
  • D. 長文本會改變IDF(Inverse Document Frequency)的計算,使所有詞權重趨於相近

詳細解析

在長文本中,詞語出現次數自然偏高,TF值被放大,使得高頻的常見詞(如「的」、「是」)獲得不成比例的高權重,掩蓋了真正有辨別力的關鍵詞。

出題年份:114 難度:★★☆