某企業以詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)方法分析顧客意見內容,但發現模型在處理篇幅較長的回饋文本時,無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因?
iPAS 考題解析
某企業以詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)方法分析顧客意見內容,但發現模型在處理篇幅較長的回饋文本時,無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因?
- A. 長文本中的詞頻偏高,導致常見詞權重被過度放大 ✓ 正確答案
- B. 長文本中缺乏明確句子邊界,造成TF-IDF無法計算詞頻
- C. TF-IDF無法同時處理多份文件
- D. 長文本會改變IDF(Inverse Document Frequency)的計算,使所有詞權重趨於相近
詳細解析
在長文本中,詞語出現次數自然偏高,TF值被放大,使得高頻的常見詞(如「的」、「是」)獲得不成比例的高權重,掩蓋了真正有辨別力的關鍵詞。
出題年份:114 難度:★★☆