TF-IDF(Term Frequency-Inverse Document Frequency)是什麼?

衡量一個詞對文件的重要性:在這篇文件中出現多(TF 高)但在其他文件中少見(IDF 高)的詞最重要|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

英文
Term Frequency-Inverse Document Frequency
主題標籤
自然語言處理、特徵工程、資料處理
考點定位
非 iPAS 核心術語
最後更新
2026/06/17
TF-IDF(Term Frequency-Inverse Document Frequency)是什麼? 自然語言處理特徵工程
術語快查

搜尋意圖: 如果你在找「TF-IDF 是什麼」或「TF-IDF 和相近概念差在哪」,先看這頁的短定義、完整說明與延伸比較。

TL;DR: 衡量一個詞對文件的重要性:在這篇文件中出現多(TF 高)但在其他文件中少見(IDF 高)的詞最重要

實用情境: 適合用在閱讀 AI 文章、產品文件或和同事討論時,先用一頁快速對齊概念。

下一步: 先讀完定義,再往下看延伸比較與對應工具,把概念轉成實際應用。

你有沒有想過,文字送進模型前,為什麼總要先切一刀、再整理一下?

你可以把它想成把文字整理成模型看得懂的單位。 TF-IDF 的重點是 衡量一個詞對文件的重要性:在這篇文件中出現多(TF 高)但在其他文件中少見(IDF 高)的詞最重要 它重要,是因為後面的分類、摘要、搜尋或生成,幾乎都靠這一步打底。

容易混淆

TF-IDF vs 詞袋模型 TF-IDF:偏向 把文字整理成模型可用的單位 詞袋模型:偏向 只看詞出現,不看順序 最關鍵的區別:TF-IDF看的是「把文字整理成模型可用的單位」,詞袋模型看的是「只看詞出現,不看順序」。

TF-IDF vs 餘弦相似度 TF-IDF:偏向 把文字整理成模型可用的單位 餘弦相似度:偏向 衡量向量角度的相似度 最關鍵的區別:TF-IDF看的是「把文字整理成模型可用的單位」,餘弦相似度看的是「衡量向量角度的相似度」。

記住這句就好

先切文字,再談語意。

實際案例

案例:客服信件先做詞幹或子詞切分 再送進分類模型,比直接硬吃原文更穩

案例:長篇會議紀錄先做摘要 管理者不用看完整文章,也能抓到重點

算法與應用

先把詞、子詞或詞幹整理好,模型才有穩定輸入 文字表示方法不同,後面的分類和搜尋效果會差很多 常見任務是分類、摘要、翻譯和關鍵詞萃取

情境判斷

Q1(直覺題): 你要把一堆客服留言分成抱怨、詢問和稱讚,應該先做什麼? → 先把文字切成模型能處理的單位,再做分類。

Q2(判斷題): 遇到超長中文句子和很多新詞時,還能沿用同一種切法嗎? → 看情況,切分方式要跟語言和任務一起調,不然效果可能會掉。

常見問題

這類方法一定要先分詞嗎?

不一定,但大多數流程都需要某種切分或標記,否則模型很難穩定處理文字。

它和單純看詞頻有什麼不同?

它不只看出現次數,也會看字詞組合、子詞或上下文,能更接近語意。

什麼時候最容易出錯?

遇到新詞、長詞、專有名詞或多語混雜文本時,切分和表示方式最容易影響結果。