---
title: "逆向文件頻率（Inverse Document Frequency）"
slug: inverse-document-frequency
language: zh-TW
source: https://aiterms.tw/terms/inverse-document-frequency
updated_at: 2026-07-04
tags: [自然語言處理, 特徵工程, 資料處理, 統計方法, source:ipas]
ipas_term: true
---

# 逆向文件頻率（Inverse Document Frequency）

逆向文件頻率（IDF）是一種評估詞彙重要性的統計指標，用於降低常見詞彙權重並突顯罕見關鍵字。

## 完整說明

逆向文件頻率（IDF）是一種衡量詞語提供資訊量多寡的統計方法，用於評估一個詞彙在整個語料庫中的普遍程度。透過數學對數轉換，它能夠自動降低常見停用詞的權重，並突顯對特定文件具有區別力的核心關鍵字，常見應用包括搜尋引擎排名與特徵提取。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 為什麼 IDF 在計算時需要取對數？

在計算 IDF 時取對數，主要是為了平滑權重並縮小數值範圍。在大型語料庫中，文件總數與包含特定詞彙的文件數量之間的落差可能非常巨大。如果不進行對數轉換，極端罕見詞彙的權重會被過度放大，導致模型在訓練或預測時容易受到極端值的嚴重干擾而變得不穩定。對數轉換反映了資訊理論中的資訊量概念，能夠將極端龐大的比值壓縮到合理且平緩的區間，使特徵權重的分佈更加符合統計上的合理性，進而提升系統整體的穩健性。

### 如果一個詞從未在語料庫中出現，計算 IDF 時會發生什麼事？如何解決？

若一個詞彙未曾在作為背景的語料庫中出現過，其對應的文件頻率（df）數值將會是零。在傳統未經修改的 IDF 公式中，這會直接導致除以零的嚴重數學錯誤，造成程式崩潰或產生無法使用的無效數值。為了妥善處理這個工程問題，實務上通常會採用平滑技術。最常見的做法是在分母的文件頻率加上常數一，確保分母永遠大於零。這種做法不僅有效避免了運算錯誤的風險，也為那些極端罕見或全新出現的詞彙提供了一個相對合理的預設基礎權重。

### IDF 與 TF（詞頻）有什麼不同？為什麼它們經常被結合在一起使用？

TF（詞頻）衡量的是單一詞彙在特定單篇文章內部出現的頻率高低，它關注的是詞彙局部的活躍程度；而 IDF（逆向文件頻率）則是衡量該詞彙在整個語料庫中出現的普遍或罕見程度，反映其全域的區別能力。它們經常被結合形成著名的 TF-IDF 權重演算法，是因為單獨使用 TF 會讓常見且無意義的詞彙（如「的」、「是」）獲得過高的權重，而單獨使用 IDF 又無法區分詞彙在個別文件中的實際貢獻多寡。兩者相乘的機制能同時兼顧詞彙的出現頻率與整體鑑別度，提供更為精準客觀的特徵評估結果。

---

來源：https://aiterms.tw/terms/inverse-document-frequency
快查頁：https://aiterms.tw/terms/inverse-document-frequency
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-inverse-document-frequency