---
title: "頻率編碼（Frequency Encoding）"
slug: frequency-encoding
language: zh-TW
source: https://aiterms.tw/terms/frequency-encoding
updated_at: 2026-07-04
tags: [機器學習, 資料處理, 特徵工程, 模型訓練, source:ipas]
ipas_term: true
---

# 頻率編碼（Frequency Encoding）

將類別特徵轉換為其在資料集中出現的頻率或計數，以捕捉資訊並降低維度。

## 完整說明

頻率編碼是一種特徵工程技術，用於將類別型資料轉換為數值型表示，能夠反映每個類別值在資料集中出現的頻率或計數。常見應用包括處理高基數類別特徵，以改善機器學習模型的效能，避免獨熱編碼帶來的維度災難。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 頻率編碼與獨熱編碼有何不同？

頻率編碼與獨熱編碼的主要區別在於維度削減和資訊保留方式。獨熱編碼為每個唯一類別創建一個新的二進位特徵列，在高基數特徵時會導致維度爆炸，生成大量稀疏特徵。而頻率編碼將類別替換為其出現的頻率或計數，只生成一個數值特徵，顯著降低了維度。獨熱編碼完全保留了類別的獨立性，而頻率編碼則將類別的流行度資訊融入其中。選擇哪種方法取決於特徵的基數、模型對維度的敏感度以及頻率資訊是否對預測有益。

### 頻率編碼如何處理未曾見過的類別值？

在頻率編碼中，處理未曾見過的類別值（即在訓練集中未出現但在測試集或新資料中出現的類別）是一個重要考量。常見的做法是將這些未知類別賦予一個預設值。這個預設值可以是0、訓練集中所有類別的平均頻率、或者訓練集中最常見類別的頻率。另一種策略是將所有稀有或未知類別合併到一個「其他」類別中，並計算該「其他」類別的頻率。關鍵在於確保在訓練集上建立的頻率映射能夠一致地應用於所有新資料，避免資訊洩漏。

### 使用頻率編碼時有哪些潛在風險？

使用頻率編碼時存在幾個潛在風險。首先是資訊洩漏，如果在計算頻率時使用了測試集資料，會導致模型評估過於樂觀。其次是過擬合，模型可能過度依賴訓練集中某些高頻類別的特定模式，導致泛化能力差。再者是區分度不足，如果多個不同的類別具有相同的頻率，模型將無法區分它們，可能導致資訊損失。此外，對於稀有類別，其頻率值可能不穩定或不具代表性。建議使用交叉驗證來評估模型，並考慮結合其他編碼方法來緩解這些風險。

---

來源：https://aiterms.tw/terms/frequency-encoding
快查頁：https://aiterms.tw/terms/frequency-encoding
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-frequency-encoding