---
title: "二進位編碼（Binary Encoding）"
slug: binary-encoding
language: zh-TW
source: https://aiterms.tw/terms/binary-encoding
updated_at: 2026-07-04
tags: [機器學習, 資料處理, 特徵工程, 模型訓練, source:ipas]
ipas_term: true
---

# 二進位編碼（Binary Encoding）

將類別特徵映射為整數，再將這些整數轉換為其二進位表示的特徵工程方法。

## 完整說明

二進位編碼是一種特徵工程技術，首先將類別標籤轉換為整數索引，然後將這些整數轉換為其二進位表示，並將每個二進位位作為一個新的特徵列。它能夠有效減少高基數類別特徵的維度，同時保留足夠資訊以唯一識別每個類別，是獨熱編碼的替代方案。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 二進位編碼的主要優勢是什麼？

二進位編碼的主要優勢在於其高效的維度削減能力。對於具有大量唯一值的類別特徵，獨熱編碼會產生與類別數量相同的特徵列，導致維度災難和記憶體消耗過大。二進位編碼則將每個類別轉換為其整數表示的二進位形式，並將每個二進位位作為一個新特徵。這使得所需的特徵列數量大大減少，通常為 log2(N) 的數量級（N為類別數），從而有效降低了模型的複雜度和訓練成本，同時仍能唯一識別每個原始類別。

### 二進位編碼會引入序數關係嗎？

二進位編碼在概念上確實會引入一定程度的序數關係，儘管不如標籤編碼那樣直接。它首先將類別映射到整數，這個整數映射本身就帶有順序。雖然最終的二進位特徵是多個二進位位的組合，但這些位仍然是基於原始整數順序生成的。對於對距離敏感的模型（如線性模型、支持向量機），這種隱含的序數關係可能會誤導模型，使其錯誤地解釋類別之間的相似性或差異。因此，在使用二進位編碼時，應評估其對特定模型性能的影響。

### 如何選擇二進位編碼與獨熱編碼？

選擇二進位編碼或獨熱編碼主要取決於類別特徵的基數和模型的類型。如果類別特徵的基數較低（例如少於10-20個唯一值），獨熱編碼通常是更好的選擇，因為它完全保留了類別的獨立性且可解釋性強。然而，如果類別特徵的基數非常高，獨熱編碼會導致維度爆炸，此時二進位編碼是更優的選擇，因為它能顯著減少維度。對於樹型模型（如決策樹、隨機森林、XGBoost），它們對特徵之間的序數關係不敏感，因此獨熱編碼和二進位編碼可能表現相似，但二進位編碼仍能提供維度優勢。

---

來源：https://aiterms.tw/terms/binary-encoding
快查頁：https://aiterms.tw/terms/binary-encoding
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-binary-encoding