特徵縮放（Feature Scaling）｜AI 術語定義

核心概念

特徵縮放的核心概念是將不同尺度或範圍的特徵值轉換到一個共同的尺度上，例如0到1之間或具有零均值和單位方差。這樣做的目的是為了確保所有特徵對模型的貢獻是平等的，避免某些特徵由於數值過大而主導模型的學習過程。

特徵縮放主要解決以下問題：

尺度不一致： 不同的特徵可能具有非常不同的尺度，例如，一個特徵的範圍可能在0到1之間，而另一個特徵的範圍可能在1000到10000之間。這種尺度不一致會導致模型對數值較大的特徵更加敏感。
距離計算： 許多機器學習演算法，如K近鄰(KNN)和K-means，依賴於距離計算。如果特徵的尺度不一致，距離計算會受到數值較大特徵的影響，導致不準確的結果。
梯度下降： 在使用梯度下降法進行模型訓練時，尺度不一致的特徵會導致梯度下降的收斂速度變慢，甚至無法收斂。

特徵縮放主要有兩種常見的方法：

Min-Max Scaling (最小-最大縮放):
- 公式： X_scaled = (X - X_min) / (X_max - X_min)
- 原理： 將特徵值縮放到0到1的範圍內。X_min是特徵的最小值，X_max是特徵的最大值。
- 優點： 簡單易懂，適用於資料範圍已知的情況。
- 缺點： 對異常值敏感，異常值會影響縮放後的範圍。
Standardization (標準化):
- 公式： X_scaled = (X - μ) / σ
- 原理： 將特徵值轉換為具有零均值和單位方差的分布。μ是特徵的均值，σ是特徵的標準差。
- 優點： 對異常值不敏感，適用於資料分布未知的情況。
- 缺點： 可能會將資料縮放到一個較大的範圍內。

除了以上兩種常見方法外，還有其他特徵縮放方法，例如：

選擇哪種特徵縮放方法取決於資料的特性和模型的需要。如果資料的範圍已知且對異常值不敏感，可以使用Min-Max Scaling。如果資料的分布未知或存在異常值，可以使用Standardization或Robust Scaling。

特徵縮放在許多機器學習應用中都非常重要，例如：

以下是一些具體的應用場景：

不需要對所有特徵進行縮放： 有些特徵可能已經具有相似的尺度，例如二元特徵（0或1）。對這些特徵進行縮放可能沒有必要，甚至會降低模型的效能。
在訓練集和測試集上使用不同的縮放參數： 必須使用訓練集上的縮放參數（例如均值和標準差）來縮放測試集。如果使用測試集上的縮放參數，會導致資料洩漏，影響模型的泛化能力。
忽略異常值： 異常值會影響特徵縮放的效果，特別是Min-Max Scaling。在進行特徵縮放之前，應該先處理異常值。
不理解不同縮放方法的適用場景： 不同的縮放方法適用於不同的資料特性。應該根據資料的特性選擇合適的縮放方法。
過度依賴特徵縮放： 特徵縮放只是一種資料前處理技術，不能解決所有問題。如果模型的效能不佳，應該首先檢查資料的品質和模型的設計。

總之，特徵縮放是機器學習中一個重要的資料前處理步驟。它可以提高模型的效能和準確性，並加速模型的訓練速度。但是，在使用特徵縮放時，需要注意一些常見的誤區，並根據資料的特性選擇合適的縮放方法。