什麼是 正規化(Normalization)?

正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。

核心概念

正規化的核心概念是將每個樣本的特徵向量轉換為單位向量。這意味著每個樣本的向量長度將被縮放到1。正規化主要解決以下問題:

  • 樣本尺度不一致: 不同的樣本可能具有非常不同的尺度,例如,一個樣本的所有特徵值都很大,而另一個樣本的所有特徵值都很小。這種尺度不一致會導致模型對數值較大的樣本更加敏感。
  • 方向比大小重要: 在某些應用中,特徵向量的方向比大小更重要。例如,在文本分類中,一個文件的詞頻向量的方向可能比詞頻的大小更重要。

正規化與特徵縮放的區別:

  • 正規化: 針對每個樣本進行操作,將每個樣本的特徵向量縮放到單位範數。
  • 特徵縮放: 針對每個特徵進行操作,將每個特徵的數值範圍縮放到一個共同的尺度。

運作原理

正規化主要有以下幾種常見的方法:

  1. L1 正規化 (L1 Normalization):

    • 公式: X_normalized = X / ||X||_1,其中||X||_1是X的L1範數,即所有元素的絕對值之和。
    • 原理: 將每個樣本的特徵向量除以其L1範數,使每個樣本的L1範數為1。
    • 優點: 可以產生稀疏的特徵向量,即許多元素的值為0。這對於特徵選擇和降低模型複雜度很有用。
    • 缺點: 對異常值敏感,異常值會影響正規化後的結果。
  2. L2 正規化 (L2 Normalization):

    • 公式: X_normalized = X / ||X||_2,其中||X||_2是X的L2範數,即所有元素的平方和的平方根。
    • 原理: 將每個樣本的特徵向量除以其L2範數,使每個樣本的L2範數為1。
    • 優點: 對異常值不敏感,適用於資料分布未知的情況。
    • 缺點: 不能產生稀疏的特徵向量。
  3. Max 正規化 (Max Normalization):

    • 公式: X_normalized = X / max(|X|),其中max(|X|)是X中所有元素絕對值的最大值。
    • 原理: 將每個樣本的特徵向量除以其絕對值的最大值,使每個樣本的最大絕對值為1。
    • 優點: 簡單易懂,適用於資料範圍已知的情況。
    • 缺點: 對異常值敏感,異常值會影響正規化後的範圍。

選擇哪種正規化方法取決於資料的特性和模型的需要。如果需要產生稀疏的特徵向量,可以使用L1 正規化。如果資料的分布未知或存在異常值,可以使用L2 正規化。

實際應用

正規化在許多機器學習應用中都非常重要,例如:

  • 文本分類: 將文本的詞頻向量正規化可以提高分類的準確性。
  • 圖像識別: 將圖像的像素值向量正規化可以提高識別的準確性。
  • 推薦系統: 將用戶的評分向量正規化可以提高推薦的準確性。
  • 聚類分析: 將資料點的特徵向量正規化可以提高聚類的準確性。

以下是一些具體的應用場景:

  • 新聞分類: 將新聞文章的詞頻向量正規化,可以提高新聞分類的準確性。
  • 人臉識別: 將人臉圖像的像素值向量正規化,可以提高人臉識別的準確性。
  • 電影推薦: 將用戶對電影的評分向量正規化,可以提高電影推薦的準確性。

常見誤區

  • 不需要對所有樣本進行正規化: 有些樣本可能已經具有相似的尺度。對這些樣本進行正規化可能沒有必要,甚至會降低模型的效能。
  • 混淆正規化和特徵縮放: 正規化是針對每個樣本進行操作,而特徵縮放是針對每個特徵進行操作。它們的目的和適用場景不同。
  • 忽略異常值: 異常值會影響正規化的效果,特別是L1 正規化和 Max 正規化。在進行正規化之前,應該先處理異常值。
  • 不理解不同正規化方法的適用場景: 不同的正規化方法適用於不同的資料特性。應該根據資料的特性選擇合適的正規化方法。
  • 過度依賴正規化: 正規化只是一種資料前處理技術,不能解決所有問題。如果模型的效能不佳,應該首先檢查資料的品質和模型的設計。

總之,正規化是機器學習中一個重要的資料前處理步驟。它可以提高模型的效能和準確性,並加速模型的訓練速度。但是,在使用正規化時,需要注意一些常見的誤區,並根據資料的特性選擇合適的正規化方法。

相關術語

常見問題

← 回到 正規化 快查頁

延伸學習

想看 正規化 的完整影片教學?前往 美第奇 AI 學院