---
title: "寬與深模型（Wide and Deep）"
slug: wide-and-deep
language: zh-TW
source: https://aiterms.tw/learning/what-is-wide-and-deep
updated_at: 2026-07-04
tags: [神經網路, 推薦系統, 機器學習, source:ipas]
ipas_term: true
type: deep-dive
---

# 寬與深模型 是什麼？

> 結合廣義線性模型與深度神經網路的混合機器學習架構，同時具備記憶歷史特徵組合能力與推廣未見特徵能力的優勢。

## 核心概念
介紹寬與深模型提出的歷史背景與動機。在機器學習應用於推薦系統的早期階段，系統架構往往面臨兩個根本性的挑戰：記憶性（Memorization）與泛化性（Generalization）的權衡。記憶性指的是模型能夠精確記住過去歷史資料中，特徵之間頻繁共現的具體模式，並利用這些模式進行精確的推薦。泛化性則是模型基於特徵之間的隱含關聯性，推廣到過去訓練資料中未曾出現過的全新特徵組合上，從而發掘使用者潛在的興趣。傳統的線性模型，例如邏輯斯迴歸，透過構建大量的人工特徵交叉（Cross-product transformations），可以極好地解決記憶性問題。線性模型針對每個出現過的特徵組合分配權重，一旦該組合再次出現，模型能立即給出強烈的反應。然而，線性模型缺乏探索能力，對於資料集中未包含的組合特徵預測能力極差。另一方面，隨著深度學習技術的發展，深度神經網路被引入推薦系統。神經網路透過低維度的稠密嵌入矩陣（Dense embeddings）來學習特徵的抽象語意表示，具備極強的泛化能力。不過，深度模型的缺陷在於有時會過度泛化，將原本不相關的稀疏特徵映射到相近的向量空間，導致推薦結果缺乏精確性與關聯性。為了解決線性模型無法泛化與深度模型過度泛化的雙重困境，Google 的工程團隊在開發應用程式商店的推薦系統時，創造性地提出了將兩者架構融合的方案，即寬與深模型。這個混合架構的設計哲學在於：讓系統同時擁有線性模型精準的記憶能力，以及深度神經網路廣泛的泛化探索能力，藉由兩者的互補，達成整體推薦指標的提升。

## 運作原理
寬與深模型的網路架構由兩個並行的子網路組成：寬側（Wide Part）與深側（Deep Part），兩者在最終的輸出層進行匯合與聯合訓練（Joint Training）。理解其運作原理，必須分別解構這兩個部分。寬側本質上是一個廣義線性模型。在處理具有高度稀疏性的類別型特徵時，寬側嚴重依賴特徵的交叉轉換函數。特徵交叉的數學意義在於建立多個特徵同時發生時的聯合影響力。舉例而言，如果我們有一個特徵是使用者的國籍，另一個特徵是目標應用的語言，寬側可以透過一個特定的權重矩陣來記住某國籍使用者極度偏好某種語言應用的歷史統計規律。這種機制的優點是運算極度高效且可解釋性極強，缺點則是特徵工程成本高昂。深側則是一個標準的前饋多層感知機（Feed-forward Neural Network）。深側的主要輸入包含數值型特徵以及被轉換為低維度稠密向量的類別型特徵。對於高維度的稀疏特徵，深側會通過一個嵌入層（Embedding Layer），將其映射到一個連續的向量空間中。在網路的訓練過程中，這些嵌入向量會基於反向傳播的梯度不斷更新，從而學習到不同特徵之間的潛在相似性。隨後，這些稠密向量會與數值特徵串接（Concatenate），並通過多個非線性隱藏層（通常使用 ReLU 激勵函數）。隱藏層的作用是自動學習特徵之間複雜的高階非線性交互作用。因為嵌入向量的本質是連續的，深側網路能夠對訓練集中未出現的特徵組合產生非零的預測機率，賦予了模型強大的泛化推斷能力。在架構的頂層，寬側與深側的輸出會進行加權加總，並通過一個非線性轉換函數（在二元分類任務中通常為 Sigmoid 函數）來輸出最終的預測機率。聯合訓練的機制是整個架構的核心。與簡單的模型整合不同，聯合訓練要求在同一個損失函數的指導下，同時反向傳播並更新寬側的線性權重與深側的神經網路參數。實務中，為了適應兩側不同的數學性質，通常會配置不同的優化演算法。寬側會使用帶有 L1 正規化機制的優化器，以誘導權重矩陣產生稀疏解，大幅降低線上推論階段的記憶體消耗；深側則多採用適應性學習率的優化器，如 AdaGrad 或 Adam，來應對多層網路中複雜的非線性優化曲面。

## 實際應用
寬與深模型在工業界的推薦系統與預測系統中取得了廣泛的成功，特別適應於那些具備海量數據、極端特徵稀疏性且需要同時兼顧精確匹配與探索發現的業務場景。在應用程式商店的推薦模組中，該模型能有效提升用戶的下載轉化率。寬側能夠直接記憶用戶過去下載特定應用程式與當前推薦候選應用程式之間的強烈共現關係，這對於捕捉使用者的明確、具體偏好非常有效。同時，深側可以分析應用的分類標籤、發行商屬性、使用者的年齡分佈與設備型號等特徵的嵌入表示，發現使用者可能對某款全新上架的工具軟體感興趣，即便該軟體與使用者歷史下載紀錄在字面上毫無交集。在電子商務平台的商品推薦與搜尋結果排序中，系統面臨巨大的候選商品池。寬側能夠捕捉使用者的搜尋查詢詞與商品標題、品牌之間的精確字面匹配關係，確保高度相關的商品獲得基礎的排名保證。深側則透過學習使用者長期的瀏覽軌跡與商品多維度屬性的潛在語意空間，推薦出在語意上符合使用者深層需求但字面上不完全匹配的商品，例如在搜尋運動鞋時，預測使用者可能也會對特定款式的排汗襪產生購買意願。在數位廣告的點擊率預估任務中，準確評估每次曝光的點擊機率是廣告競價系統的核心。廣告特徵通常包含極度稀疏的上下文資訊、使用者設備特徵以及廣告本身的創意標籤。寬與深模型能夠整合這些異質資訊，利用寬側記住特定人口統計特徵群體對特定廣告創意的歷史點擊偏好，並利用深側挖掘不同上下文環境與使用者行為特徵之間的隱含交互關係，進而精細化點擊率的預測結果。此外，這種混合架構的設計理念也被廣泛移植到個人化新聞推播、串流媒體影片推薦、以及金融領域的信用風險評估等場景。只要業務問題的本質同時需要依賴歷史規則的嚴格匹配，以及對未知空間的合理推論，寬與深模型都能提供穩健且具擴展性的基礎架構解決方案。

## 常見誤區
在工程實踐中應用寬與深模型時，開發團隊經常會面臨一些認知或實作上的誤區，這些誤區會直接影響模型最終的線上效能。第一種典型的誤區在於特徵輸入的隔離性假設。部分從業者認為寬側和深側必須處理完全獨立、互斥的特徵集合。實務上，兩側的特徵輸入存在大量的重疊。寬側依賴的交叉特徵，其基礎原始特徵往往也會被映射為嵌入向量輸入到深側。模型設計的關鍵在於針對不同側的學習機制來轉換特徵型態，而非強制將特徵分配到單一側。例如，同一份歷史行為特徵，可以作為明確的交叉特徵輸入寬側，同時也可以透過池化操作後輸入深側學習語意。第二種誤區是將聯合訓練機制等同於傳統的機器學習模型整合策略。模型整合通常涉及訓練多個完全獨立的基學習器，最後在輸出端進行預測結果的加權融合。各個基學習器在訓練過程中對彼此是未知的。然而，寬與深模型的聯合訓練是在單一的計算圖中進行，兩側的參數在同一個梯度下降步驟中被同時更新。這種機制使得寬側能夠專注於擬合深側網路無法捕捉的殘差信號，兩者在優化過程中產生實質的互相約束與協同，達成更優的全局最小值。第三種誤區是因引入深度網路而徹底放棄寬側的特徵工程。雖然深側具備一定程度的自動特徵提取能力，但對於工業場景中某些高度確定、對業務指標影響巨大的明確規則，直接透過寬側的人工特徵交叉來進行記憶，依然是運算效率最高且最穩定的作法。若完全依賴深側去隱式學習這些明確規則，不僅會導致網路收斂速度變慢，還可能需要大幅增加網路的深度與寬度，進而增加線上推理的延遲成本。保留關鍵的人工交叉特徵給寬側，是確保系統底線效能的重要策略。第四種誤區是在模型訓練時忽視了兩側參數的優化異質性。寬側處理的主要是稀疏的線性權重，為了線上部署的效率，通常希望這些權重矩陣保持高度稀疏。深側處理的是稠密的網路參數，容易遭遇深層網路常見的梯度問題。如果在訓練時對整個架構採用單一的優化演算法，必然無法同時滿足稀疏性與非線性優化的需求。因此，為寬側配置具有稀疏約束的優化器，為深側配置基於動量的適應性優化器，是實作上的標準且必要的配置。

## 與相關技術的比較
在推薦系統架構演進的脈絡中，寬與深模型扮演著承先啟後的關鍵角色，將其與其他主流技術進行比較分析，可以更清晰地界定其技術邊界與優勢。與單純的邏輯斯迴歸模型相比，邏輯斯迴歸在結構上等同於剝離了深層網路的寬與深模型。邏輯斯迴歸具備極高的訓練效率與完美的模型可解釋性，但其根本缺陷在於無法處理訓練資料中未曾出現的特徵組合。它高度依賴演算法工程師投入大量時間去挖掘並建構有效的人工特徵交叉。寬與深模型透過深側的嵌入層與多層感知機，有效解決了邏輯斯迴歸缺乏泛化能力的問題，降低了人工介入特徵組合的繁重工作量。與單純的深度神經網路模型相比，純深度模型雖然在連續空間中擁有強大的表達與推斷能力，但當面對高度稀疏且呈現長尾分佈的類別型特徵時，極易陷入過度泛化的陷阱。神經網路可能會將毫無關聯的稀疏特徵映射到相近的潛在空間，導致產生不合理且缺乏相關性的推薦結果。寬與深模型透過寬側保留的線性規則記憶能力，對深側的過度推論起到了強制的校正與限制作用，確保了推薦結果在探索新奇性的同時，不會偏離基本的業務合理性。與因子分解機架構相比，因子分解機透過計算特徵隱向量的內積來自動提取特徵的二階交叉關係，這在很大程度上減輕了線性模型對人工特徵工程的依賴，並提升了對稀疏資料的處理能力。然而，標準的因子分解機受限於運算複雜度，難以有效模擬三階以上的高階複雜特徵關聯。在此基礎上演化出的 DeepFM 模型，本質上可以視為寬與深模型架構的一種進化分支。DeepFM 將傳統的線性寬側替換為因子分解機，這使得架構不僅透過深側保留了高階非線性關係的學習能力，同時寬側也能夠自動捕捉二階交叉資訊，進一步實現了端到端的自動特徵學習。與梯度提升決策樹等樹狀集成模型相比，樹模型擅長處理連續數值特徵並能自動進行特徵分裂與組合，但在面對維度動輒上百萬的稀疏類別特徵時，樹模型的記憶體消耗與訓練時間會呈指數級增加。寬與深模型透過嵌入技術能夠非常優雅且高效地降維處理稀疏特徵，並且原生支援基於串流數據的在線持續學習，這使其在處理大規模即時推薦場景時，相比於難以進行增量更新的樹模型具備顯著的工程優勢。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 寬與深模型在訓練時，兩側的優化器需要分開設置嗎？

是的，實務上寬側和深側通常會配置不同的優化器。因為這兩側的數學特性與學習目標存在顯著差異。寬側處理的是高維度的稀疏特徵，為了在生產環境中降低模型的記憶體佔用與提升推理速度，通常會希望寬側的權重矩陣具備稀疏性。因此，寬側常採用 FTRL 等帶有 L1 正規化的優化器來促使權重歸零。相對地，深側主要處理稠密的嵌入向量與多層非線性轉換，網路結構較深，常面臨梯度難以有效傳遞的問題。因此，深側多使用 AdaGrad 或 Adam 等基於動量的適應性學習率優化器，以確保神經網路能夠穩定且高效地收斂。若使用單一優化器，往往無法同時兼顧兩側的優化需求，導致整體模型效能下降。

### 如何決定哪些特徵應該輸入到寬側，哪些特徵應該輸入到深側？

特徵分配的策略主要取決於特徵的物理意義以及系統設計者希望模型學習的模式。寬側的核心任務是記憶，因此適合輸入那些具有強烈業務規則、明確因果關係或歷史上頻繁共現的特徵組合。例如，使用者過去購買過的特定品牌與當前瀏覽的特定商品類別的交叉特徵，就非常適合放在寬側，讓模型直接記住這種強關聯。深側的核心任務是泛化，擅長處理高維度且稀疏的單一類別型特徵以及連續型數值特徵。這些特徵透過嵌入層轉換後，能在潛在空間中學習到相似性，幫助模型對未曾見過的組合進行推斷。同一個原始特徵完全可以同時參與寬側的交叉規則組合與深側的嵌入表示，兩側的輸入特徵集合並不互斥。

### 寬與深模型與後續發展的 DeepFM 模型有何關鍵差異？

這兩者的主要差異在於寬側結構的設計以及對特徵工程的依賴程度。在原始的寬與深模型中，寬側通常是一個廣義線性模型，這意味著它高度依賴顯式的人工特徵交叉來捕捉特徵之間的二階或高階關係。如果沒有人工介入設計交叉特徵，寬側就只能處理一階的線性關係。而 DeepFM 模型針對此點進行了結構上的改進，將寬側直接替換為因子分解機。因子分解機透過計算特徵向量之間的內積，能夠自動學習並捕捉所有特徵的二階交互作用，無需依賴繁重的人工特徵工程。此外，DeepFM 的架構設計允許其因子分解機部分與深度神經網路部分共享特徵的嵌入向量，進一步提升了訓練效率與特徵表示的品質。

---

深度解說頁：https://aiterms.tw/learning/what-is-wide-and-deep
快查頁：https://aiterms.tw/terms/wide-and-deep
最後更新：2026/07/04