---
title: "寬與深模型（Wide and Deep）"
slug: wide-and-deep
language: zh-TW
source: https://aiterms.tw/terms/wide-and-deep
updated_at: 2026-07-04
tags: [神經網路, 推薦系統, 機器學習, source:ipas]
ipas_term: true
---

# 寬與深模型（Wide and Deep）

結合廣義線性模型與深度神經網路的混合機器學習架構，同時具備記憶歷史特徵組合能力與推廣未見特徵能力的優勢。

## 完整說明

寬與深模型是一種結合線性模型（寬側）與深度神經網路（深側）的混合機器學習架構，用於解決推薦系統中記憶性與泛化性難以兼顧的問題，能夠同時學習特徵的頻繁共現模式並探索新的特徵組合，常見應用包括應用程式商店推薦、電子商務商品排序以及數位廣告點擊率預估。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 寬與深模型在訓練時，兩側的優化器需要分開設置嗎？

是的，實務上寬側和深側通常會配置不同的優化器。因為這兩側的數學特性與學習目標存在顯著差異。寬側處理的是高維度的稀疏特徵，為了在生產環境中降低模型的記憶體佔用與提升推理速度，通常會希望寬側的權重矩陣具備稀疏性。因此，寬側常採用 FTRL 等帶有 L1 正規化的優化器來促使權重歸零。相對地，深側主要處理稠密的嵌入向量與多層非線性轉換，網路結構較深，常面臨梯度難以有效傳遞的問題。因此，深側多使用 AdaGrad 或 Adam 等基於動量的適應性學習率優化器，以確保神經網路能夠穩定且高效地收斂。若使用單一優化器，往往無法同時兼顧兩側的優化需求，導致整體模型效能下降。

### 如何決定哪些特徵應該輸入到寬側，哪些特徵應該輸入到深側？

特徵分配的策略主要取決於特徵的物理意義以及系統設計者希望模型學習的模式。寬側的核心任務是記憶，因此適合輸入那些具有強烈業務規則、明確因果關係或歷史上頻繁共現的特徵組合。例如，使用者過去購買過的特定品牌與當前瀏覽的特定商品類別的交叉特徵，就非常適合放在寬側，讓模型直接記住這種強關聯。深側的核心任務是泛化，擅長處理高維度且稀疏的單一類別型特徵以及連續型數值特徵。這些特徵透過嵌入層轉換後，能在潛在空間中學習到相似性，幫助模型對未曾見過的組合進行推斷。同一個原始特徵完全可以同時參與寬側的交叉規則組合與深側的嵌入表示，兩側的輸入特徵集合並不互斥。

### 寬與深模型與後續發展的 DeepFM 模型有何關鍵差異？

這兩者的主要差異在於寬側結構的設計以及對特徵工程的依賴程度。在原始的寬與深模型中，寬側通常是一個廣義線性模型，這意味著它高度依賴顯式的人工特徵交叉來捕捉特徵之間的二階或高階關係。如果沒有人工介入設計交叉特徵，寬側就只能處理一階的線性關係。而 DeepFM 模型針對此點進行了結構上的改進，將寬側直接替換為因子分解機。因子分解機透過計算特徵向量之間的內積，能夠自動學習並捕捉所有特徵的二階交互作用，無需依賴繁重的人工特徵工程。此外，DeepFM 的架構設計允許其因子分解機部分與深度神經網路部分共享特徵的嵌入向量，進一步提升了訓練效率與特徵表示的品質。

---

來源：https://aiterms.tw/terms/wide-and-deep
快查頁：https://aiterms.tw/terms/wide-and-deep
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-wide-and-deep