---
title: "卷積運算（Convolution Operation）"
slug: convolution-operation
language: zh-TW
source: https://aiterms.tw/learning/what-is-convolution-operation
updated_at: 2026-07-04
tags: [電腦視覺, 深度學習, 神經網路, AI基礎, source:ipas]
ipas_term: true
type: deep-dive
---

# 卷積運算 是什麼？

> 卷積運算是提取特徵的數學操作，透過濾波器在資料上滑動捕捉邊緣與紋理，廣泛應用於電腦視覺領域。

## 核心概念
卷積運算是數學上的一種積分變換形式，在離散情況下可以理解為兩個數列的加權疊加。在人工智慧與深度學習領域，卷積運算被重新定義並廣泛應用於卷積神經網路中。核心概念在於利用一個較小的矩陣，通常稱為卷積核或濾波器，去掃描一個較大的輸入資料矩陣，例如一張數位影像的像素網格。每次掃描時，卷積核會與輸入矩陣中對應位置的元素相乘並求和，產生一個新的數值，這個過程在整張影像上重複進行，最終生成一個稱為特徵圖的輸出矩陣。這項操作的核心精神在於從輸入的原始訊號中，找出特定的局部模式。

卷積運算具備兩個重要的數學特性：權重共享與局部連接。權重共享是指同一個卷積核在整張影像的不同位置上滑動時，其內部的參數值保持不變。這意味著如果一個卷積核被訓練來偵測垂直邊緣，它將能在影像的不同位置尋找垂直邊緣，這有效減少了模型需要學習的總體參數數量。局部連接則是相對於全連接層而言，卷積層中的神經元只與前一層中空間上相鄰的一小塊區域連接，這模仿了生物視覺系統中的局部感知機制。這種設計使得網路能夠專注於提取局部特徵，並透過層疊架構理解資料的深層結構。

在多維資料的處理上，例如彩色影像包含紅綠藍三個通道，卷積運算會同時在深度維度上進行。此時卷積核也是三維的，其深度與輸入資料的通道數相同。在計算過程中，卷積核會涵蓋所有輸入通道的空間局部區域，計算多個通道的綜合特徵並輸出至單一個輸出通道。透過設定多個不同的卷積核，可以建立具有豐富表達能力的特徵空間，這是電腦視覺模型理解複雜場景的理論基礎。

## 運作原理
卷積運算的具體執行過程涉及幾個核心的超參數：卷積核大小、步幅以及填充。設計者需要根據具體的任務需求來仔細調整這些參數。

卷積核大小決定了模型感受野的初始範圍。常見的尺寸為三乘三或五乘五。較小的卷積核能夠捕捉精細的局部變化，並且在維持相同感受野的前提下，堆疊多個小卷積核比使用單一的大卷積核具有更少的參數與更高的非線性表達能力。

步幅是指卷積核在輸入資料上每次滑動的距離。預設的步幅通常是一。當步幅大於一時，稱為跨步卷積，這會導致輸出特徵圖的空間尺寸按比例縮小。跨步卷積在某些情況下可以替代池化層的功能，達到減少運算量與擴展感受野的目的。適當的跨步設定可以幫助模型過濾冗餘資訊，專注於宏觀的空間分佈。

填充是指在輸入資料的邊緣補上額外的數值，通常是補零。如果不進行填充，每次進行卷積運算後，特徵圖的尺寸都會縮小，這可能會造成邊緣資訊流失。透過相同填充機制，可以確保網路建立具有足夠深度的架構，而不會中斷特徵的傳遞。在深度學習框架中實作的其實是互相關運算，因為神經網路的權重是自動學習而來，翻轉操作在這種語境下是不必要的。此外，卷積運算的結果通常會加上偏差項，並通過修正線性單元等啟動函數映射到非線性空間。

## 實際應用
卷積運算在電腦視覺領域扮演了推動角色，許多模型架構都以其為基礎。

在影像分類任務中，網路透過多層的卷積與池化操作，將原始的像素陣列轉換為抽象的語義特徵向量，最後由全連接層進行分類預測。這開啟了特徵學習自動化的發展方向。在物件偵測領域，卷積運算不僅用於分類，還用於定位目標。基於區域的卷積網路利用特徵圖生成候選框，單階段方法則直接在多尺度特徵圖上預測類別與位置，實現了高效率的偵測，廣泛應用於自動駕駛中。

語意分割是將影像中每個像素分配到對應類別的任務。全卷積網路將全連接層替換為卷積層，實現了端到端的像素級預測。擴張卷積則在不增加參數的情況下維持空間解析度，這對於醫學影像分析中的精確邊界分割相當有用。除影像外，一維卷積可捕捉時間序列中的局部依賴關係，應用於文本分類；轉置卷積則用於生成對抗網路中，負責學習上採樣權重從雜訊合成影像。

## 常見誤區
關於卷積運算，學習者偶爾會有一些概念上的混淆。

一個常見誤區是將卷積運算與池化層混為一談。池化層用於降低空間維度，是一種固定的聚合操作；卷積運算則是帶有可學習權重的特徵提取過程。卷積負責尋找模式，池化負責匯整資訊並提供空間不變性。另一個誤解是認為卷積網路只能處理固定尺寸的輸入影像。這個限制通常來自於網路架構末端的全連接層，卷積層本身對輸入尺寸沒有嚴格限制。

第三個認知落差是認為只有深層特徵圖才能捕捉全局資訊，忽略了淺層網路透過大步幅也能擴展感受野。第四個誤區是認為網路層數越多效果越好。雖然更深的網路有較高的表示能力，但可能遇到梯度消失問題並消耗額外運算資源，設計時需要在深度、寬度與解析度之間綜合評估。

## 與相關技術的比較
將卷積與全連接層及自注意力機制比較，有助於理解其特性。

在全連接層中，每個輸出神經元都與所有輸入神經元相連，對於高解析度影像會產生龐大的參數規模，且忽略了空間結構特性。卷積運算透過局部連接與權重共享解決了這個問題，降低了模型複雜度並賦予平移不變性。然而，全連接層在整合全局特徵時仍具作用，常被配置於網路末端。

與自注意力機制的比較是當前架構研究的焦點。自注意力機制透過計算序列中所有元素對之間的關聯度來更新表示，能夠在運算初期捕捉全局的長距離依賴關係。卷積運算則擅長提取局部特徵，是一種由局部到全局的漸進式建模。卷積運算引入的歸納偏置使其在資料量受限時較易訓練，而自注意力機制在充足資料下性能出色。

多層感知機混合器等全連接架構僅依賴全連接層交換資訊，雖然展示了潛力，但卷積運算在圖形處理單元上的高度最佳化，使其透過規律的記憶體存取模式與矩陣乘法，在工業應用中依然具有明顯的運算效率。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 卷積運算在硬體層面是如何被加速執行的？

在現代圖形處理單元（GPU）上，卷積運算通常不使用簡單的滑動迴圈執行，因為計算效率較低。實務上最普遍的方法是將卷積轉換為大型矩陣乘法。這透過 im2col 操作實現，將輸入影像中需要與卷積核內積的局部區塊展開成矩陣向量。這雖然增加記憶體消耗，但能直接套用高度最佳化的線性代數函式庫。此外，快速傅立葉變換與 Winograd 演算法也是常見加速技術，能在特定卷積核尺寸下進一步降低運算複雜度，提升模型的推論速度。

### 卷積神經網路中的一維、二維與三維卷積有何不同？

這三種卷積的主要差異在於卷積核滑動的維度與適用的資料類型。一維卷積的卷積核只在單一方向上滑動，通常用於處理時間序列資料或自然語言文本，捕捉相鄰時間點或單詞的局部模式。二維卷積最為常見，卷積核在影像的高度與寬度兩個維度上滑動，廣泛應用於照片等空間資料的特徵提取。三維卷積則在長度、寬度與深度三個維度上同時滑動，能處理空間與時間資訊，常見於影片分析與核磁共振成像的體積資料處理，捕捉動態與立體特徵。

### 擴張卷積的作用是什麼？為何不直接使用較大的卷積核？

擴張卷積的作用是在不增加參數數量且不降低空間解析度的前提下，擴大卷積核的感受野。它透過在卷積核相鄰元素間插入空隙來實現。如果不使用擴張卷積而改用較大的卷積核，會導致參數與計算量呈平方倍增加，增加硬體負擔。若使用傳統下採樣來擴大感受野，會導致影像空間解析度下降，這對於需要像素級定位的語意分割等任務是不利的。擴張卷積有效平衡了感受野大小、計算資源消耗以及空間資訊保留等關鍵需求。

---

深度解說頁：https://aiterms.tw/learning/what-is-convolution-operation
快查頁：https://aiterms.tw/terms/convolution-operation
最後更新：2026/07/04