特徵圖 是什麼?
Feature Map — 特徵圖 的完整解釋
特徵圖是卷積神經網絡中,經過卷積層運算後所產生的多維陣列,用於呈現輸入資料的特定局部特徵與空間結構。
核心概念
特徵圖是深度學習尤其是卷積神經網絡領域中一個不可或缺的核心概念。在處理視覺資料時,我們通常面臨龐大的像素矩陣,直接對這些原始像素進行分析會導致極高的計算成本且難以捕捉影像的語意結構。特徵圖的出現,正是為了解決這個問題。它本質上是一個多維度矩陣,負責儲存經過卷積運算後從輸入資料中萃取出來的特徵訊息。每當原始影像或前一層的輸出資料經過一層卷積核處理,就會生成一組對應的特徵圖。這些矩陣中的數值,代表著特定特徵在原始資料不同空間位置上的啟動程度。
在淺層的卷積網絡中,特徵圖通常記錄著影像中最基礎的視覺元素,例如水平邊緣、垂直邊緣、顏色對比或是簡單的幾何紋理。這階段的特徵圖保留了極高的空間解析度,使得模型能夠清楚知道這些基礎特徵發生在影像的哪個具體位置。隨著網絡層數的加深,多個淺層特徵會被不斷組合與非線性轉換,形成深層的特徵圖。這時候的特徵圖所代表的涵義已經轉變為更為抽象且複雜的語意概念,例如物體的局部結構、特定動物的耳朵形狀或是車輛的輪廓。在這樣由淺入深的過程中,特徵圖的空間解析度通常會因為池化操作而逐漸降低,但其通道數量會隨之增加,藉此容納更豐富且高階的特徵表徵。
運作原理
特徵圖的生成過程源自於卷積運算。在一個卷積層中,會存在多個獨立的卷積核,又稱為濾波器。這些卷積核就像是一個個具有特定感受野的特徵探測器,它們會在輸入的資料陣列上進行滑動視窗操作。在每一個滑動位置,卷積核會與局部範圍內的資料進行逐元素的乘法並將結果加總,再加上一個偏差值後,通常還會經過一個非線性啟動函數的處理,最終得到一個單一的數值。這個數值就會被放置在新生成的特徵圖對應的空間位置上。
若是輸入資料具有多個通道,例如一張具有紅綠藍三個顏色通道的彩色影像,或是來自前一層包含多個通道的特徵圖,卷積核也會擁有相對應的三維結構。在這種情況下,卷積運算會同時在所有的通道上進行局部點積,並將所有通道的計算結果加總成為單一數值。這意味著,一個卷積核在對輸入資料進行一次完整的滑動運算後,只會產生一個單通道的二維特徵圖。因此,如果一個卷積層設定了六十四個不同的卷積核,該層的輸出就會是一個包含六十四個通道的三維特徵圖堆疊。
在生成特徵圖的過程中,步幅與填充是兩個控制特徵圖空間尺寸的關鍵超參數。步幅決定了卷積核每次滑動的距離,較大的步幅會加速空間解析度的降低,進而產生尺寸較小的特徵圖。填充則是在輸入資料的邊緣補上特定數值,通常是補零,以此來控制卷積運算後邊界資訊的流失,並使得輸入與輸出的空間尺寸在設定上能有更多的彈性。除了卷積之外,池化層的運作也會產生特徵圖,只不過池化操作並不涉及權重的學習,而是透過最大值或是平均值運算來進行下採樣,目的是進一步壓縮特徵圖的空間維度,減少計算量並提升特徵的平移不變性。
實際應用
特徵圖在各種依賴卷積網絡的影像處理任務中扮演著資訊傳遞與表徵建立的關鍵角色。在影像分類任務中,模型需要判斷整張影像屬於哪一個類別。透過多層卷積提取出的深層特徵圖,網絡能夠捕捉到影像中最具代表性的語意特徵,並在最後一層透過全連接層或全局平均池化將這些多維特徵圖轉換為一維的特徵向量,進而輸出分類的預測結果。
在物件偵測任務中,特徵圖的作用不僅僅是辨識物體是什麼,還需要定位物體在哪裡。現代的物件偵測演算法通常會利用在不同層級提取出的多尺度特徵圖來進行預測。淺層且高解析度的特徵圖由於保留了豐富的空間細節,適合用來偵測影像中的小型物件;而深層且低解析度的特徵圖則因為具備廣泛的感受野與高度抽象的語意資訊,適合用來偵測大型物件。透過綜合利用這些不同尺度的特徵圖,偵測模型能夠更精準地為不同大小的物件畫出邊界框。
在語意分割任務中,模型需要對影像中的每一個像素進行分類。這項任務對空間細節的要求極高。因此,分割模型通常會採用編碼器與解碼器的架構。在編碼器階段,特徵圖的尺寸會不斷縮小以提取高階語意;而在解碼器階段,則會將這些低解析度的特徵圖透過上採樣技術逐步放大,並與編碼器中相對應的淺層高解析度特徵圖進行融合。這種方式確保了最終生成的分割預測不僅在語意判斷上準確,在物體邊界的劃分上也能夠足夠精細。
常見誤區
關於特徵圖,一個相當常見的誤解是認為通道數量越多,模型所能表達的資訊就越豐富,因此模型的效能必然隨之增加。事實上,特徵圖的通道數代表著該層所使用的卷積核數量。雖然增加通道數確實能夠增加模型的參數與理論上的表徵能力,但過多的通道數往往會導致特徵之間出現高度的冗餘。許多通道可能學到了非常相似或是對最終預測沒有實質貢獻的特徵。這不僅會造成計算資源與記憶體空間的巨大浪費,還會顯著增加模型陷入過度擬合風險的可能性,使得模型在未見過的資料上表現不佳。
另一個常見的迷思是認為深層特徵圖必然比淺層特徵圖更為重要。這種觀念忽略了不同網絡層次特徵圖所具備的獨特性質。深層特徵圖雖然擁有強大的語意抽象能力,但由於經歷了多次的池化與卷積,其空間資訊已經大量流失,解析度非常低。對於需要精確定位的任務如語意分割與邊界偵測而言,淺層特徵圖所保留的空間細節是無法被深層特徵圖取代的。因此,許多進階的網絡架構會致力於設計有效的機制來結合深層與淺層特徵圖,而非單純依賴深層特徵。
還有部分初學者會將特徵圖與影像本身混淆,試圖直接用肉眼去理解深層特徵圖的內容。雖然淺層特徵圖的確可以看作是對邊緣或紋理的強化影像,但深層特徵圖所表達的是高度抽象且經過非線性轉換的高維空間特徵。它們在視覺上往往呈現出難以理解的斑塊或是雜訊狀結構,因為這些特徵是為了讓機器的神經網絡能夠區分不同類別而學習出來的,並不是為了符合人類的視覺直覺而設計的。直接將其當作一般影像來解讀會造成錯誤的理解。
與相關技術的比較
特徵圖與原始像素資料有著本質上的不同。原始影像是由離散的像素點組成,每一個像素僅記錄了該位置的顏色或是亮度資訊,缺乏周遭像素之間的結構性關聯。將原始影像輸入到網絡中,如果直接使用全連接層進行處理,模型必須從頭開始學習像素之間的空間關聯,效率極低且參數龐大。相較之下,特徵圖是透過局部連接與權重共享的卷積運算所生成,它天生就包含了局部空間結構的資訊。每一個特徵圖的數值都代表了原始影像中一個局部區域的特徵總結,使得後續的網絡層能夠基於這些結構化特徵進行更有效率的學習。
特徵圖與傳統特徵工程所產生的特徵向量也存在顯著差異。在傳統機器學習中,研究人員需要依賴領域知識來手工設計特徵提取演算法。這些手工特徵雖然具有明確的物理或數學意義,但往往難以適應複雜多變的真實世界資料,且開發過程耗時費力。深度學習中的特徵圖則是透過資料驅動的方式自動學習而來。網絡會根據所定義的損失函數,在訓練過程中不斷調整卷積核的權重,自行找出最有利於解決當前任務的特徵表示方式。雖然這種學習方式降低了特徵的可解釋性,但其表徵能力與對複雜資料的適應性超越了傳統手工特徵。
在注意力機制的背景下,特徵圖的處理方式也有所演進。傳統的卷積運算對特徵圖中的每一個空間位置和每一個通道都賦予相同的關注度。然而,引入注意力機制後,模型能夠學會去評估特徵圖中不同位置或是不同通道的重要性。透過空間注意力機制,模型可以將焦點集中在特徵圖中包含目標物體的關鍵區域,抑制背景雜訊的干擾;而透過通道注意力機制,模型可以賦予對預測更有貢獻的通道較高的權重。這種技術進一步提升了特徵圖的表達效率與模型的整體效能。
特徵圖 在 iPAS 考試中的重點
根據歷年統計,特徵圖 相關題目 屬於未分類考範圍。
常見問題
資料來源
- iPAS AI 應用規劃師評鑑內容範圍參考(115.02) — 經濟部產業人才能力鑑定