遮罩區域卷積網路（Mask R-CNN）｜AI 術語定義

核心概念

Mask R-CNN 的核心概念建立在 Faster R-CNN 的基礎之上，並引入了實例分割的能力。以下是幾個關鍵概念：

Mask R-CNN 的運作流程可以分為以下幾個步驟：

輸入圖像: 將圖像輸入到預訓練的卷積神經網路 (Convolutional Neural Network, CNN)，例如 ResNet 或 ResNeXt，提取特徵圖 (feature map)。
區域建議網路 (RPN): RPN 在特徵圖上滑動，生成一系列候選區域 (region proposals)。這些候選區域可能包含圖像中的物件。
感興趣區域對齊 (RoIAlign): 將 RPN 生成的候選區域映射到特徵圖上，並使用 RoIAlign 將這些區域調整到固定大小。RoIAlign 通過雙線性插值避免了 RoIPooling 的量化誤差，提高了分割精度。
分類和邊界框回歸: 對每個 RoI 進行分類，判斷其屬於哪個類別，並使用邊界框回歸 (bounding box regression) 調整邊界框的位置和大小，使其更準確地包圍物件。
遮罩預測: 對每個 RoI 預測一個二元遮罩，表示該區域內物件的像素級別輪廓。遮罩預測分支是一個小型的卷積神經網路，它以 RoIAlign 的輸出作為輸入，生成一個與 RoI 大小相同的遮罩。
輸出結果: 輸出每個物件的類別、邊界框和遮罩。

更詳細的流程拆解：

骨幹網路 (Backbone): 通常使用預訓練的 CNN 模型 (如 ResNet, ResNeXt) 提取圖像的特徵。
特徵金字塔網路 (Feature Pyramid Network, FPN): FPN 構建一個多尺度的特徵金字塔，允許模型在不同尺度上檢測物件。這對於檢測大小不同的物件非常重要。
區域建議網路 (RPN): RPN 在 FPN 的每個尺度上生成候選區域。RPN 使用錨框 (anchor boxes) 來覆蓋不同大小和比例的物件。
RoIAlign: RoIAlign 將候選區域映射到特徵圖上，並使用雙線性插值調整區域大小。RoIAlign 避免了 RoIPooling 的量化誤差，提高了分割精度。
頭部網路 (Head): 頭部網路包含三個分支：分類分支、邊界框回歸分支和遮罩預測分支。
- 分類分支: 預測 RoI 的類別。
- 邊界框回歸分支: 調整 RoI 的邊界框位置和大小。
- 遮罩預測分支: 預測 RoI 的像素級別遮罩。

損失函數：

Mask R-CNN 的損失函數包含三個部分：分類損失、邊界框回歸損失和遮罩損失。

總損失函數為：

L = L_cls + L_box + L_mask

其中：

Mask R-CNN 在電腦視覺領域有著廣泛的應用，包括：

誤區 1: Mask R-CNN 只能用於實例分割。
- 澄清: 雖然 Mask R-CNN 的主要功能是實例分割，但它同時也進行物件偵測，因此可以同時輸出物件的邊界框和遮罩。
誤區 2: RoIPooling 和 RoIAlign 沒有區別。
- 澄清: RoIPooling 會引入量化誤差，影響分割精度。RoIAlign 使用雙線性插值避免了量化誤差，提高了分割精度。在 Mask R-CNN 中，RoIAlign 是必不可少的。
誤區 3: Mask R-CNN 的訓練非常困難。
- 澄清: 雖然 Mask R-CNN 的結構比較複雜，但可以使用預訓練的模型進行遷移學習，降低訓練難度。此外，PyTorch 和 TensorFlow 等深度學習框架提供了 Mask R-CNN 的實現，方便使用者進行訓練和部署。
誤區 4: Mask R-CNN 只能處理靜態圖像。
- 澄清: Mask R-CNN 可以應用於影片分析，通過將影片分解為一系列圖像幀，然後對每一幀進行處理。此外，還可以將 Mask R-CNN 與循環神經網路 (RNN) 結合，以處理時序資訊。
誤區 5: Mask R-CNN 在所有情況下都優於 Faster R-CNN。
- 澄清: Mask R-CNN 在需要像素級別分割的任務中優於 Faster R-CNN。然而，如果只需要物件偵測，Faster R-CNN 可能更有效率，因為它不需要預測遮罩。

總結: Mask R-CNN 是一個強大的實例分割模型，它在電腦視覺領域有著廣泛的應用。理解其核心概念、運作原理和常見誤區，可以幫助我們更好地使用 Mask R-CNN 解決實際問題。