---
title: "全景品質（Panoptic Quality）"
slug: panoptic-quality
language: zh-TW
source: https://aiterms.tw/learning/what-is-panoptic-quality
updated_at: 2026-07-04
tags: [模型評估, 電腦視覺, 深度學習, AI基礎, source:ipas]
ipas_term: true
type: deep-dive
---

# 全景品質 是什麼？

> 全景品質是評估全景分割同時辨識物件與分割區域是否正確的綜合指標。

## 核心概念
全景品質（Panoptic Quality, PQ）是衡量全景分割模型性能的一種綜合性指標。全景分割任務旨在為圖像中的每個像素分配一個語義類別，並同時為所有可數的「事物」（things，如人、車）分配一個唯一的實例ID，而對於不可數的「物質」（stuff，如天空、道路）則只分配語義類別。由於全景分割結合了語義分割和實例分割的挑戰，傳統的單一任務評估指標（如語義分割的平均交集比mIoU或實例分割的平均精確度AP）無法全面反映模型的性能。PQ 的提出正是為了解決這一問題，它旨在提供一個統一的度量標準，能夠同時評估模型在識別（recognition）和分割（segmentation）兩個方面的表現。PQ 的計算方式巧妙地將這兩個方面結合起來，使得一個模型必須在兩方面都表現良好才能獲得高分，從而更真實地反映了全景分割模型的綜合能力。

## 運作原理
全景品質的計算過程相對複雜，但其核心思想是將預測的分割結果與真實標註進行匹配，然後基於這些匹配結果來計算兩個關鍵的子指標：分割品質（Segmentation Quality, SQ）和識別品質（Recognition Quality, RQ）。
1.  **匹配階段**：首先，需要將模型預測出的每個分割實例與真實標註中的每個實例進行匹配。這個匹配過程通常基於交集比（Intersection over Union, IoU）閾值。對於一個預測實例 `p` 和一個真實實例 `g`，如果它們的 IoU 大於一個預定閾值（例如 0.5），則認為它們是匹配的。這個匹配過程是貪婪的，確保每個真實實例最多只與一個預測實例匹配，反之亦然。對於「物質」類別，則將所有相同類別的像素視為一個單一實例進行匹配。
2.  **分類匹配結果**：匹配完成後，所有的預測和真實實例會被分為三類：
    *   **真陽性 (TP)**：成功匹配的預測實例。這表示模型正確地識別並分割了一個真實存在的實例。
    *   **假陽性 (FP)**：沒有匹配到任何真實實例的預測實例。這可能是過度分割、錯誤識別或背景被誤認為前景。
    *   **假陰性 (FN)**：沒有被任何預測實例匹配到的真實實例。這表示模型漏檢了真實存在的實例。
3.  **計算分割品質 (SQ)**：SQ 衡量的是所有真陽性匹配對的平均 IoU。它反映了模型在正確識別實例後，其分割邊界有多精確。對於「事物」和「物質」類別，SQ 的計算方式略有不同，但核心都是評估重疊度。
    `SQ = (Σ_{p,g ∈ TP} IoU(p,g)) / |TP|`
4.  **計算識別品質 (RQ)**：RQ 是一個 F1-score，衡量的是模型在識別實例方面的能力。它基於真陽性 (TP)、假陽性 (FP) 和假陰性 (FN) 的數量計算：
    `RQ = |TP| / (|TP| + 0.5 * |FP| + 0.5 * |FN|)`
    RQ 類似於物體檢測中的 F1 分數，平衡了精確度（Precision）和召回率（Recall）。
5.  **計算全景品質 (PQ)**：最終的全景品質是 SQ 和 RQ 的乘積：
    `PQ = SQ * RQ`
這個公式的意義在於，一個模型必須同時擁有高精度的分割（高 SQ）和高準確度的實例識別（高 RQ），才能獲得高的 PQ 值。如果模型分割得很準確但識別出了很多錯誤的實例（高 FP）或漏檢了很多實例（高 FN），或者識別得很準確但分割邊界很粗糙，PQ 值都會受到影響。PQ 通常會針對「事物」類別和「物質」類別分別計算，然後再取平均得到總體 PQ。

## 實際應用
全景品質作為全景分割任務的標準評估指標，在多個領域都有其重要的實際應用。
在**自動駕駛**領域，全景分割是環境感知系統的基石。PQ 能夠全面評估模型對道路、行人、車輛、交通標誌等所有場景元素的理解能力。高 PQ 值意味著自動駕駛系統不僅能準確識別出所有相關物體，還能精確地分割它們的輪廓，這對於安全的路徑規劃、障礙物迴避和行為預測至關重要。例如，精確分割路面與障礙物，並區分不同車輛實例，是實現L4/L5級自動駕駛的關鍵。
在**機器人學**中，特別是服務型機器人或協作機器人，PQ 用於評估機器人對工作環境的感知能力。一個高 PQ 的模型能幫助機器人更準確地識別和操作物體，例如在雜亂的環境中區分不同的工具或物品，並精確地進行抓取或放置。這對於機器人的自主導航、人機交互和任務執行效率有顯著提升。
在**醫學影像分析**中，全景分割可用於同時識別和分割多個器官、病變區域（如腫瘤）以及周圍組織。PQ 在此用於評估模型在精確描繪病變邊界和區分不同解剖結構方面的性能，這對於疾病診斷、治療規劃和預後評估具有直接影響。例如，在腫瘤分割中，PQ 可以衡量模型是否精確地識別了所有腫瘤區域並準確地勾勒出其邊界。
此外，在**智慧監控**、**增強現實 (AR)**和**虛擬現實 (VR)** 等領域，全景品質也提供了一個可靠的基準，用於評估模型對複雜場景的理解和交互能力。研究人員和開發者可以通過比較不同模型在 PQ 上的表現，來選擇或改進最適合其應用需求的模型。

## 常見誤區
在使用和解釋全景品質（PQ）時，存在一些常見的誤區。
首先，一個常見的錯誤是將 PQ 誤解為僅僅是語義分割或實例分割指標的簡單平均。PQ 是一個乘積，這意味著它對 SQ 和 RQ 的低值都非常敏感。如果其中一個子指標表現不佳，即使另一個很高，最終的 PQ 值也會顯著下降。這強調了模型必須在識別和分割兩方面都達到高水準，才能獲得令人滿意的全景品質。因此，單純優化其中一個方面而忽略另一個，往往無法有效提升整體 PQ。
其次，過度關注總體 PQ 值而忽略其組成部分（SQ 和 RQ）的分析也是一個誤區。單一的 PQ 值雖然提供了綜合視圖，但無法揭示模型具體的弱點。例如，一個較低的 PQ 可能源於 SQ 較低（分割不精確），也可能源於 RQ 較低（識別錯誤或漏檢）。深入分析 SQ 和 RQ 的具體數值，以及它們在不同類別上的表現，才能更精確地診斷模型問題，並指導改進方向，例如是需要改進邊緣檢測能力還是提高物體檢測的召回率。
第三，PQ 對於匹配閾值（通常是 IoU=0.5）的選擇具有一定的敏感性。不同的閾值可能會導致不同的匹配結果，進而影響 SQ 和 RQ 的計算。雖然 0.5 是常用的閾值，但在某些特定應用中，可能需要考慮更嚴格或更寬鬆的匹配標準。例如，在醫學影像中可能需要更高的 IoU 閾值來確保診斷的精確性。
最後，對於小目標或高度重疊的實例，PQ 的評估可能仍然具有挑戰性。由於小目標的像素數量少，即使是很小的分割誤差也可能導致 IoU 顯著下降，從而影響 SQ。而高度重疊的實例則可能導致匹配困難，進而影響 RQ。理解這些限制有助於更客觀地評估模型在特定場景下的性能，並在模型設計時考慮這些特殊情況。

## 與相關技術的比較
全景品質 (PQ) 的設計旨在克服傳統圖像分割評估指標的局限性，提供一個更全面的視角。
與**平均交集比 (mIoU)** 相比：mIoU 是語義分割中最常用的指標，它計算每個類別的 IoU，然後取平均。mIoU 評估的是像素級的分類準確性，但它不區分同一類別的不同實例。例如，如果圖像中有兩輛車，mIoU 只會評估「車輛」類別的整體分割質量，而不會區分這兩輛車是否被正確地識別為兩個獨立的實例。PQ 則通過引入實例識別的概念，彌補了 mIoU 在處理實例方面的不足，能夠全面評估模型對所有像素和所有實例的理解。
與**平均精確度 (AP)** 相比：AP 是物體檢測和實例分割中常用的指標，它基於精確度-召回率曲線計算，主要評估模型在識別和定位物體實例方面的能力。AP 能夠區分同一類別的不同實例，但它通常只關注「事物」類別，並且對於分割的精確度（即掩碼的質量）的評估不如 PQ 的 SQ 部分那麼直接和全面。AP 通常使用邊界框或掩碼的 IoU 來定義真陽性，但其主要目的是衡量檢測和定位的性能，而非像素級分割的精確度。PQ 則將實例的識別（通過 RQ）和精確的像素級分割（通過 SQ）結合起來，提供了一個更為統一和細緻的評估。
PQ 的獨特之處在於它將語義分割的像素級準確性與實例分割的物體級識別和定位能力融合在一個單一的指標中。它強制模型不僅要正確地識別出圖像中的所有物體和背景區域，還要為每個物體提供高質量的像素級分割。這種綜合性使得 PQ 成為評估全景分割模型性能的黃金標準，能夠更準確地反映模型在現實世界複雜場景中的表現，提供一個更接近人類視覺感知的評估標準。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 全景品質 (PQ) 與平均交集比 (mIoU) 有何不同？

mIoU 主要用於評估語義分割的性能，它衡量的是預測區域與真實區域的重疊程度，不區分同一類別的不同實例。而全景品質 (PQ) 則是一種更全面的指標，專為全景分割設計。它不僅考慮了語義的準確性，還考量了實例的識別和分割質量。PQ 結合了分割品質 (SQ) 和識別品質 (RQ)，能夠同時評估模型是否正確識別了每個實例並準確地分割了它們，因此在需要區分個體物體的場景中更具代表性，提供更全面的場景理解能力評估。

### 全景品質 (PQ) 的兩個主要組成部分是什麼？

全景品質 (PQ) 由兩個主要組成部分構成：分割品質 (Segmentation Quality, SQ) 和識別品質 (Recognition Quality, RQ)。SQ 衡量的是已正確匹配的預測實例與真實實例之間的平均交集比 (IoU)，反映了分割的精確度。RQ 則是一個 F1 分數，用於評估模型在識別真實實例方面的能力，即有多少真實實例被正確地識別出來，以及有多少預測實例是正確的。PQ 是 SQ 和 RQ 的乘積，這意味著模型必須在分割準確性和實例識別兩方面都表現良好，才能獲得高 PQ 值。

### 如何解讀較低的全景品質 (PQ) 分數？

較低的 PQ 分數可能表明模型在全景分割任務中存在多個問題。如果 SQ 較低，這可能意味著模型雖然能夠識別出實例，但其分割邊界不夠精確，導致預測區域與真實區域的重疊度不足。如果 RQ 較低，則可能表示模型在識別實例方面存在問題，例如出現大量的假陽性（錯誤地識別出不存在的實例）或假陰性（未能識別出真實存在的實例）。綜合分析 SQ 和 RQ 可以幫助研究人員和開發者定位模型的弱點，例如是分割邊緣不夠銳利，還是對密集或重疊物體的識別能力不足，從而指導模型改進的方向，例如調整損失函數或改進特徵提取網路。

---

深度解說頁：https://aiterms.tw/learning/what-is-panoptic-quality
快查頁：https://aiterms.tw/terms/panoptic-quality
最後更新：2026/07/04