---
title: "場景圖生成（Scene Graph Generation）"
slug: scene-graph-generation
language: zh-TW
source: https://aiterms.tw/learning/what-is-scene-graph-generation
updated_at: 2026-07-04
tags: [電腦視覺, 深度學習, 多模態AI, source:arxiv]
ipas_term: false
type: deep-dive
---

# 場景圖生成 是什麼？

> 將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件，邊緣表示物件間的關係，賦予機器深度的場景理解力。

## 核心概念
場景圖生成（Scene Graph Generation）是電腦視覺領域中一項關鍵的高階任務，旨在將靜態圖像或動態影片轉化為結構化的圖形表示形式。在這種圖形表示中，節點代表圖像中被偵測到的各個物件實體；而連接這些節點的邊緣則代表物件之間的語意關係，例如空間相對位置、動作互動或屬性關聯。透過這種方式，電腦不僅能知道圖像中有哪些物體，更能理解它們之間是如何互動的，從而達到從單純的物件偵測向深層次視覺理解的跨越。

傳統的物件偵測技術主要停留在標記出圖像中感興趣物件的邊界框與類別，但現實世界是充滿關聯的。例如一張圖片中同時出現了人、馬和草地，物件偵測只能告訴我們這三個元素的存在，而場景圖生成則進一步揭示了「人騎在馬上」以及「馬站在草地上」的豐富語意脈絡。這種從像素到物件，再到關係網絡的抽象過程，正是其核心價值所在，為更高階的邏輯推理奠定穩固基礎。

在發展脈絡上，場景圖生成的概念借鑒了自然語言處理領域中的知識圖譜。知識圖譜將實體與實體間的關係以三元組的形式存儲，而場景圖則是這種結構在視覺領域的延伸。這種表示方法彌合了視覺特徵與高階語言描述之間的語意鴻溝，使得機器能夠以更接近人類認知的方式來解析視覺世界。

建立高質量的場景圖需要克服許多挑戰。視覺世界中物件之間的關係具有高度多樣性與複雜性，模型必須具備強大的特徵提取與上下文推理能力。此外，資料集中的關係類別分佈往往呈現長尾效應，常見的空間關係佔據絕大多數，而具有豐富語意的動作互動關係則相對稀少，這也對模型的泛化提出了考驗。

## 運作原理
場景圖生成的運作機制通常包含幾個主要的處理階段：物件偵測、特徵提取、上下文訊息傳遞以及關係預測。這些階段相輔相成，構成了一個從底層像素到高層語意的完整資料處理管線。

在物件偵測階段，系統會利用先進的卷積神經網路或視覺變換器模型，對輸入圖像進行全面掃描，找出所有潛在感興趣物件的候選區域，並預測類別及輸出邊界框。如果核心物件被漏檢或產生錯誤分類，將直接導致相關關係無法建立，破壞整個場景圖的拓撲結構。

進入特徵提取階段後，模型會從每個物件的邊界框區域中提取豐富的視覺特徵表示。除了個別物件的特徵外，還會提取物件對之間的聯合區域特徵，包含兩個物件在圖像上共同呈現的視覺資訊。空間特徵的提取同樣不可或缺，例如邊界框的相對座標、重疊面積等幾何資訊，為預測相對空間分佈提供數值依據。

接著是上下文訊息傳遞階段。由於物件之間的關係高度依賴全局場景上下文，孤立判斷往往不夠準確。模型通常引入圖神經網路，將物件視為圖中的初始節點，在節點之間互相傳遞訊息。經過多輪的訊息傳遞與特徵更新，模型能夠建立起對整個場景脈絡的全局理解網絡。

最後是關係預測階段。模型會配對所有可能存在關聯的物件節點，並將它們經過上下文增強後的特徵輸入到分類器中。分類器的任務是預測這兩個物件之間是否存在關聯及具體類別。最終，這些被預測出的節點與邊緣會被組裝成完整的圖結構輸出。

## 實際應用
場景圖生成作為視覺理解的底層基礎設施，在涉及多模態交互與高階語意推理的領域中展現出廣泛的應用價值。

在視覺問答系統中，場景圖發揮著關鍵的推理依據作用。當使用者提出需要多步推理的複雜問題時，系統能將問題轉化為在圖結構上的尋路過程。先定位主體節點，接著沿著關係邊緣尋找客體節點。這種符號化推理不僅提高準確度，也賦予了模型決策的透明度。

圖像描述生成是另一個顯著受益的領域。引入場景圖後，模型可以依據圖中的節點與關係拓撲結構，以結構化的方式組織語言表達。這使得生成的文字描述不僅涵蓋更多元素，在語法結構與邏輯上也更加流暢，能詳盡傳達實體之間的動態互動情境。

在圖像與影片檢索系統中，場景圖提供超越關鍵字的細粒度檢索方式。使用者可以使用結構化查詢圖尋找特定配置的視覺內容。系統透過比對目標圖像的場景圖與查詢條件的拓撲相似度，就能精準找出符合複雜行為模式的關鍵畫面，大幅提升檢索效率。

隨著元宇宙概念興起，場景圖生成在三維環境建構中也開始發揮作用。透過對真實場景掃描生成三維場景圖，系統可以記錄環境中物體的空間佈局與互動屬性。這些資料可用於訓練具身智慧機器人，讓其能夠解析環境語意結構並進行合理的互動。

## 常見誤區
在實際開發與學術探討中，仍存在許多容易令人混淆的觀念，釐清這些誤區對於正確應用這項技術至關重要。

許多人傾向將場景圖生成簡單視為物件偵測的延伸，認為提升偵測精度關係預測自然水到渠成。這忽略了關係判斷的獨特複雜性。物件特徵由外觀決定，而關係則高度依賴整體環境脈絡。模型必須學會從微小細節或宏觀佈局中推斷正確連結，這需要專門的網絡設計。

另一個常見誤區是對資料集偏差的輕忽。現有資料集普遍存在長尾分佈問題，少數空間關係佔據絕大部分樣本，而動作關係稀缺。若不妥善處理，模型會傾向預測高頻率簡單關係。評估模型時若僅關注整體準確率，將會掩蓋其在關鍵類別上的缺陷。

此外，忽略場景圖的封閉世界限制也是常見問題。現有模型通常只能在預先定義好的集合內預測。然而真實世界是開放且充滿變化的。如果模型遇到訓練集中未曾出現的組合，往往會產生不合理預測。如何具備開放詞彙的泛化能力是邁向實用的關鍵。

最後，認為場景圖已經完美解決視覺推理的想法過於理想化。它提供了結構化表示，但本質上仍是靜態與離散的。真實世界的複雜因果脈絡難以被簡單圖結構完全涵蓋。模型在生成過程中仍會產生雜訊，如何提高圖純淨度並開發能容忍噪聲的推理演算法，都是持續面對的挑戰。

## 與相關技術的比較
為更清晰界定場景圖生成的技術邊界，需將其與其他視覺理解技術深入對比，凸顯其獨特功能定位。

與傳統物件偵測技術相比，物件偵測專注解決圖像中存在什麼物體及位置問題，輸出離散邊界框與類別。場景圖生成則在此基礎上，進一步回答物體之間存在何種互動。它透過語意邊緣將孤立的偵測結果連接起來，使系統能理解整體視覺情境。

與圖像語意分割技術相比，語意分割致力於在像素級別為圖像分配標籤以獲得精細輪廓。這種像素級預測缺乏對實體層面的抽象，無法明確表達物體間複雜邏輯關聯。場景圖生成在更高抽象層次運作，專注提取高階關係，建構高層語意邏輯框架。

將其與人類姿態估計對比也很有意義。姿態估計定位人體關鍵點以推斷動作姿態，在分析單一個體時有效，但不涉及與環境互動。場景圖生成中的互動檢測不僅分析人體動作，還需結合周圍物體狀態推斷關係。姿態估計提供細粒度線索，而場景圖生成將行為放置在場景中解讀。

探討與多模態大型語言模型的關係也十分重要。大型語言模型展現強大圖像理解力，但內部推理過程缺乏透明度。場景圖生成提供顯式符號化知識表示，若能作為中間結構注入大型語言模型推理中，將有望結合神經網路泛化能力與符號推理的可解釋性。

## 常見問題

### 場景圖生成模型在訓練時最常遇到什麼樣的資料集問題？

最常遭遇的挑戰是資料集的長尾分佈效應。在真實圖像中，像「在之上」等空間關係出現頻率極高，而具備語意價值的動作關係如「駕駛」或「餵食」則相對稀少。這種不平衡會導致模型傾向學習高頻率的簡單關係，忽視了對少數複雜互動的學習，導致在預測動態關係時容易出錯。研究人員通常必須採用重採樣策略或設計去偏見演算法，引導模型關注稀有但關鍵的關係類別。

### 為何在場景圖生成中引入圖神經網路是必要的？

引入圖神經網路之所以必要，是因為單獨觀察兩個物件的視覺特徵不足以準確判斷它們的互動關係，真實世界的關係高度依賴全局上下文脈絡。圖神經網路能在代表物件的節點間傳遞訊息，使每個節點融合鄰近元素的狀態資訊。當模型判斷人與球的關係時，會參考草地或球門的狀態。這種全局視野大幅提升了消除語意歧義的能力，實現更符合人類直覺邏輯的複雜預測。

### 目前的場景圖生成技術在影片處理上的表現如何？

將此技術應用於影片處理仍面臨效能與計算挑戰。針對靜態圖像的模型計算量龐大，在影片中會被影格率成倍放大。此外，物件狀態會隨時間動態變化。研究人員正積極開發時空場景圖模型，利用相鄰影格的冗餘性減少重複計算，並引入記憶機制追蹤關係演變。儘管取得一定進展，要真正在即時系統上流暢運行高精度的動態場景圖生成，仍需硬體加速與模型優化技術的突破。

---

深度解說頁：https://aiterms.tw/learning/what-is-scene-graph-generation
快查頁：https://aiterms.tw/terms/scene-graph-generation
最後更新：2026/07/04