---
title: "場景圖生成（Scene Graph Generation）"
slug: scene-graph-generation
language: zh-TW
source: https://aiterms.tw/terms/scene-graph-generation
updated_at: 2026-07-04
tags: [電腦視覺, 深度學習, 多模態AI, source:arxiv]
ipas_term: false
---

# 場景圖生成（Scene Graph Generation）

將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件，邊緣表示物件間的關係，賦予機器深度的場景理解力。

## 完整說明

場景圖生成是一種將視覺圖像轉化為結構化圖形的技術。它能夠以節點代表實體物件，並以邊緣標明物件間的空間與互動關係，用於彌合視覺特徵與語意邏輯的差距，實現高階推理。常見應用包括視覺問答系統、圖像檢索、圖像描述生成以及具身智慧的環境感知。

## 常見問題

### 場景圖生成模型在訓練時最常遇到什麼樣的資料集問題？

最常遭遇的挑戰是資料集的長尾分佈效應。在真實圖像中，像「在之上」等空間關係出現頻率極高，而具備語意價值的動作關係如「駕駛」或「餵食」則相對稀少。這種不平衡會導致模型傾向學習高頻率的簡單關係，忽視了對少數複雜互動的學習，導致在預測動態關係時容易出錯。研究人員通常必須採用重採樣策略或設計去偏見演算法，引導模型關注稀有但關鍵的關係類別。

### 為何在場景圖生成中引入圖神經網路是必要的？

引入圖神經網路之所以必要，是因為單獨觀察兩個物件的視覺特徵不足以準確判斷它們的互動關係，真實世界的關係高度依賴全局上下文脈絡。圖神經網路能在代表物件的節點間傳遞訊息，使每個節點融合鄰近元素的狀態資訊。當模型判斷人與球的關係時，會參考草地或球門的狀態。這種全局視野大幅提升了消除語意歧義的能力，實現更符合人類直覺邏輯的複雜預測。

### 目前的場景圖生成技術在影片處理上的表現如何？

將此技術應用於影片處理仍面臨效能與計算挑戰。針對靜態圖像的模型計算量龐大，在影片中會被影格率成倍放大。此外，物件狀態會隨時間動態變化。研究人員正積極開發時空場景圖模型，利用相鄰影格的冗餘性減少重複計算，並引入記憶機制追蹤關係演變。儘管取得一定進展，要真正在即時系統上流暢運行高精度的動態場景圖生成，仍需硬體加速與模型優化技術的突破。

---

來源：https://aiterms.tw/terms/scene-graph-generation
快查頁：https://aiterms.tw/terms/scene-graph-generation
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-scene-graph-generation