---
title: "視覺關係檢測（Visual Relationship Detection）"
slug: visual-relationship-detection
language: zh-TW
source: https://aiterms.tw/terms/visual-relationship-detection
updated_at: 2026-07-04
tags: [電腦視覺, 深度學習, 多模態AI, 知識圖譜, source:arxiv]
ipas_term: false
---

# 視覺關係檢測（Visual Relationship Detection）

視覺關係檢測是一種電腦視覺技術，專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。

## 完整說明

視覺關係檢測是一種進階的電腦視覺任務，用於識別影像中物件的實體並預測它們之間的互動與空間關係。它能夠將單純的物件偵測提升至對場景的全面語意理解，常見應用包括影像描述生成、視覺問答系統、智慧監控與機器人導航等領域。

## 常見問題

### 視覺關係檢測與人類行為辨識有何不同？

人類行為辨識可以被視為視覺關係檢測的一個特定子集。人類行為辨識主要專注於分析影像中「人」與「其他周遭物件」之間的互動關係，例如「人踢球」或「人喝水」。而視覺關係檢測的範圍則廣泛得多，它不僅包含人與物件的互動，還涵蓋了無生命物件之間的關聯，例如「車停在樹下」或「時鐘掛在牆上」。兩者在技術架構上相似，但應用範圍與檢測目標的廣度有所差異。

### 為什麼視覺關係檢測會面臨長尾分佈的問題？

長尾分佈是指在真實世界的數據集中，少數幾種關係出現的頻率極高，而絕大多數的關係組合出現的次數卻非常稀少。因為視覺關係是由主體、謂詞和客體組合而成，組合的可能性呈現指數增長。這種數據不平衡使得模型在訓練時容易偏向常見的關係，而難以準確識別罕見但在特定場景中極為重要的互動關係，這是單純增加資料量難以徹底解決的挑戰。

### 建立場景圖對於人工智慧有什麼實質幫助？

場景圖是視覺關係檢測的直接產物，它將非結構化的像素資訊轉化為結構化的圖譜數據。這種表示方式對下游任務幫助極大。例如在視覺問答中，模型可以直接在場景圖上進行邏輯推理來尋找答案，而非盲目掃描全圖。在影像描述生成中，場景圖提供了清晰的主謂賓結構，幫助模型生成合乎邏輯且文法正確的句子，大幅提升機器對視覺世界的認知深度。

---

來源：https://aiterms.tw/terms/visual-relationship-detection
快查頁：https://aiterms.tw/terms/visual-relationship-detection
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-visual-relationship-detection