視覺問答是什麼？

Visual Question Answering — 視覺問答的完整解釋

視覺問答（VQA）是一種人工智慧任務，要求模型根據給定的圖像回答自然語言問題，結合了電腦視覺和自然語言處理。

容易混淆

視覺問答 vs 圖像分類 視覺問答要回答問題圖像分類只給一個類別標籤最關鍵的區別：有沒有問題要回答

視覺問答 vs 圖像描述 視覺問答是針對提問作答圖像描述是整體描述圖片最關鍵的區別：定向回答和整體敘述

視覺問答 vs 視覺語言模型 視覺問答是任務視覺語言模型是常見底層模型最關鍵的區別：任務和模型

記住這句就好

先看圖，再抓問題關鍵字，最後把兩邊接起來回答。

實際案例

購物客服 使用者上傳商品照片再問尺寸或顏色，系統可直接回覆，減少人工處理

教材理解 學生看到圖表後問「哪一段最高」，模型要從圖像讀出對應位置再答題

算法與應用

| 圖像特徵 | 先看圖片內容 | 是回答的基礎 | | 問題理解 | 抓出問題在問什麼 | 關鍵詞很重要 | | 注意力對齊 | 把問題和圖像區域連起來 | 常是性能關鍵 | | 答案生成 | 輸出簡短或句子型答案 | 常比分類更彈性 |

情境判斷

Q1（直覺題）：你問模型「這張圖裡有幾個人」，這屬於 VQA 嗎？ → 是，因為它要根據圖片回答文字問題。

Q2（判斷題）：如果題目只要模型寫出圖片內容摘要，還算同一類嗎？ → 比較接近圖像描述，不完全是 VQA。

常見問題

視覺問答需要真的理解圖嗎？

需要，至少要能把問題對應到圖中的區域或物件。

它和聊天機器人有何不同？

聊天機器人主要處理文字，VQA 還要加上影像。

為什麼答案有時候很短？

因為很多 VQA 資料集本來就以短答案為主。

← 回到視覺問答快查頁

視覺問答是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

視覺問答需要真的理解圖嗎？

它和聊天機器人有何不同？

為什麼答案有時候很短？

視覺問答 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

視覺問答需要真的理解圖嗎？

它和聊天機器人有何不同？

為什麼答案有時候很短？

視覺問答是什麼？