---
title: "視覺與語言（Vision and Language）"
slug: vision-and-language
language: zh-TW
source: https://aiterms.tw/terms/vision-and-language
updated_at: 2026-07-04
tags: [多模態AI, 電腦視覺, 自然語言處理, 深度學習, source:arxiv]
ipas_term: false
---

# 視覺與語言（Vision and Language）

結合電腦視覺與自然語言處理的跨學科領域，使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。

## 完整說明

視覺與語言是一種結合視覺感知與文字理解的跨模態人工智慧技術，能夠建立影像特徵與語言語意之間的深層關聯與對齊。常見應用包括影像描述生成、視覺問答系統、文字生成影像與跨模態圖文檢索，大幅提升機器對世界的綜合認知。

## 常見問題

### 視覺與語言模型如何處理未曾見過的新類別？

視覺與語言模型處理未見過的新類別，主要是依賴其在預訓練階段建立的跨模態共享空間。在訓練過程中，模型學習將視覺特徵與對應的自然語言描述對齊。當面對全新的物件類別時，使用者只需提供該類別的文字描述，模型就能將此文字轉換為向量，並在共享空間中尋找最接近的視覺特徵。這種機制打破了傳統分類模型受限於固定標籤數量的困境，使其具備強大的泛化與適應能力，無須重新訓練即可辨識新事物。

### 訓練大型視覺與語言模型需要什麼樣的條件？

訓練大型的視覺與語言模型需要極為龐大的運算資源與資料量。在硬體方面，通常需要由數百甚至數千張高階圖形處理器組成的運算叢集，進行長時間的分散式訓練，以應付模型龐大的參數更新需求。在資料方面，需要收集海量的高品質圖文成對資料集。這些資料必須具備高度的多樣性與準確的對應關係。資料的清洗與過濾工程同樣浩大，以確保模型不會學習到錯誤的關聯或有害的偏見，這對於研究者是一大挑戰。

### 視覺與語言技術在智慧醫療領域有哪些應用潛力？

在智慧醫療領域，視覺與語言技術展現了極大的輔助診斷潛力。系統可以結合醫學影像（如Ｘ光片或核磁共振造影）與病患的電子病歷文字敘述，進行綜合分析。例如，自動生成醫學影像的初步診斷報告，減少放射科醫師的工作負擔。此外，視覺問答技術能讓醫師透過自然語言向系統提問，例如詢問特定病灶的大小或位置，系統即可從影像中提取對應資訊並回覆。這有助於提升醫療決策的效率，改善病患的照護品質。

---

來源：https://aiterms.tw/terms/vision-and-language
快查頁：https://aiterms.tw/terms/vision-and-language
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-vision-and-language