術語詞典

多模態AI 相關 AI 術語

瀏覽 AITerms.tw 中標籤為「多模態AI」的 AI 術語，快速找到定義、FAQ 與 iPAS 考試重點。

目前篩選：標籤「多模態AI」，共 33 個術語。

目前篩選：標籤「多模態AI」，共 33 個術語

清除篩選同一術語可隸屬多個主題，因此主題數量會重複計算。

共找到 33 個術語標籤：多模態AI 清除條件

A

1 個術語

音視覺學習 Audio Visual Learning

利用音頻和視覺信息的相關性，訓練神經網絡進行特徵學習的方法，通常不需要人工標籤。

多模態AI深度學習AI基礎

音視覺學習是什麼？→

C

4 個術語

對比語言圖像預訓練 CLIP

CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習，將圖像與文字描述連結的模型，能進行零樣本圖像分類，無需針對特定任務重新訓練。

多模態AI電腦視覺自然語言處理

對比語言圖像預訓練是什麼？→

對比學習對齊 Contrastive Learning Alignment

iPAS

一種機器學習技術，透過拉近相似樣本的特徵並推開相異樣本，使模型能學習到更具區別性與對齊性的特徵空間。

多模態AI自監督學習深度學習

對比學習對齊是什麼？→

跨模態注意力 Cross-modal Attention

融合來自不同模態（文本、圖像、音頻等）資訊的注意力機制，用於多模態深度學習任務。

多模態AI深度學習神經網路

跨模態注意力是什麼？→

跨模態學習 Cross-modal Learning

在不同數據模態（如文本、影像、音訊）之間建立聯繫與對齊，學習跨模態的統一表示或進行跨模態推理的機器學習方法。

多模態AI表示學習對比學習

跨模態學習是什麼？→

D

1 個術語

密集圖像描述 Dense Image Captioning

密集圖像描述是一項結合電腦視覺與自然語言處理的技術，旨在偵測影像中的多個感興趣區域，並為每個區域生成對應的文字描述。

電腦視覺自然語言處理多模態AI

密集圖像描述是什麼？→

F

1 個術語

基礎模型 Foundation Model

基礎模型是使用大量未標記數據訓練的大型模型，可適應多種下游任務，展現出強大的泛化能力和遷移學習能力。

機器學習深度學習自然語言處理

基礎模型是什麼？→

G

1 個術語

目標定位 Grounding

在圖像中定位自然語言描述的物體，通過將文本表達與圖像中的視覺區域進行對應，實現視覺語言理解。

電腦視覺多模態AI神經網路

目標定位是什麼？→

H

2 個術語

手部姿勢識別 Hand Gesture Recognition

識別和分類手部的形狀、位置和動作，用於人機互動、手語識別等應用。

電腦視覺多模態AIAI應用

手部姿勢識別是什麼？→

異質數據 Heterogeneous Data

由多種不同類型、來源或格式的資料組成，具有高度多樣性和複雜性的資料集合。

多模態AI特徵工程數據融合

異質數據是什麼？→

I

3 個術語

影像描述生成 Image Captioning

影像描述生成（Image Captioning）是電腦視覺與自然語言處理的交叉任務，旨在讓模型自動為輸入影像產生自然語言描述，是多模態 AI 的核心應用之一，評估指標常用 BLEU、CIDEr、SPI

電腦視覺自然語言處理多模態AI

影像描述生成是什麼？→

圖文對齐 Image-Text Alignment

在多模態學習中，將圖像和文本的表示映射到共同的語義空間，使得語義相關的圖文對的表示相近。

多模態AI深度學習神經網路

圖文對齐是什麼？→

圖像轉文字生成 Image-to-Text Generation

圖像轉文字生成是一種將視覺資訊轉換為自然語言描述的技術，使電腦能夠理解並用文字表達圖片內容。

多模態AI電腦視覺自然語言處理

圖像轉文字生成是什麼？→

M

4 個術語

缺失模態強健性 Missing Modality Robustness

iPAS

指多模態模型在部分輸入資料（如影像或音訊）缺失或損壞時，仍能維持穩定預測效能與系統運作的能力。

多模態AI模型訓練模型評估

缺失模態強健性是什麼？→

多模態技術 Multi

Multi 泛指人工智慧中結合多種資料類型、任務或智能體的技術，能大幅提升系統處理複雜現實問題的靈活性。

多模態AI深度學習強化學習

多模態技術是什麼？→

多視角學習 Multi-view Learning

利用同一對象的多個不同視角或特徵表示進行機器學習，並從多視角中提取一致性信息以提升模型性能。

多模態AI半監督學習表示學習

多視角學習是什麼？→

多模態學習 Multimodal Learning

多模態學習是一種機器學習方法，旨在從多種不同類型（模態）的資料中學習，例如圖像、文字和音訊，以提升模型效能。

機器學習深度學習電腦視覺

多模態學習是什麼？→

O

1 個術語

OpenAI的CLIP OpenAI CLIP

iPAS

OpenAI開發的多模態模型，透過對比學習理解圖像與文字關係，實現零樣本識別。

多模態AI電腦視覺自然語言處理

OpenAI的CLIP 是什麼？→

P

1 個術語

全景頭部 Panoptic Head

iPAS

深度學習模型中用於同時執行語義與實例分割的模組。

電腦視覺深度學習模型評估

全景頭部是什麼？→

R

2 個術語

辨識品質 Recognition Quality

iPAS

衡量AI系統在理解和識別輸入資料（如圖像、語音、文本）時的準確性與可靠性。高辨識品質是確保模型效能和應用成功的關鍵。

電腦視覺模型評估多模態AI

辨識品質是什麼？→

紅綠藍色彩模型 RGB

以紅（Red）、綠（Green）、藍（Blue）三原色疊加表示顏色的加法混色模型，是數位影像與電腦視覺任務中圖像表示的基礎格式。

電腦視覺影像處理深度學習

紅綠藍色彩模型是什麼？→

S

3 個術語

場景圖生成 Scene Graph Generation

將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件，邊緣表示物件間的關係，賦予機器深度的場景理解力。

電腦視覺深度學習多模態AI

場景圖生成是什麼？→

感測器融合 Sensor Fusion

感測器融合是整合多個異質感測器資料的技術，旨在消除單一硬體盲區，提供更精確且可靠的環境感知能力。

多模態AI電腦視覺資料處理

感測器融合是什麼？→

共享嵌入空間 Shared Embedding Space

iPAS

將不同模態資料映射到同一向量空間，使它們可相互比較與理解。

多模態AI深度學習自然語言處理

共享嵌入空間是什麼？→

T

3 個術語

文字生成圖像 Text-to-Image

文字生成圖像是一種人工智慧技術，它能根據文字描述自動生成對應的圖像，實現文字內容的視覺化呈現。

機器學習深度學習自然語言處理

文字生成圖像是什麼？→

文字轉圖像生成 Text-to-Image Generation

透過輸入自然語言描述，利用深度學習模型自動合成出符合語意內容與風格之圖像的多模態技術。

生成式AI多模態AI深度學習

文字轉圖像生成是什麼？→

文字生成影片 Text-to-Video

文字生成影片是一種人工智慧技術，它能根據文字描述自動生成對應的影片，將文字內容轉化為動態視覺呈現。

機器學習深度學習自然語言處理

文字生成影片是什麼？→

V

6 個術語

影片全景分割 Video Panoptic Segmentation

iPAS

一種結合語義與實例分割的電腦視覺技術，能對影片中每個像素進行精確的物件類別與個體識別追蹤。

電腦視覺深度學習多模態AI

影片全景分割是什麼？→

影片理解 Video Understanding

AI 模型分析並理解視頻內容的能力，包括識別物體、動作、場景和事件發展過程。

多模態AI電腦視覺深度學習

影片理解是什麼？→

視覺與語言 Vision and Language

結合電腦視覺與自然語言處理的跨學科領域，使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。

多模態AI電腦視覺自然語言處理

視覺與語言是什麼？→

視覺語言模型 Vision-Language Model

視覺語言模型結合電腦視覺與自然語言處理，使機器能理解並生成圖像與文字之間的關聯，應用廣泛，例如圖像描述生成和視覺問答。

多模態AI電腦視覺自然語言處理

視覺語言模型是什麼？→

視覺關係檢測 Visual Relationship Detection

視覺關係檢測是一種電腦視覺技術，專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。

電腦視覺深度學習多模態AI

視覺關係檢測是什麼？→

視覺敘事 Visual Storytelling

視覺敘事指利用連續圖像或影片傳達故事的技術。在多模態AI中，模型能將文本轉化為具連貫情節的視覺序列。

多模態AI生成式AI電腦視覺

視覺敘事是什麼？→