音視覺學習 Audio Visual Learning
利用音頻和視覺信息的相關性,訓練神經網絡進行特徵學習的方法,通常不需要人工標籤。
瀏覽 AITerms.tw 中標籤為「多模態AI」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「多模態AI」,共 33 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「多模態AI」 ,共 33 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習,將圖像與文字描述連結的模型,能進行零樣本圖像分類,無需針對特定任務重新訓練。
一種機器學習技術,透過拉近相似樣本的特徵並推開相異樣本,使模型能學習到更具區別性與對齊性的特徵空間。
融合來自不同模態(文本、圖像、音頻等)資訊的注意力機制,用於多模態深度學習任務。
在不同數據模態(如文本、影像、音訊)之間建立聯繫與對齊,學習跨模態的統一表示或進行跨模態推理的機器學習方法。
影像描述生成(Image Captioning)是電腦視覺與自然語言處理的交叉任務,旨在讓模型自動為輸入影像產生自然語言描述,是多模態 AI 的核心應用之一,評估指標常用 BLEU、CIDEr、SPI
在多模態學習中,將圖像和文本的表示映射到共同的語義空間,使得語義相關的圖文對的表示相近。
圖像轉文字生成是一種將視覺資訊轉換為自然語言描述的技術,使電腦能夠理解並用文字表達圖片內容。
指多模態模型在部分輸入資料(如影像或音訊)缺失或損壞時,仍能維持穩定預測效能與系統運作的能力。
Multi 泛指人工智慧中結合多種資料類型、任務或智能體的技術,能大幅提升系統處理複雜現實問題的靈活性。
利用同一對象的多個不同視角或特徵表示進行機器學習,並從多視角中提取一致性信息以提升模型性能。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
一種結合語義與實例分割的電腦視覺技術,能對影片中每個像素進行精確的物件類別與個體識別追蹤。
AI 模型分析並理解視頻內容的能力,包括識別物體、動作、場景和事件發展過程。
結合電腦視覺與自然語言處理的跨學科領域,使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。
視覺語言模型結合電腦視覺與自然語言處理,使機器能理解並生成圖像與文字之間的關聯,應用廣泛,例如圖像描述生成和視覺問答。
視覺關係檢測是一種電腦視覺技術,專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。
視覺敘事指利用連續圖像或影片傳達故事的技術。在多模態AI中,模型能將文本轉化為具連貫情節的視覺序列。