強化醫療多模態 AI 整合影像與文本的最佳架構為何?

iPAS 考題解析

強化醫療多模態 AI 整合影像與文本的最佳架構為何?

  • A. 預定義規則系統
  • B. 僅使用 CNN
  • C. 單一模態模型
  • D. 基於 Transformer 的多模態整合架構 ✓ 正確答案

詳細解析

Transformer 的 Attention 機制天生適合處理多模態資料——能讓影像和文字在同一個模型中互相「注意」對方,學習跨模態的關聯。

難度:★★★