電腦視覺 相關 AI 術語

行動識別是什麼？→

啟動圖 Activation Map

啟動圖是卷積神經網路中，輸入資料經過卷積與啟動函數處理後所輸出的多維度特徵矩陣。

啟動圖是什麼？→

對抗性攻擊 Adversarial Attack

對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改，使AI模型產生錯誤輸出的攻擊方式，用於測試模型的魯棒性。

模型評估模型訓練深度學習

對抗性攻擊是什麼？→

對抗性穩健 Adversarial Robustness

對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時，仍能維持其預測準確性的能力，抵抗攻擊。

機器學習深度學習模型訓練

對抗性穩健是什麼？→

錨框 Anchor Box

錨框(Anchor Box)是在目標檢測中預先定義的一系列具有不同大小和長寬比的矩形框，用於在圖像中生成候選區域，以便模型進行目標分類和邊界框回歸。

錨框是什麼？→

注意力圖 Attention Map

注意力圖是注意力機制的內部權重視覺化表示，呈現模型在處理序列資料時，各個元素之間的相互關注程度與依賴關係。

深度學習自然語言處理電腦視覺

注意力圖是什麼？→

注意力可視化 Attention Visualization

注意力可視化是一種技術，用於呈現神經網路模型在處理輸入時，將注意力集中在哪些部分。它能幫助理解模型決策過程，並診斷潛在問題。

深度學習自然語言處理電腦視覺

注意力可視化是什麼？→

自動駕駛技術 Autonomous Driving

自動駕駛技術利用感測器、人工智慧和控制系統，使車輛能夠在沒有人為干預的情況下感知環境並自主導航。

AI應用電腦視覺機器學習

自動駕駛技術是什麼？→

自主系統 Autonomous System

自主系統是指能在沒有外部干預下，感知環境、做出決策並執行動作的系統，具備一定程度的獨立性和適應性。

AI應用機器學習強化學習

自主系統是什麼？→

自駕車 Autonomous Vehicles

自駕車是指無需人類駕駛員干預，能自主感知環境、做出決策和控制行駛的車輛。自駕系統整合了計算機視覺、傳感器融合、路徑規劃和深度學習，是 AI 應用中最複雜的系統。

AI應用深度學習電腦視覺

自駕車是什麼？→

B

1 個術語

邊界框偵測 Bounding Box

邊界框偵測是一種電腦視覺技術，用於在影像或影片中定位和識別物體，並使用矩形框標示出物體的位置。

邊界框偵測是什麼？→

C

12 個術語

膠囊網路 Capsule Network

膠囊網路是一種神經網路架構，旨在解決卷積神經網路在處理物件方向和空間關係上的不足，透過膠囊和路由機制，更有效地捕捉物件的層次結構。

膠囊網路是什麼？→

變遷偵測 Change Detection

比較不同時間點的影像，識別地表或物件狀態的變化，廣泛應用於監測。

電腦視覺資料處理AI應用

變遷偵測是什麼？→

對比語言圖像預訓練 CLIP

CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習，將圖像與文字描述連結的模型，能進行零樣本圖像分類，無需針對特定任務重新訓練。

對比語言圖像預訓練是什麼？→

電腦視覺 Computer Vision

電腦視覺Computer VisionL11402 高頻

電腦視覺（Computer Vision）讓 AI 從圖像與影片中辨識物件、文字、人臉，廣泛用於自駕車、人臉辨識、醫療影像分析、工廠瑕疵檢測。

電腦視覺是什麼？→

機器人視覺 Computer Vision in Robotics

機器人視覺是指機器人使用攝像頭和深度傳感器配合計算機視覺算法，感知和理解視覺世界，完成抓取、組裝、檢測等任務。它使機器人能在動態環境中自主操作，廣泛應用於製造、物流和醫療。

AI應用深度學習電腦視覺

機器人視覺是什麼？→

內容生成 Content Generation

內容生成是指使用人工智慧技術自動創建文字、圖像、音訊或影片等內容的過程，旨在降低內容創作成本並提高效率。

生成式AI自然語言處理電腦視覺

內容生成是什麼？→

對比學習 Contrastive Learning

對比學習是一種自監督學習方法，通過學習區分相似和不相似的樣本，從而提取資料的有效表示，無需人工標註。

機器學習深度學習自監督學習

對比學習是什麼？→

控制網路 ControlNet

ControlNet 是一種神經網路結構，用於控制大型擴散模型，例如 Stable Diffusion，以實現更精確的圖像生成控制，例如基於草圖或邊緣圖生成圖像。

控制網路是什麼？→

卷積運算 Convolution Operation

卷積運算是提取特徵的數學操作，透過濾波器在資料上滑動捕捉邊緣與紋理，廣泛應用於電腦視覺領域。

卷積運算是什麼？→

卷積層 Convolutional Layer

神經網路中利用卷積運算自動提取局部特徵的層級，通過多個小尺寸濾波器滑動掃描輸入數據，能有效減少參數數量並增強空間特徵學習能力。

卷積層是什麼？→

卷積神經網路 Convolutional Neural Network

專門處理圖像的神經網路，用小窗口（卷積核）掃過圖片提取局部特徵，參數共享大幅減少計算量

卷積神經網路是什麼？→

餘弦相似度 Cosine Similarity

餘弦相似度是一種衡量兩個非零向量之間夾角餘弦值的度量方法，常用於評估文本或資料點之間的相似程度。

統計方法機器學習推薦系統

餘弦相似度是什麼？→

D

13 個術語

資料標註 Data Annotation

資料標註是為資料集添加標籤或註解的過程，使機器學習模型能夠理解和學習這些資料，是模型訓練的基礎。

資料標註是什麼？→

資料擴增術 Data Augmentation

資料擴增術是一種增加訓練資料多樣性的技術，透過對現有資料進行微小的修改，創造出新的、但仍然代表相同類別的資料點，以提升模型泛化能力。

資料擴增術是什麼？→

資料標註 Data Labeling

資料標註是指為原始資料添加標籤的過程，這些標籤提供關於資料的額外資訊，用於訓練監督式機器學習模型。

資料標註是什麼？→

深度偽造 Deepfake

深度偽造是利用深度學習技術合成的逼真音訊、圖像或影片，通常用於製造假新聞、詐騙或惡意中傷。

AI倫理與治理資訊安全電腦視覺

深度偽造是什麼？→

深度偽造偵測 Deepfake Detection

深度偽造偵測旨在辨識經由深度學習技術偽造或操縱的影音內容，以防止不實資訊傳播和維護資訊真實性。

深度學習電腦視覺資訊安全

深度偽造偵測是什麼？→

去噪擴散機率模型 Denoising Diffusion Probabilistic Model

去噪擴散機率模型（DDPM）是一種生成模型，通過逐步添加高斯噪聲破壞資料，然後學習逆向過程，從噪聲中重建資料，實現高品質的資料生成。

去噪擴散機率模型是什麼？→

密集圖像描述 Dense Image Captioning

密集圖像描述是一項結合電腦視覺與自然語言處理的技術，旨在偵測影像中的多個感興趣區域，並為每個區域生成對應的文字描述。

電腦視覺自然語言處理多模態AI

密集圖像描述是什麼？→

密集連接網路 DenseNet

DenseNet是一種深度學習模型，透過密集連接每一層到所有後續層，最大化層之間的資訊流動，增強特徵重用，減少梯度消失問題。

密集連接網路是什麼？→

深度估計 Depth Estimation

從2D影像推斷場景的3D深度資訊，用於3D重建、機器人導航、AR應用和自動駕駛。

深度估計是什麼？→

骰子損失函數 Dice Loss

Dice Loss是一種用於衡量兩個樣本之間相似度的損失函數，尤其適用於處理不平衡的資料集，常見於圖像分割任務。

骰子損失函數是什麼？→

擴散模型 Diffusion Model

擴散模型是一種生成模型，透過逐步將雜訊還原成清晰圖像，達成從隨機雜訊生成資料的目的

擴散模型是什麼？→

解耦空間注意力 Disentangling Spatial Attention

將空間注意力機制中不同維度或語義因素的表示分離，使模型能獨立控制空間定位與內容特徵的技術。

電腦視覺注意力機制Transformer

解耦空間注意力是什麼？→

文檔理解 Document Understanding

將掃描或數位文檔轉換為結構化信息的技術，理解文檔內容、版面和邏輯關係。

電腦視覺自然語言處理AI應用

文檔理解是什麼？→

E

7 個術語

邊緣人工智慧 Edge AI

邊緣人工智慧是指在靠近資料來源的邊緣設備上執行AI運算，而非在雲端伺服器上。可降低延遲、節省頻寬、保護隱私。

AI應用模型部署電腦視覺

邊緣人工智慧是什麼？→

邊界偵測 Edge Detection

識別影像中的邊界與輪廓線，通常輸出二值圖像或邊界概率圖，是許多高級視覺任務的前置步驟。

電腦視覺邊界偵測低階特徵

邊界偵測是什麼？→

高效網路 EfficientNet

EfficientNet 是一系列由 Google 開發的卷積神經網路架構，旨在透過複合縮放方法，在準確度和效率之間取得最佳平衡。

高效網路是什麼？→

特徵向量 Eigenvector

特徵向量是指在線性變換下，方向保持不變或僅反向的非零向量。它對應於特定的特徵值，代表變換的主要作用方向。

數學基礎機器學習電腦視覺

特徵向量是什麼？→

具身人工智慧 Embodied AI

具身人工智慧是指讓AI系統擁有物理軀體，透過與環境互動來學習和解決問題，強調感知、行動和環境之間的循環。

機器學習強化學習AI應用

具身人工智慧是什麼？→

編碼器 Encoder

編碼器將輸入資料轉換為固定長度的向量表示，提取其語義特徵，以供解碼器或下游任務使用。

深度學習神經網路自然語言處理

編碼器是什麼？→

端到端自動駕駛 End-to-End Learning for Driving

端到端自動駕駛是一種深度學習架構，直接將感測器資料轉換為駕駛控制指令，無需人工設計中間模組。

端到端自動駕駛是什麼？→

F

6 個術語

人臉辨識 Face Recognition

人臉辨識是一種電腦視覺技術，用於自動識別或驗證圖像或影片中的人臉，並與已知人臉資料庫進行比對。

人臉辨識是什麼？→

加速區域卷積網路 Faster R-CNN

Faster R-CNN是一種物件偵測演算法，它使用區域建議網路(RPN)來生成候選區域，並使用卷積神經網路(CNN)對這些區域進行分類和邊界框回歸。

加速區域卷積網路是什麼？→

特徵圖 Feature Map

特徵圖是卷積神經網絡中，經過卷積層運算後所產生的多維陣列，用於呈現輸入資料的特定局部特徵與空間結構。

電腦視覺神經網路深度學習

特徵圖是什麼？→

特徵金字塔網路 Feature Pyramid Network

特徵金字塔網路(FPN)是一種用於目標檢測的深度學習架構，旨在從不同尺度的特徵圖中提取豐富的語義信息，以提升小目標的檢測性能。

特徵金字塔網路是什麼？→

焦點損失函數 Focal Loss

焦點損失函數 (Focal Loss) 是一種用於解決物件偵測中類別不平衡問題的損失函數，它通過降低易分類樣本的權重，使模型更關注難分類樣本。

深度學習模型訓練模型評估

焦點損失函數是什麼？→

基礎模型 Foundation Model

基礎模型是使用大量未標記數據訓練的大型模型，可適應多種下游任務，展現出強大的泛化能力和遷移學習能力。

機器學習深度學習自然語言處理

基礎模型是什麼？→

G

7 個術語

高斯雜訊 Gaussian Noise

高斯雜訊是一種機率密度符合常態分佈的隨機干擾訊號，數值多集中於平均值，常應用於資料擴增與生成模型中。

資料處理電腦視覺生成式AI

高斯雜訊是什麼？→

地理空間AI Geospatial AI

地理空間AI結合人工智慧與地理空間資料，分析地球表面現象，從衛星影像、地圖和感測器數據中提取洞察，支援智慧城市、環境監測等應用。

AI應用電腦視覺機器學習

地理空間AI 是什麼？→

圖形處理器 GPU

圖形處理器（GPU）是一種專為並行處理設計的電子電路，最初用於加速圖像渲染，現廣泛應用於深度學習等需要大量計算的領域。

機器學習深度學習模型訓練

圖形處理器是什麼？→

梯度加權類激活圖 Grad-CAM

Grad-CAM是一種可視化技術，利用梯度資訊來突出顯示輸入圖像中對模型預測最重要的區域，提供模型決策的可解釋性。

深度學習電腦視覺模型評估

梯度加權類激活圖是什麼？→

抓取規劃 Grasp Planning

抓取規劃是機器人學中的核心技術，旨在為機器人手臂規劃出有效且穩定的抓取動作，以成功拾取、移動或操作物體，確保任務執行效率與安全性。

抓取規劃是什麼？→

真實邊界框 Ground Truth Box

真實邊界框是電腦視覺模型訓練與評估中，由人工標註的正確物件位置範圍，作為衡量預測結果的基準標準。

電腦視覺資料處理模型訓練

真實邊界框是什麼？→

目標定位 Grounding

在圖像中定位自然語言描述的物體，通過將文本表達與圖像中的視覺區域進行對應，實現視覺語言理解。

電腦視覺多模態AI神經網路

目標定位是什麼？→

H

4 個術語

手部姿勢識別 Hand Gesture Recognition

識別和分類手部的形狀、位置和動作，用於人機互動、手語識別等應用。

電腦視覺多模態AIAI應用

手部姿勢識別是什麼？→

高維度與高階特徵 High

指特徵空間中的極高維度狀態，或深度學習模型萃取出具備高度抽象、全局觀念與豐富語意的高階向量表示。

機器學習特徵工程資料處理

高維度與高階特徵是什麼？→

人機互動 Human-Robot Interaction

研究人類與機器人之間互動的跨學科領域，旨在設計更自然、高效且安全的協作方式，提升使用者體驗與系統效能。

AI應用電腦視覺自然語言處理

人機互動是什麼？→

高光譜影像分析 Hyperspectral Image Analysis

分析包含數百個窄頻譜波段的影像，以識別材料成分與特性。

電腦視覺資料處理AI應用

高光譜影像分析是什麼？→

I

15 個術語

數位影像處理 Image

AI 模型對數位圖片進行處理、分析或生成的基礎技術，涵蓋像素級的特徵萃取、語意解析與跨模態影像合成。

電腦視覺生成式AI資料處理

數位影像處理是什麼？→

影像描述生成 Image Captioning

影像描述生成（Image Captioning）是電腦視覺與自然語言處理的交叉任務，旨在讓模型自動為輸入影像產生自然語言描述，是多模態 AI 的核心應用之一，評估指標常用 BLEU、CIDEr、SPI

電腦視覺自然語言處理多模態AI

影像描述生成是什麼？→

圖像分類 Image Classification

圖像分類是電腦視覺中的一項任務，旨在將圖像分配到預定義的類別中。模型學習圖像特徵，並基於這些特徵預測圖像所屬的類別。

圖像分類是什麼？→

圖像生成 Image Generation

圖像生成是一種人工智慧技術，旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。

圖像生成是什麼？→

影像修補 Image Inpainting

利用周邊像素信息自動填充或重建影像中的遺失、損壞或標記區域，用於去除物體、修復老照片等。

電腦視覺影像生成影像修復

影像修補是什麼？→

圖像識別 Image Recognition

圖像識別是電腦視覺領域的一項任務，旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛，可能涉及定位和標記圖像中的多個對象。

圖像識別是什麼？→

影像分割 Image Segmentation

影像分割是一種電腦視覺技術，將影像劃分為多個區域或物件，以便分析或理解影像內容，常用於醫學影像分析、自動駕駛等。

影像分割是什麼？→

影像超解析度 Image Super-resolution

從低解析度影像重建高解析度版本，增加像素數或恢復細節，廣泛應用於監視、醫療影像、老照片增強。

電腦視覺影像增強深度學習

影像超解析度是什麼？→

圖像轉文字生成 Image-to-Text Generation

圖像轉文字生成是一種將視覺資訊轉換為自然語言描述的技術，使電腦能夠理解並用文字表達圖片內容。

圖像轉文字生成是什麼？→

啟發網路 Inception Network

Inception Network 是一種深度卷積神經網路架構，旨在透過並行使用多種卷積核大小，捕捉不同尺度的特徵，提升模型效能。

啟發網路是什麼？→

推論 Inference

推論是指利用已訓練好的機器學習模型，對新的、未曾見過的資料進行預測或判斷的過程。是模型部署後的核心環節。

機器學習模型部署AI應用

推論是什麼？→

實例分割 Instance Segmentation

在影像中同時偵測物件並為每個獨立個體生成精確像素級遮罩，區分同類中的不同個體。

電腦視覺影像分割物件偵測

實例分割是什麼？→

標註者一致性 Inter-annotator Agreement

標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好，反之則可能需要重新評估標註規範。

機器學習資料處理模型訓練

標註者一致性是什麼？→

交並比 Intersection over Union

交並比是物件偵測中，用來評估預測框與真實框定位準確度的指標，計算兩者重疊面積與聯集面積的比率

電腦視覺模型評估

交並比是什麼？→

交聯比 IoU (Intersection over Union)

衡量兩個邊界框或區域重疊程度的指標，值域 0 到 1，常用於物件偵測與影像分割的評估。

電腦視覺物件偵測影像分割

交聯比是什麼？→

L

6 個術語

標籤雜訊 Label Noise

標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能，導致模型學習到錯誤的模式。

標籤雜訊是什麼？→

土地覆蓋分類 Land Cover Classification

土地覆蓋分類是將遙感影像像素歸類為不同地物類型的過程。

電腦視覺機器學習深度學習

土地覆蓋分類是什麼？→

潛在擴散模型 Latent Diffusion Model

潛在擴散模型(LDM)是一種生成式AI模型，透過在潛在空間中進行擴散和逆擴散過程，生成高解析度、高品質的圖像或其他資料。

潛在擴散模型是什麼？→

層歸一化 Layer Normalization

層歸一化是一種神經網路正規化技術，它在每個層級對所有神經元的激活值進行歸一化，以加速訓練並提高泛化能力。

深度學習神經網路模型訓練

層歸一化是什麼？→

光達資料處理 LiDAR Processing

光達資料處理是指對雷射雷達感測器採集的三維點雲資料進行清理、分析與解釋的過程，旨在從中提取有意義的空間資訊，廣泛應用於自動駕駛、測繪與環境監測等領域。

電腦視覺資料處理深度學習

光達資料處理是什麼？→

低光影像增強 Low-Light Image Enhancement

利用深度學習技術改善在弱光或夜間條件下拍攝的影像品質，提升亮度、降低雜訊並恢復細節。

電腦視覺影像增強深度學習

低光影像增強是什麼？→

M

10 個術語

影像製圖 Map Generation from Imagery

從衛星、航空或無人機影像中提取地理資訊，自動或半自動生成地圖。

影像製圖是什麼？→

遮罩區域卷積網路 Mask R-CNN

Mask R-CNN是一種深度學習模型，用於物件偵測、實例分割和人體姿勢估計。它擴展了Faster R-CNN，增加了預測每個物件像素級別遮罩的分支。

遮罩區域卷積網路是什麼？→

醫療影像分析 Medical Image Analysis

醫療影像分析利用AI技術，自動或半自動地分析醫學影像，輔助醫生進行疾病診斷、病情監測和治療規劃，提高診斷效率和準確性。

醫療AI深度學習電腦視覺

醫療影像分析是什麼？→

深度混合 Mixture of Depths

深度混合是一種模型架構，它結合了多個不同深度的子網路，以提升模型的表達能力和泛化能力，並允許模型根據輸入動態調整其深度。

深度學習模型訓練神經網路

深度混合是什麼？→

移動網路 MobileNet

MobileNet是一種針對移動和嵌入式設備設計的輕量級深度神經網路架構，旨在實現高效的資源利用和快速的推論速度。

深度學習電腦視覺模型部署

移動網路是什麼？→

運動估計 Motion Estimation

從視頻序列中估計場景或相機的運動，包括物體運動、相機運動（ego-motion）及場景流等。

電腦視覺視頻分析運動估計

運動估計是什麼？→

自駕車運動規劃 Motion Planning for Autonomous Vehicles

自駕車運動規劃是為自動駕駛車輛計算安全、可行且最佳行駛路徑的技術，確保車輛能避開障礙物並達成駕駛目標。

最佳化AI應用強化學習

自駕車運動規劃是什麼？→

多物件追蹤 Multi-Object Tracking

一種在連續影像中偵測並識別多個移動物件，持續賦予穩定追蹤編號與軌跡預測的電腦視覺分析技術。

電腦視覺深度學習時序分析

多物件追蹤是什麼？→

多模態學習 Multimodal Learning

多模態學習是一種機器學習方法，旨在從多種不同類型（模態）的資料中學習，例如圖像、文字和音訊，以提升模型效能。

多模態學習是什麼？→

互信息 Mutual Information

互信息衡量兩個隨機變數之間相互包含的信息量，數值越大代表相關性越高，常用於特徵選擇、圖像配準等任務。

機器學習特徵工程模型評估

互信息是什麼？→

N

3 個術語

神經輻射場 NeRF (Neural Radiance Field)

利用神經網絡隱式表達3D場景的函數，能從多視角影像重建逼真的3D場景和新視角合成。

神經輻射場是什麼？→

神經輻射場景 Neural Radiance Fields

神經輻射場景（NeRF）是一種使用神經網路表示3D場景的新穎方法，它通過學習場景的體積密度和顏色來實現逼真的渲染。

神經輻射場景是什麼？→

非極大值抑制 Non-Maximum Suppression

非極大值抑制 (NMS) 是一種在物件偵測中用於消除重複框的技術，它會保留置信度最高的框，並抑制與之高度重疊的其他框。

非極大值抑制是什麼？→

O

7 個術語

物件偵測 Object Detection

物件偵測是一種電腦視覺技術，用於識別影像或影片中特定物件的位置和類別，常用於自動駕駛、安全監控、零售分析等。

物件偵測是什麼？→

衛星影像物件偵測 Object Detection in Satellite Imagery

利用AI技術在衛星影像中識別並定位特定物件，如建築、車輛、船隻等。

衛星影像物件偵測是什麼？→

物體操作 Object Manipulation

機器人透過感測與控制，對實體物件進行抓取、移動、放置等動作，以完成特定任務的技術。

物體操作是什麼？→

光學字元辨識 OCR

光學字元辨識（OCR）是一種技術，能將圖像中的文字轉換為機器可讀的文字格式，例如將掃描文件轉換為可編輯的文字。

光學字元辨識是什麼？→

單樣本學習 One-shot Learning

單樣本學習是一種機器學習方法，旨在僅使用一個或少數幾個樣本來學習新的類別或概念，模擬人類快速學習的能力。

機器學習深度學習模型訓練

單樣本學習是什麼？→

OpenAI的CLIP OpenAI CLIP

OpenAI開發的多模態模型，透過對比學習理解圖像與文字關係，實現零樣本識別。

OpenAI的CLIP 是什麼？→

光流估計 Optical Flow

估計影片相鄰幀之間像素的運動向量，用於動作檢測、影片壓縮、視覺導航等應用。

光流估計是什麼？→

P

9 個術語

全景特徵金字塔 Panoptic FPN

一種整合實例分割與語義分割的神經網路架構，透過特徵金字塔網路同時處理前景物件與背景環境的高效模型。

全景特徵金字塔是什麼？→

全景頭部 Panoptic Head

深度學習模型中用於同時執行語義與實例分割的模組。

全景頭部是什麼？→

全景品質 Panoptic Quality

全景品質是評估全景分割同時辨識物件與分割區域是否正確的綜合指標。

模型評估電腦視覺深度學習

全景品質是什麼？→

全景分割 Panoptic Segmentation

結合語義分割和實例分割，同時處理可數物體（分個體）和不可數物體（只分類），提供完整的場景理解。

全景分割是什麼？→

全色銳化 Pansharpening

全色銳化是將高解析度全色影像與低解析度多光譜影像融合，生成高空間解析度且色彩豐富的多光譜影像。

電腦視覺深度學習資料處理

全色銳化是什麼？→

病理學AI Pathology AI

病理學AI利用人工智慧分析組織切片影像，輔助病理醫生診斷癌症、感染等疾病，提升診斷效率和客觀性。

醫療AI深度學習電腦視覺

病理學AI 是什麼？→

點雲 Point Cloud

三維空間中由大量無序點組成的資料結構，每點含坐標和屬性，用於3D感知、掃描、建模和分析。

點雲是什麼？→

姿態估計 Pose Estimation

確定人體或物體在三維空間中的位置和方向，通常輸出關鍵點（如關節位置）的坐標。

姿態估計是什麼？→

程式化標註 Programmatic Labeling

程式化標註是一種利用程式碼（例如，規則、啟發式方法或外部知識庫）自動生成訓練資料標籤的技術，以加速模型開發。

程式化標註是什麼？→

R

12 個術語

放射醫學AI Radiology AI

放射醫學AI利用人工智慧技術分析醫學影像，輔助醫生診斷疾病，提高診斷效率和準確性，並減少人為錯誤。

醫療AI深度學習電腦視覺

放射醫學AI 是什麼？→

真實資料與環境 Real

Real指真實世界資料或物理環境，作為生成式AI判別真偽的基準，或強化學習訓練後最終部署落地的目標場景。

強化學習生成式AI模型部署

真實資料與環境是什麼？→

辨識品質 Recognition Quality

衡量AI系統在理解和識別輸入資料（如圖像、語音、文本）時的準確性與可靠性。高辨識品質是確保模型效能和應用成功的關鍵。

電腦視覺模型評估多模態AI

辨識品質是什麼？→

視覺模型可靠性 Reliability in Vision

電腦視覺模型在分佈偏移、對抗攻擊、不確定性估計等挑戰下維持穩定預測品質的能力評估框架。

電腦視覺模型可靠性對抗訓練

視覺模型可靠性是什麼？→

遙感技術 Remote Sensing

遙感技術是從遠處獲取地球表面資訊的科學與藝術，不直接接觸目標。

資料處理AI應用電腦視覺

遙感技術是什麼？→

殘差網路 Residual Network

殘差網路 (ResNet) 是一種深度神經網路架構，透過引入殘差連接來解決深度網路的梯度消失問題，允許訓練非常深的網路。

殘差網路是什麼？→

殘差網路 ResNet

ResNet是一種深度學習模型，透過引入殘差連接解決深度神經網路訓練時的梯度消失問題，允許網路學習殘差映射而非直接映射。

殘差網路是什麼？→

紅綠藍色彩模型 RGB

以紅（Red）、綠（Green）、藍（Blue）三原色疊加表示顏色的加法混色模型，是數位影像與電腦視覺任務中圖像表示的基礎格式。

電腦視覺影像處理深度學習

紅綠藍色彩模型是什麼？→

電腦視覺強化學習 RL for Computer Vision

結合強化學習與電腦視覺技術，讓代理程式透過與環境互動及獲得獎勵，學習解決動態且需序列決策的視覺任務。

電腦視覺強化學習模型訓練

電腦視覺強化學習是什麼？→

機器人學習 Robot Learning

機器人學習是指讓機器人透過感測資料與互動經驗，自主學習新技能與適應環境的技術。

機器學習強化學習AI應用

機器人學習是什麼？→

機器視覺 Robot Vision

使機器人能像人類一樣感知並理解周遭環境的技術，透過影像處理與分析，執行導航、辨識、操作等任務。

電腦視覺深度學習機器學習

機器視覺是什麼？→

機器人學 Robotics

機器人學是設計、建造、操作和應用機器人的科學和工程學科，涉及機械工程、電子工程、電腦科學等多個領域。

AI應用機器學習電腦視覺

機器人學是什麼？→

S

15 個術語

顯著性地圖 Saliency Map

顯著性地圖是一種圖像處理技術，用於突出顯示圖像中最引人注目的區域。它通過計算每個像素的顯著性得分來實現，得分越高表示該區域越顯著。

電腦視覺機器人學AI應用

顯著性地圖是什麼？→

顯著物體檢測 Salient Object Detection

自動識別並分割影像中最吸引人類視覺注意的區域，常應用於影像縮略圖生成與視覺注意力研究。

電腦視覺注意力機制影像分割

顯著物體檢測是什麼？→

合成孔徑雷達影像處理 SAR Imagery Processing

處理合成孔徑雷達影像，提取地物資訊，應用於環境監測、災害評估等領域。

電腦視覺資料處理AI應用

合成孔徑雷達影像處理是什麼？→

場景圖生成 Scene Graph Generation

將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件，邊緣表示物件間的關係，賦予機器深度的場景理解力。

電腦視覺深度學習多模態AI

場景圖生成是什麼？→

通用分割模型 Segment Anything Model

Meta提出的大規模基礎模型，能對任意圖像進行實例分割，採用提示工程實現靈活的互動式分割。

通用分割模型是什麼？→

分割品質 Segmentation Quality

衡量圖像分割任務中預測區域與真實區域重疊程度的指標。

模型評估電腦視覺深度學習

分割品質是什麼？→

語義分割 Semantic Segmentation

對圖像中每個像素進行類別標記，將整張圖像分解為具有語義意義的區域的電腦視覺任務。

電腦視覺圖像分割深度學習

語義分割是什麼？→

感測器融合 Sensor Fusion

感測器融合是整合多個異質感測器資料的技術，旨在消除單一硬體盲區，提供更精確且可靠的環境感知能力。

多模態AI電腦視覺資料處理

感測器融合是什麼？→

共享嵌入空間 Shared Embedding Space

將不同模態資料映射到同一向量空間，使它們可相互比較與理解。

多模態AI深度學習自然語言處理

共享嵌入空間是什麼？→

連體神經網路 Siamese Network

連體神經網路是一種包含兩個或多個共享相同權重的相同神經網路的架構，用於比較輸入之間的相似性或關係。

連體神經網路是什麼？→

穩定擴散 Stable Diffusion

Stable Diffusion 是一種潛在擴散模型，用於根據文字描述生成高質量圖像，透過迭代去噪過程，從隨機噪聲中產生逼真圖像。

生成式AI電腦視覺深度學習

穩定擴散是什麼？→

立體匹配 Stereo Matching

利用立體影像對（左右視圖）的對應像素差異估計深度信息，是三維重建的基礎。

電腦視覺3D重建深度估計

立體匹配是什麼？→

風格轉換 Style Transfer

風格轉換是一種使用人工智慧技術，將一張圖片的風格應用到另一張圖片的內容上的方法，創造出具有新風格的圖像。

電腦視覺深度學習生成式AI

風格轉換是什麼？→

超解析度重建 Super-resolution

超解析度重建是一種電腦視覺技術，旨在從低解析度影像重建出高解析度影像，提升影像的清晰度和細節。

超解析度重建是什麼？→

Swin變換器 Swin Transformer

Swin Transformer是一種層級式的Transformer模型，用於電腦視覺任務，透過移動視窗機制有效降低計算複雜度，並提升模型效能。

Swin變換器是什麼？→

T

7 個術語

時間動作定位 Temporal Action Localization

在視頻中精確識別和定位動作發生的時間段，給出動作開始和結束的時間戳。

時間動作定位是什麼？→

測試時運算 Test-time Compute

測試時運算是指在模型部署後，進行推論時所使用的運算資源。目標是在效能和延遲之間取得平衡，以滿足實際應用需求。

模型部署最佳化模型評估

測試時運算是什麼？→

文字生成3D模型 Text-to-3D

文字生成3D模型是指利用人工智慧技術，將文字描述轉換為對應的3D模型，實現從文字到視覺化模型的自動生成。

生成式AI自然語言處理電腦視覺

文字生成3D模型是什麼？→

文字生成圖像 Text-to-Image

文字生成圖像是一種人工智慧技術，它能根據文字描述自動生成對應的圖像，實現文字內容的視覺化呈現。

機器學習深度學習自然語言處理

文字生成圖像是什麼？→

文字轉圖像生成 Text-to-Image Generation

透過輸入自然語言描述，利用深度學習模型自動合成出符合語意內容與風格之圖像的多模態技術。

生成式AI多模態AI深度學習

文字轉圖像生成是什麼？→

文字生成影片 Text-to-Video

文字生成影片是一種人工智慧技術，它能根據文字描述自動生成對應的影片，將文字內容轉化為動態視覺呈現。

機器學習深度學習自然語言處理

文字生成影片是什麼？→

截斷技巧 Truncation Trick

截斷技巧是一種在生成式模型中，透過限制潛在向量採樣範圍來提升生成品質的策略，主要用多樣性來換取更高的影像或資料保真度。

生成式AI電腦視覺模型評估

截斷技巧是什麼？→

U

2 個術語

U型網路 U-Net

U-Net是一種用於圖像分割的深度學習模型，其架構呈U型，包含編碼器和解碼器，能有效捕捉圖像的上下文資訊和精確定位分割邊界。

機器學習深度學習神經網路

U型網路是什麼？→

非結構化資料 Unstructured Data

非結構化資料是指沒有預定義格式或組織方式的資料，難以直接儲存和分析，例如文字、圖像、音訊和影片。

資料處理AI基礎自然語言處理

非結構化資料是什麼？→

V

8 個術語

影片全景分割 Video Panoptic Segmentation

一種結合語義與實例分割的電腦視覺技術，能對影片中每個像素進行精確的物件類別與個體識別追蹤。

電腦視覺深度學習多模態AI

影片全景分割是什麼？→

影片理解 Video Understanding

AI 模型分析並理解視頻內容的能力，包括識別物體、動作、場景和事件發展過程。

多模態AI電腦視覺深度學習

影片理解是什麼？→

視覺與語言 Vision and Language

結合電腦視覺與自然語言處理的跨學科領域，使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。

視覺與語言是什麼？→

視覺變換器 Vision Transformer

Vision Transformer (ViT) 是一種將 Transformer 架構應用於圖像識別的深度學習模型，它將圖像分割成小塊，並將其視為序列進行處理。

視覺變換器是什麼？→

視覺語言模型 Vision-Language Model

視覺語言模型結合電腦視覺與自然語言處理，使機器能理解並生成圖像與文字之間的關聯，應用廣泛，例如圖像描述生成和視覺問答。

視覺語言模型是什麼？→

視覺問答 Visual Question Answering

視覺問答（VQA）是一種人工智慧任務，要求模型根據給定的圖像回答自然語言問題，結合了電腦視覺和自然語言處理。

視覺問答是什麼？→

視覺關係檢測 Visual Relationship Detection

視覺關係檢測是一種電腦視覺技術，專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。

電腦視覺深度學習多模態AI

視覺關係檢測是什麼？→

視覺敘事 Visual Storytelling

視覺敘事指利用連續圖像或影片傳達故事的技術。在多模態AI中，模型能將文本轉化為具連貫情節的視覺序列。

多模態AI生成式AI電腦視覺

視覺敘事是什麼？→

W

1 個術語

弱監督學習 Weak Supervision

弱監督學習利用不精確、不完整或帶有雜訊的標籤資料來訓練機器學習模型，降低對大量精確標註資料的依賴。

弱監督學習是什麼？→

Y

1 個術語

你只看一次 YOLO

YOLO (You Only Look Once) 是一種即時物件偵測演算法，它將物件偵測視為一個迴歸問題，直接從完整圖像預測邊界框和類別機率。

你只看一次是什麼？→

其他

3 個術語

3D高斯分佈溅射 3D Gaussian Splatting

用3D高斯分佈代表場景幾何，通過可微分光柵化實現高速3D重建和新視角合成。

3D高斯分佈溅射是什麼？→

三維物件偵測 3D Object Detection

三維物件偵測是電腦視覺技術，旨在識別並定位三維空間中的物體，提供其類別、位置及尺寸資訊，對於自動駕駛、機器人視覺等至關重要。

電腦視覺深度學習機器學習

三維物件偵測是什麼？→

三維視覺 3D Vision

利用多個視角或深度信息重構和理解三維場景的技術，包括物體形狀、位置和空間關係。