行動識別 Action Recognition
從視頻中識別和分類人體或物體執行的動作,將視頻片段分配給預定義的動作類別。
瀏覽 AITerms.tw 中標籤為「電腦視覺」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「電腦視覺」,共 159 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「電腦視覺」 ,共 159 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
從視頻中識別和分類人體或物體執行的動作,將視頻片段分配給預定義的動作類別。
啟動圖是卷積神經網路中,輸入資料經過卷積與啟動函數處理後所輸出的多維度特徵矩陣。
對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改,使AI模型產生錯誤輸出的攻擊方式,用於測試模型的魯棒性。
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
錨框(Anchor Box)是在目標檢測中預先定義的一系列具有不同大小和長寬比的矩形框,用於在圖像中生成候選區域,以便模型進行目標分類和邊界框回歸。
注意力圖是注意力機制的內部權重視覺化表示,呈現模型在處理序列資料時,各個元素之間的相互關注程度與依賴關係。
注意力可視化是一種技術,用於呈現神經網路模型在處理輸入時,將注意力集中在哪些部分。它能幫助理解模型決策過程,並診斷潛在問題。
自動駕駛技術利用感測器、人工智慧和控制系統,使車輛能夠在沒有人為干預的情況下感知環境並自主導航。
自主系統是指能在沒有外部干預下,感知環境、做出決策並執行動作的系統,具備一定程度的獨立性和適應性。
自駕車是指無需人類駕駛員干預,能自主感知環境、做出決策和控制行駛的車輛。自駕系統整合了計算機視覺、傳感器融合、路徑規劃和深度學習,是 AI 應用中最複雜的系統。
膠囊網路是一種神經網路架構,旨在解決卷積神經網路在處理物件方向和空間關係上的不足,透過膠囊和路由機制,更有效地捕捉物件的層次結構。
比較不同時間點的影像,識別地表或物件狀態的變化,廣泛應用於監測。
CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習,將圖像與文字描述連結的模型,能進行零樣本圖像分類,無需針對特定任務重新訓練。
電腦視覺(Computer Vision)讓 AI 從圖像與影片中辨識物件、文字、人臉,廣泛用於自駕車、人臉辨識、醫療影像分析、工廠瑕疵檢測。
機器人視覺是指機器人使用攝像頭和深度傳感器配合計算機視覺算法,感知和理解視覺世界,完成抓取、組裝、檢測等任務。它使機器人能在動態環境中自主操作,廣泛應用於製造、物流和醫療。
內容生成是指使用人工智慧技術自動創建文字、圖像、音訊或影片等內容的過程,旨在降低內容創作成本並提高效率。
對比學習是一種自監督學習方法,通過學習區分相似和不相似的樣本,從而提取資料的有效表示,無需人工標註。
ControlNet 是一種神經網路結構,用於控制大型擴散模型,例如 Stable Diffusion,以實現更精確的圖像生成控制,例如基於草圖或邊緣圖生成圖像。
卷積運算是提取特徵的數學操作,透過濾波器在資料上滑動捕捉邊緣與紋理,廣泛應用於電腦視覺領域。
神經網路中利用卷積運算自動提取局部特徵的層級,通過多個小尺寸濾波器滑動掃描輸入數據,能有效減少參數數量並增強空間特徵學習能力。
專門處理圖像的神經網路,用小窗口(卷積核)掃過圖片提取局部特徵,參數共享大幅減少計算量
餘弦相似度是一種衡量兩個非零向量之間夾角餘弦值的度量方法,常用於評估文本或資料點之間的相似程度。
資料標註是為資料集添加標籤或註解的過程,使機器學習模型能夠理解和學習這些資料,是模型訓練的基礎。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
資料標註是指為原始資料添加標籤的過程,這些標籤提供關於資料的額外資訊,用於訓練監督式機器學習模型。
深度偽造是利用深度學習技術合成的逼真音訊、圖像或影片,通常用於製造假新聞、詐騙或惡意中傷。
深度偽造偵測旨在辨識經由深度學習技術偽造或操縱的影音內容,以防止不實資訊傳播和維護資訊真實性。
去噪擴散機率模型(DDPM)是一種生成模型,通過逐步添加高斯噪聲破壞資料,然後學習逆向過程,從噪聲中重建資料,實現高品質的資料生成。
密集圖像描述是一項結合電腦視覺與自然語言處理的技術,旨在偵測影像中的多個感興趣區域,並為每個區域生成對應的文字描述。
DenseNet是一種深度學習模型,透過密集連接每一層到所有後續層,最大化層之間的資訊流動,增強特徵重用,減少梯度消失問題。
從2D影像推斷場景的3D深度資訊,用於3D重建、機器人導航、AR應用和自動駕駛。
Dice Loss是一種用於衡量兩個樣本之間相似度的損失函數,尤其適用於處理不平衡的資料集,常見於圖像分割任務。
擴散模型是一種生成模型,透過逐步將雜訊還原成清晰圖像,達成從隨機雜訊生成資料的目的
將空間注意力機制中不同維度或語義因素的表示分離,使模型能獨立控制空間定位與內容特徵的技術。
將掃描或數位文檔轉換為結構化信息的技術,理解文檔內容、版面和邏輯關係。
邊緣人工智慧是指在靠近資料來源的邊緣設備上執行AI運算,而非在雲端伺服器上。可降低延遲、節省頻寬、保護隱私。
識別影像中的邊界與輪廓線,通常輸出二值圖像或邊界概率圖,是許多高級視覺任務的前置步驟。
EfficientNet 是一系列由 Google 開發的卷積神經網路架構,旨在透過複合縮放方法,在準確度和效率之間取得最佳平衡。
特徵向量是指在線性變換下,方向保持不變或僅反向的非零向量。它對應於特定的特徵值,代表變換的主要作用方向。
具身人工智慧是指讓AI系統擁有物理軀體,透過與環境互動來學習和解決問題,強調感知、行動和環境之間的循環。
編碼器將輸入資料轉換為固定長度的向量表示,提取其語義特徵,以供解碼器或下游任務使用。
端到端自動駕駛是一種深度學習架構,直接將感測器資料轉換為駕駛控制指令,無需人工設計中間模組。
人臉辨識是一種電腦視覺技術,用於自動識別或驗證圖像或影片中的人臉,並與已知人臉資料庫進行比對。
Faster R-CNN是一種物件偵測演算法,它使用區域建議網路(RPN)來生成候選區域,並使用卷積神經網路(CNN)對這些區域進行分類和邊界框回歸。
特徵圖是卷積神經網絡中,經過卷積層運算後所產生的多維陣列,用於呈現輸入資料的特定局部特徵與空間結構。
特徵金字塔網路(FPN)是一種用於目標檢測的深度學習架構,旨在從不同尺度的特徵圖中提取豐富的語義信息,以提升小目標的檢測性能。
焦點損失函數 (Focal Loss) 是一種用於解決物件偵測中類別不平衡問題的損失函數,它通過降低易分類樣本的權重,使模型更關注難分類樣本。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
高斯雜訊是一種機率密度符合常態分佈的隨機干擾訊號,數值多集中於平均值,常應用於資料擴增與生成模型中。
地理空間AI結合人工智慧與地理空間資料,分析地球表面現象,從衛星影像、地圖和感測器數據中提取洞察,支援智慧城市、環境監測等應用。
圖形處理器(GPU)是一種專為並行處理設計的電子電路,最初用於加速圖像渲染,現廣泛應用於深度學習等需要大量計算的領域。
Grad-CAM是一種可視化技術,利用梯度資訊來突出顯示輸入圖像中對模型預測最重要的區域,提供模型決策的可解釋性。
抓取規劃是機器人學中的核心技術,旨在為機器人手臂規劃出有效且穩定的抓取動作,以成功拾取、移動或操作物體,確保任務執行效率與安全性。
真實邊界框是電腦視覺模型訓練與評估中,由人工標註的正確物件位置範圍,作為衡量預測結果的基準標準。
在圖像中定位自然語言描述的物體,通過將文本表達與圖像中的視覺區域進行對應,實現視覺語言理解。
識別和分類手部的形狀、位置和動作,用於人機互動、手語識別等應用。
指特徵空間中的極高維度狀態,或深度學習模型萃取出具備高度抽象、全局觀念與豐富語意的高階向量表示。
研究人類與機器人之間互動的跨學科領域,旨在設計更自然、高效且安全的協作方式,提升使用者體驗與系統效能。
分析包含數百個窄頻譜波段的影像,以識別材料成分與特性。
AI 模型對數位圖片進行處理、分析或生成的基礎技術,涵蓋像素級的特徵萃取、語意解析與跨模態影像合成。
影像描述生成(Image Captioning)是電腦視覺與自然語言處理的交叉任務,旨在讓模型自動為輸入影像產生自然語言描述,是多模態 AI 的核心應用之一,評估指標常用 BLEU、CIDEr、SPI
圖像分類是電腦視覺中的一項任務,旨在將圖像分配到預定義的類別中。模型學習圖像特徵,並基於這些特徵預測圖像所屬的類別。
圖像生成是一種人工智慧技術,旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。
利用周邊像素信息自動填充或重建影像中的遺失、損壞或標記區域,用於去除物體、修復老照片等。
圖像識別是電腦視覺領域的一項任務,旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛,可能涉及定位和標記圖像中的多個對象。
影像分割是一種電腦視覺技術,將影像劃分為多個區域或物件,以便分析或理解影像內容,常用於醫學影像分析、自動駕駛等。
從低解析度影像重建高解析度版本,增加像素數或恢復細節,廣泛應用於監視、醫療影像、老照片增強。
圖像轉文字生成是一種將視覺資訊轉換為自然語言描述的技術,使電腦能夠理解並用文字表達圖片內容。
Inception Network 是一種深度卷積神經網路架構,旨在透過並行使用多種卷積核大小,捕捉不同尺度的特徵,提升模型效能。
推論是指利用已訓練好的機器學習模型,對新的、未曾見過的資料進行預測或判斷的過程。是模型部署後的核心環節。
在影像中同時偵測物件並為每個獨立個體生成精確像素級遮罩,區分同類中的不同個體。
標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好,反之則可能需要重新評估標註規範。
交並比是物件偵測中,用來評估預測框與真實框定位準確度的指標,計算兩者重疊面積與聯集面積的比率
衡量兩個邊界框或區域重疊程度的指標,值域 0 到 1,常用於物件偵測與影像分割的評估。
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
土地覆蓋分類是將遙感影像像素歸類為不同地物類型的過程。
潛在擴散模型(LDM)是一種生成式AI模型,透過在潛在空間中進行擴散和逆擴散過程,生成高解析度、高品質的圖像或其他資料。
層歸一化是一種神經網路正規化技術,它在每個層級對所有神經元的激活值進行歸一化,以加速訓練並提高泛化能力。
光達資料處理是指對雷射雷達感測器採集的三維點雲資料進行清理、分析與解釋的過程,旨在從中提取有意義的空間資訊,廣泛應用於自動駕駛、測繪與環境監測等領域。
利用深度學習技術改善在弱光或夜間條件下拍攝的影像品質,提升亮度、降低雜訊並恢復細節。
從衛星、航空或無人機影像中提取地理資訊,自動或半自動生成地圖。
Mask R-CNN是一種深度學習模型,用於物件偵測、實例分割和人體姿勢估計。它擴展了Faster R-CNN,增加了預測每個物件像素級別遮罩的分支。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
深度混合是一種模型架構,它結合了多個不同深度的子網路,以提升模型的表達能力和泛化能力,並允許模型根據輸入動態調整其深度。
MobileNet是一種針對移動和嵌入式設備設計的輕量級深度神經網路架構,旨在實現高效的資源利用和快速的推論速度。
從視頻序列中估計場景或相機的運動,包括物體運動、相機運動(ego-motion)及場景流等。
自駕車運動規劃是為自動駕駛車輛計算安全、可行且最佳行駛路徑的技術,確保車輛能避開障礙物並達成駕駛目標。
一種在連續影像中偵測並識別多個移動物件,持續賦予穩定追蹤編號與軌跡預測的電腦視覺分析技術。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
互信息衡量兩個隨機變數之間相互包含的信息量,數值越大代表相關性越高,常用於特徵選擇、圖像配準等任務。
物件偵測是一種電腦視覺技術,用於識別影像或影片中特定物件的位置和類別,常用於自動駕駛、安全監控、零售分析等。
利用AI技術在衛星影像中識別並定位特定物件,如建築、車輛、船隻等。
機器人透過感測與控制,對實體物件進行抓取、移動、放置等動作,以完成特定任務的技術。
光學字元辨識(OCR)是一種技術,能將圖像中的文字轉換為機器可讀的文字格式,例如將掃描文件轉換為可編輯的文字。
單樣本學習是一種機器學習方法,旨在僅使用一個或少數幾個樣本來學習新的類別或概念,模擬人類快速學習的能力。
OpenAI開發的多模態模型,透過對比學習理解圖像與文字關係,實現零樣本識別。
估計影片相鄰幀之間像素的運動向量,用於動作檢測、影片壓縮、視覺導航等應用。
一種整合實例分割與語義分割的神經網路架構,透過特徵金字塔網路同時處理前景物件與背景環境的高效模型。
深度學習模型中用於同時執行語義與實例分割的模組。
全景品質是評估全景分割同時辨識物件與分割區域是否正確的綜合指標。
結合語義分割和實例分割,同時處理可數物體(分個體)和不可數物體(只分類),提供完整的場景理解。
全色銳化是將高解析度全色影像與低解析度多光譜影像融合,生成高空間解析度且色彩豐富的多光譜影像。
病理學AI利用人工智慧分析組織切片影像,輔助病理醫生診斷癌症、感染等疾病,提升診斷效率和客觀性。
三維空間中由大量無序點組成的資料結構,每點含坐標和屬性,用於3D感知、掃描、建模和分析。
確定人體或物體在三維空間中的位置和方向,通常輸出關鍵點(如關節位置)的坐標。
程式化標註是一種利用程式碼(例如,規則、啟發式方法或外部知識庫)自動生成訓練資料標籤的技術,以加速模型開發。
放射醫學AI利用人工智慧技術分析醫學影像,輔助醫生診斷疾病,提高診斷效率和準確性,並減少人為錯誤。
Real指真實世界資料或物理環境,作為生成式AI判別真偽的基準,或強化學習訓練後最終部署落地的目標場景。
衡量AI系統在理解和識別輸入資料(如圖像、語音、文本)時的準確性與可靠性。高辨識品質是確保模型效能和應用成功的關鍵。
電腦視覺模型在分佈偏移、對抗攻擊、不確定性估計等挑戰下維持穩定預測品質的能力評估框架。
遙感技術是從遠處獲取地球表面資訊的科學與藝術,不直接接觸目標。
殘差網路 (ResNet) 是一種深度神經網路架構,透過引入殘差連接來解決深度網路的梯度消失問題,允許訓練非常深的網路。
ResNet是一種深度學習模型,透過引入殘差連接解決深度神經網路訓練時的梯度消失問題,允許網路學習殘差映射而非直接映射。
以紅(Red)、綠(Green)、藍(Blue)三原色疊加表示顏色的加法混色模型,是數位影像與電腦視覺任務中圖像表示的基礎格式。
結合強化學習與電腦視覺技術,讓代理程式透過與環境互動及獲得獎勵,學習解決動態且需序列決策的視覺任務。
機器人學習是指讓機器人透過感測資料與互動經驗,自主學習新技能與適應環境的技術。
使機器人能像人類一樣感知並理解周遭環境的技術,透過影像處理與分析,執行導航、辨識、操作等任務。
機器人學是設計、建造、操作和應用機器人的科學和工程學科,涉及機械工程、電子工程、電腦科學等多個領域。
顯著性地圖是一種圖像處理技術,用於突出顯示圖像中最引人注目的區域。它通過計算每個像素的顯著性得分來實現,得分越高表示該區域越顯著。
自動識別並分割影像中最吸引人類視覺注意的區域,常應用於影像縮略圖生成與視覺注意力研究。
處理合成孔徑雷達影像,提取地物資訊,應用於環境監測、災害評估等領域。
將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件,邊緣表示物件間的關係,賦予機器深度的場景理解力。
Meta提出的大規模基礎模型,能對任意圖像進行實例分割,採用提示工程實現靈活的互動式分割。
衡量圖像分割任務中預測區域與真實區域重疊程度的指標。
對圖像中每個像素進行類別標記,將整張圖像分解為具有語義意義的區域的電腦視覺任務。
感測器融合是整合多個異質感測器資料的技術,旨在消除單一硬體盲區,提供更精確且可靠的環境感知能力。
將不同模態資料映射到同一向量空間,使它們可相互比較與理解。
連體神經網路是一種包含兩個或多個共享相同權重的相同神經網路的架構,用於比較輸入之間的相似性或關係。
Stable Diffusion 是一種潛在擴散模型,用於根據文字描述生成高質量圖像,透過迭代去噪過程,從隨機噪聲中產生逼真圖像。
利用立體影像對(左右視圖)的對應像素差異估計深度信息,是三維重建的基礎。
風格轉換是一種使用人工智慧技術,將一張圖片的風格應用到另一張圖片的內容上的方法,創造出具有新風格的圖像。
超解析度重建是一種電腦視覺技術,旨在從低解析度影像重建出高解析度影像,提升影像的清晰度和細節。
Swin Transformer是一種層級式的Transformer模型,用於電腦視覺任務,透過移動視窗機制有效降低計算複雜度,並提升模型效能。
在視頻中精確識別和定位動作發生的時間段,給出動作開始和結束的時間戳。
測試時運算是指在模型部署後,進行推論時所使用的運算資源。目標是在效能和延遲之間取得平衡,以滿足實際應用需求。
文字生成3D模型是指利用人工智慧技術,將文字描述轉換為對應的3D模型,實現從文字到視覺化模型的自動生成。
文字生成圖像是一種人工智慧技術,它能根據文字描述自動生成對應的圖像,實現文字內容的視覺化呈現。
透過輸入自然語言描述,利用深度學習模型自動合成出符合語意內容與風格之圖像的多模態技術。
文字生成影片是一種人工智慧技術,它能根據文字描述自動生成對應的影片,將文字內容轉化為動態視覺呈現。
截斷技巧是一種在生成式模型中,透過限制潛在向量採樣範圍來提升生成品質的策略,主要用多樣性來換取更高的影像或資料保真度。
一種結合語義與實例分割的電腦視覺技術,能對影片中每個像素進行精確的物件類別與個體識別追蹤。
AI 模型分析並理解視頻內容的能力,包括識別物體、動作、場景和事件發展過程。
結合電腦視覺與自然語言處理的跨學科領域,使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。
Vision Transformer (ViT) 是一種將 Transformer 架構應用於圖像識別的深度學習模型,它將圖像分割成小塊,並將其視為序列進行處理。
視覺語言模型結合電腦視覺與自然語言處理,使機器能理解並生成圖像與文字之間的關聯,應用廣泛,例如圖像描述生成和視覺問答。
視覺問答(VQA)是一種人工智慧任務,要求模型根據給定的圖像回答自然語言問題,結合了電腦視覺和自然語言處理。
視覺關係檢測是一種電腦視覺技術,專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。
視覺敘事指利用連續圖像或影片傳達故事的技術。在多模態AI中,模型能將文本轉化為具連貫情節的視覺序列。