摘要生成技術 Abstractive Summarization
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
瀏覽 AITerms.tw 中標籤為「深度學習」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「深度學習」,共 415 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「深度學習」 ,共 415 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
在語音識別、語音合成等任務中,建立音訊特徵與語言單位(音素、詞彙)對應關係的機器學習模型。
從視頻中識別和分類人體或物體執行的動作,將視頻片段分配給預定義的動作類別。
在反向傳播時重新計算隱藏層激活值而非存儲,交換計算時間換取記憶體空間,使訓練更大模型成為可能。
神經網路中賦予模型非線性表達能力的函數,使深度網路能學習複雜非線性模式。
啟動圖是卷積神經網路中,輸入資料經過卷積與啟動函數處理後所輸出的多維度特徵矩陣。
演員-評論家是一種強化學習演算法,結合了策略梯度(演員)和時序差分學習(評論家)的優點,以實現更穩定的學習。
適配器模組是一種輕量級的模型微調方法,透過在預訓練模型中插入少量可訓練參數,以適應特定任務,同時保持原始模型參數凍結。
衡量模型在面對惡意擾動輸入時的性能,評估其魯棒性與安全性。
對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改,使AI模型產生錯誤輸出的攻擊方式,用於測試模型的魯棒性。
對抗性去偏見是一種利用對抗性訓練減少機器學習模型預測中固有偏見的技術,確保演算法的公平性。
透過微小擾動特意設計的輸入,能使經過訓練的 AI 模型產生錯誤預測的輸入樣本
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
自主系統對抗韌性旨在確保AI驅動的自主系統,如自駕車或機器人,在面對惡意干擾或對抗性攻擊時,仍能維持其預期功能與安全性,避免錯誤決策或系統失效。
一種透過引入具有對抗特性的數據樣本來強化模型穩健性的機器學習訓練方法,能夠提升模型在面對惡意攻擊或分佈外輸入時的防禦能力。
AI浮水印是一種將資訊嵌入AI模型或其產生的內容中的技術,用於驗證來源、追蹤使用情況或防止未經授權的複製。
一種相對位置編碼方法,通過在注意力分數中添加位置相關的線性偏置項,實現相對位置編碼且具有優秀的外推性能。
一種在分散式系統中進行資料聚合與同步的通訊操作,確保所有計算節點最終獲得完全相同的整合結果。
指代消解是自然語言處理中的一項任務,旨在確定文本中代詞或其他指稱語所指代的先行詞,以理解文本的完整含義。
錨框(Anchor Box)是在目標檢測中預先定義的一系列具有不同大小和長寬比的矩形框,用於在圖像中生成候選區域,以便模型進行目標分類和邊界框回歸。
將人類口語音頻訊號自動轉換為文字的技術,是語音 AI 的基礎元件,廣泛應用於語音助理、會議記錄、字幕生成等場景。
注意力崩潰指深度神經網路的注意力權重趨向一致,導致模型無法有效區分輸入特徵的現象。
注意力圖是注意力機制的內部權重視覺化表示,呈現模型在處理序列資料時,各個元素之間的相互關注程度與依賴關係。
注意力機制讓神經網路在處理序列資料時,動態分配不同位置的關注權重,提升長距離依賴的捕捉能力
一種深度學習技術,使模型能動態權衡時間序列中不同時間步的重要性,以捕捉長期依賴關係和關鍵模式。
注意力可視化是一種技術,用於呈現神經網路模型在處理輸入時,將注意力集中在哪些部分。它能幫助理解模型決策過程,並診斷潛在問題。
從原始音訊訊號中自動計算或學習具有代表性的低維特徵向量,用於後續機器學習任務。
利用音頻和視覺信息的相關性,訓練神經網絡進行特徵學習的方法,通常不需要人工標籤。
自動擴展根據系統負載自動調整計算資源,動態增加或減少伺服器數量,確保應用程式效能,同時優化成本。
自編碼器是一種神經網路,旨在學習輸入數據的壓縮表示(編碼),然後從該壓縮表示重建原始數據(解碼)。
自動駕駛技術利用感測器、人工智慧和控制系統,使車輛能夠在沒有人為干預的情況下感知環境並自主導航。
自駕車是指無需人類駕駛員干預,能自主感知環境、做出決策和控制行駛的車輛。自駕系統整合了計算機視覺、傳感器融合、路徑規劃和深度學習,是 AI 應用中最複雜的系統。
依序根據前面所有輸出預測下一個元素的生成式模型架構。
後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。
巴丹瑙注意力允許序列模型在解碼時動態聚焦於相關的輸入特徵,有效克服長序列造成的資訊遺失問題。
批次正規化是一種標準化技巧,針對每層網路的輸入進行調整,使訓練過程更穩定,並允許使用較大的學習率
批次大小是訓練時每次更新模型參數所使用的樣本數,直接影響訓練速度、記憶體用量與模型收斂穩定性
用有向無環圖與條件機率表表示變數間依賴關係的概率圖模型,支援推論與學習。
集束搜尋是一種啟發式搜尋演算法,用於序列預測任務,它在每個時間步保留多個最有可能的候選序列(集束),而非僅僅選擇最佳選項。
行為預測是機器學習技術,透過分析歷史數據,識別模式,進而預測個體或群體的未來行為,應用於推薦、風險管理等。
BERT是一種基於Transformer架構的雙向編碼器模型,用於理解文本的語義和上下文,廣泛應用於自然語言理解任務。
能同時處理序列的前向和後向上下文,在每個位置都能看到完整序列信息的神經網路編碼器,相比單向模型提供更豐富的上下文表示,是 BERT 等預訓練模型的核心。
Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意
一種極致的參數高效微調方法,只訓練模型中偏置項(Bias)的某些位,相比全模型微調減少99.9%的訓練參數,成本極低但性能接近全參數微調。
黑箱模型是指其內部運作機制對使用者而言不透明的模型,難以理解輸入與輸出之間的具體關係。
BLEU分數是一種評估機器翻譯文本品質的指標,通過比較候選譯文與參考譯文的n-gram重疊程度來計算,數值越高表示翻譯品質越好。
邊界框偵測是一種電腦視覺技術,用於在影像或影片中定位和識別物體,並使用矩形框標示出物體的位置。
位元組對編碼(BPE)是一種資料壓縮技術,也常用於自然語言處理中,作為一種詞彙標記化方法,將單詞分解成更小的子詞單元。
膠囊網路是一種神經網路架構,旨在解決卷積神經網路在處理物件方向和空間關係上的不足,透過膠囊和路由機制,更有效地捕捉物件的層次結構。
神經網路在學習新知識時快速遺忘舊知識的現象,導致之前習得的能力消失。
可證明穩健性指在特定的擾動範圍內,透過數學或嚴謹的演算法保證機器學習模型輸出不會發生改變的性質。
金吉拉縮放是一種模型縮放法則,旨在透過調整模型大小和訓練資料量,以達到最佳的計算效率,避免過度訓練或訓練不足。
一種條件生成技術,不依賴外部分類器,通過在無條件生成過程中注入條件信息來控制生成結果,常用於文本到圖像等多模態任務。
點擊率預測旨在預估使用者點擊特定廣告或連結的可能性,是數位廣告和推薦系統的核心技術。
AI 氣候模型是指使用機器學習加速和改進氣候模擬和預測的技術。AI 能從大規模氣象數據中學習複雜的氣候動態,提高預測準確性和計算效率,支持氣候變化研究和政策制定。
臨床自然語言處理 (Clinical NLP) 是一種利用自然語言處理技術,從醫療文本中提取、分析和理解資訊的AI應用,旨在改善醫療照護品質和效率。
CLIP (Contrastive Language-Image Pre-training) 是一種透過對比學習,將圖像與文字描述連結的模型,能進行零樣本圖像分類,無需針對特定任務重新訓練。
運算最佳訓練旨在於給定運算資源下,最大化模型效能。它涉及調整模型大小、資料集大小和訓練步驟,以達到最佳效率。
機器人視覺是指機器人使用攝像頭和深度傳感器配合計算機視覺算法,感知和理解視覺世界,完成抓取、組裝、檢測等任務。它使機器人能在動態環境中自主操作,廣泛應用於製造、物流和醫療。
概念瓶頸模型是一種深度學習模型,它強制模型通過人類可理解的概念來進行預測,從而提高模型的可解釋性和可控性。
一種生成模型,通過學習將任意噪音水平的數據映射到同一最終樣本,實現單步或少步生成,不需要逐步去噪過程。
內容生成是指使用人工智慧技術自動創建文字、圖像、音訊或影片等內容的過程,旨在降低內容創作成本並提高效率。
持續學習旨在使AI模型能夠在不遺忘先前知識的情況下,逐步學習新的任務和資料,模擬人類終身學習的能力。
對比學習是一種自監督學習方法,通過學習區分相似和不相似的樣本,從而提取資料的有效表示,無需人工標註。
一種機器學習技術,透過拉近相似樣本的特徵並推開相異樣本,使模型能學習到更具區別性與對齊性的特徵空間。
ControlNet 是一種神經網路結構,用於控制大型擴散模型,例如 Stable Diffusion,以實現更精確的圖像生成控制,例如基於草圖或邊緣圖生成圖像。
對話式人工智慧是指能透過自然語言與人類進行互動的AI系統,例如聊天機器人或語音助理,旨在提供更自然、直觀的互動體驗。
卷積運算是提取特徵的數學操作,透過濾波器在資料上滑動捕捉邊緣與紋理,廣泛應用於電腦視覺領域。
神經網路中利用卷積運算自動提取局部特徵的層級,通過多個小尺寸濾波器滑動掃描輸入數據,能有效減少參數數量並增強空間特徵學習能力。
專門處理圖像的神經網路,用小窗口(卷積核)掃過圖片提取局部特徵,參數共享大幅減少計算量
共指解析是自然語言處理中的一項任務,旨在識別文本中指向同一個實體的不同提及(mentions),例如代詞、名詞短語等。
學習率沿著餘弦函數曲線逐漸衰減,從初始值平滑降低到最小值,使模型在訓練後期細微調整參數。
代價函數是所有訓練樣本損失函數的平均值,用於評估模型在整個訓練集上的表現,並作為優化算法的目標。
交叉熵損失是一種衡量兩個機率分佈之間差異的損失函數,常用於分類任務中評估模型預測結果與真實標籤的差距。
融合來自不同模態(文本、圖像、音頻等)資訊的注意力機制,用於多模態深度學習任務。
在不同數據模態(如文本、影像、音訊)之間建立聯繫與對齊,學習跨模態的統一表示或進行跨模態推理的機器學習方法。
系統從簡單任務開始,逐步學習難度遞增的任務,提升效率和收斂性。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
資料標註是指為原始資料添加標籤的過程,這些標籤提供關於資料的額外資訊,用於訓練監督式機器學習模型。
資料並行是一種分散式訓練方法,將資料分割成多份,分配給多個節點,每個節點使用相同模型副本訓練不同資料子集。
解碼器是神經網路的一部分,負責將編碼器產生的抽象向量表示,轉換成人類可理解的目標輸出,如文字、圖片或語音。
深度學習模型架構設計,僅使用解碼器(Decoder)層進行文本生成和處理,無需編碼器,通過因果遮蔽使模型只能關注當前位置的歷史信息,實現自迴歸文本生成。
僅解碼器模型是一種專注於自迴歸生成的架構,透過預測下一個詞彙來產生連續文本,為現代語言模型的核心。
深度協同過濾結合深度學習與協同過濾,利用神經網路學習使用者和物品的隱藏表示,以提升推薦準確度,尤其在處理複雜互動模式時。
深度學習是一種機器學習方法,透過多層神經網路自動從原始資料中提取階層特徵,解決複雜問題。
利用深度神經網路學習用戶與物品的複雜非線性互動,自動提取高階特徵,實現精細化個性化推薦。
深度Q網路(DQN)是一種結合深度學習與Q學習的強化學習演算法,利用深度神經網路逼近Q函數,解決高維度狀態空間的強化學習問題。
深度強化學習結合深度學習與強化學習,透過深度神經網路學習複雜策略,以在特定環境中最大化累積獎勵。
深度偽造是利用深度學習技術合成的逼真音訊、圖像或影片,通常用於製造假新聞、詐騙或惡意中傷。
深度偽造偵測旨在辨識經由深度學習技術偽造或操縱的影音內容,以防止不實資訊傳播和維護資訊真實性。
去噪擴散機率模型(DDPM)是一種生成模型,通過逐步添加高斯噪聲破壞資料,然後學習逆向過程,從噪聲中重建資料,實現高品質的資料生成。
使網路中的每一層都接收所有前面層的輸出作為輸入,通過特徵複用和梯度流通改善深層網路的訓練和性能。
稠密檢索模型使用神經網路將查詢和文檔嵌入到一個低維向量空間中,通過計算向量相似度來檢索相關文檔,克服了傳統方法的詞彙不匹配問題。
DenseNet是一種深度學習模型,透過密集連接每一層到所有後續層,最大化層之間的資訊流動,增強特徵重用,減少梯度消失問題。
依存句法分析是自然語言處理中,分析句子中詞彙之間的依存關係,建立句子的語法結構,揭示詞彙間的修飾、支配等關係。
從2D影像推斷場景的3D深度資訊,用於3D重建、機器人導航、AR應用和自動駕駛。
對話系統是一種能與人類進行自然語言互動的AI系統,目標是理解使用者意圖並提供適當的回應,完成特定任務或提供資訊。
Dice Loss是一種用於衡量兩個樣本之間相似度的損失函數,尤其適用於處理不平衡的資料集,常見於圖像分割任務。
擴散模型是一種生成模型,透過逐步將雜訊還原成清晰圖像,達成從隨機雜訊生成資料的目的
分散式訓練利用多個計算節點,將模型訓練任務分割並行處理,加速大型模型訓練,提升效率。
包含多個隱藏層的人工神經網路,能通過層層特徵抽取學習複雜的非線性表示,是現代深度學習的基礎架構。
Transformer 中最基礎的注意力機制,透過查詢向量與鍵向量的點積計算相似度,再用 softmax 轉為權重後對值向量加權求和。
隨機丟棄是一種訓練技巧,透過隨機關閉部分神經元,避免網路過度依賴單一路徑,提升模型的泛化能力
隨機失活遮罩在訓練時動態產生隨機二元矩陣,將部分神經元輸出暫時歸零,以打破特徵依賴並防止模型過度擬合。
藥物發現是指使用 AI 和機器學習從海量化學分子中識別和優化具有治療潛力的藥物候選物。AI 可以加速分子篩選、性質預測和優化過程,將藥物開發週期從十年縮短為數年。
AI藥物發現利用人工智慧加速藥物研發流程,從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位,降低成本並縮短開發週期。
藥物靶點預測是利用機器學習預測候選藥物分子與生物靶點蛋白質之間的結合力,加速新藥研發並降低實驗成本。
識別影像中的邊界與輪廓線,通常輸出二值圖像或邊界概率圖,是許多高級視覺任務的前置步驟。
高效神經架構搜尋(Efficient NAS)旨在降低NAS的計算成本,通過架構共享、代理模型等技術加速搜尋過程,找到高性能的神經網路架構。
針對計算、內存、功耗等資源約束進行優化的神經網路,在保持性能的同時減少參數量和計算複雜度。
EfficientNet 是一系列由 Google 開發的卷積神經網路架構,旨在透過複合縮放方法,在準確度和效率之間取得最佳平衡。
電子病歷人工智慧 (EHR AI) 指的是利用人工智慧技術分析電子病歷 (EHR) 數據,以改善醫療照護、研究和管理的應用。
嵌入矩陣是深度學習中將離散變數映射為連續稠密向量的權重矩陣,能有效捕捉詞彙或特徵間的語意與結構關聯性。
湧現能力是指大型語言模型在達到一定規模後,突然展現出在較小模型中未曾觀察到的複雜能力,例如推理、翻譯和程式碼生成。
編碼器將輸入資料轉換為固定長度的向量表示,提取其語義特徵,以供解碼器或下游任務使用。
端到端自動駕駛是一種深度學習架構,直接將感測器資料轉換為駕駛控制指令,無需人工設計中間模組。
Epoch(訓練輪次)是模型完整遍歷一次訓練資料集的過程;訓練輪次數量影響模型效果,過多會造成過擬合,過少會導致欠擬合。
在貝氏推論中,證據指觀測資料的邊際機率。因計算困難,實務上常透過最大化證據下界來最佳化生成模型。
梯度爆炸是指在深度學習模型訓練中,梯度在反向傳播時變得異常巨大,導致權重更新過大,模型訓練不穩定甚至崩潰。
人臉辨識是一種電腦視覺技術,用於自動識別或驗證圖像或影片中的人臉,並與已知人臉資料庫進行比對。
用低秩因子向量建模特徵間的二階交互作用,兼具線性模型的效率和特徵交互學習的能力。
Faster R-CNN是一種物件偵測演算法,它使用區域建議網路(RPN)來生成候選區域,並使用卷積神經網路(CNN)對這些區域進行分類和邊界框回歸。
特徵擷取是從原始資料中自動識別並提取有意義的特徵表示的過程,目的是降低資料維度同時保留關鍵資訊,提升模型學習效率
特徵圖是卷積神經網絡中,經過卷積層運算後所產生的多維陣列,用於呈現輸入資料的特定局部特徵與空間結構。
特徵金字塔網路(FPN)是一種用於目標檢測的深度學習架構,旨在從不同尺度的特徵圖中提取豐富的語義信息,以提升小目標的檢測性能。
前饋神經網路是一種訊息單向傳播的神經網路,由輸入層、隱藏層和輸出層組成,廣泛應用於分類和迴歸任務。
用極少量目標域標籤資料,在保持源域知識的前提下快速適應新域。
金融 AI 是指應用於金融市場預測、風險管理、詐欺偵測和投資決策的人工智能技術。它使用機器學習分析大量財務數據和市場信號,提升交易策略的性能和降低風險。
微調是在預訓練模型基礎上,以少量特定領域資料繼續訓練,使通用模型適應特定任務需求,提升性能。
閃電注意力機制是一種優化注意力計算的技術,透過重新排序計算步驟和利用硬體加速,大幅提升注意力計算的速度和記憶體效率。
通過重新組織注意力計算的記憶體訪問模式和利用 GPU 快速片上記憶體,大幅加速 Transformer 注意力層的技術。
一種生成模型訓練方法,通過學習光滑的向量場使數據從噪音流向目標分佈,相比擴散模型具有更快的推理速度。
焦點損失函數 (Focal Loss) 是一種用於解決物件偵測中類別不平衡問題的損失函數,它通過降低易分類樣本的權重,使模型更關注難分類樣本。
長短期記憶網路(LSTM)的核心門機制,通過 sigmoid 激活函數產生 0-1 的控制信號,決定上一時步細胞狀態中有多少信息應被遺棄或保留,是解決梯度消失問題的關鍵元件。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
神經網路中每個神經元都與前一層所有神經元相連的層級,每條連接都有獨立的可學習權重,能進行高度非線性的特徵轉換,常用於網路最後階段進行分類或迴歸。
閘控循環單元(GRU)是一種循環神經網路(RNN)的變體,旨在解決傳統RNN的梯度消失問題,更有效地捕捉長期依賴關係。
基因表達預測利用機器學習分析DNA序列與生物特徵,以推估細胞中特定基因的轉錄活躍度與產物生成量。
生成對抗網路是一種透過生成器與鑑別器互相對抗學習,最終使生成器能產出逼真資料的深度學習模型
生成式模型(Generative Model)是能夠學習資料的機率分布並從中生成新樣本的機器學習模型,涵蓋 GAN、VAE、擴散模型等架構,廣泛應用於影像合成、文字生成與資料擴增。
OpenAI 的自回歸語言模型,一個字接一個字生成文本,只使用 Decoder 架構
指資料在多維空間的拓樸與形狀特徵,幾何深度學習利用此對稱結構處理圖論、流形與點雲等非歐幾里得資料。
地理空間AI結合人工智慧與地理空間資料,分析地球表面現象,從衛星影像、地圖和感測器數據中提取洞察,支援智慧城市、環境監測等應用。
GPT是一種基於Transformer架構的大型語言模型,透過預訓練學習大量文本資料,用於生成文本、翻譯語言、回答問題等。
圖形處理器(GPU)是一種專為並行處理設計的電子電路,最初用於加速圖像渲染,現廣泛應用於深度學習等需要大量計算的領域。
Grad-CAM是一種可視化技術,利用梯度資訊來突出顯示輸入圖像中對模型預測最重要的區域,提供模型決策的可解釋性。
多個訓練步驟內累加梯度,最後進行一次參數更新,有效增加批量大小而不增加記憶體占用,用於訓練記憶體受限的大型模型。
梯度裁剪是一種防止梯度爆炸問題的技術,通過限制梯度的大小,確保訓練過程的穩定性,避免模型參數更新過大。
梯度懲罰是用於穩定生成對抗網路的正則化技術,透過限制梯度範數以確保模型平滑,能防止模式崩潰。
在分散式機器學習中,匯總多個運算節點的梯度以確保模型參數一致更新的過程。
圖異常偵測是分析圖結構與節點特徵,以識別出網路中異常節點、邊或子圖的技術,常應用於金融防詐與資安防護。
使用注意力機制對圖的鄰域進行聚合的 GNN 模型,能為不同鄰居節點分配不同的權重。
圖分類是將整個圖形結構映射到特定類別的機器學習任務,旨在根據節點、邊及整體拓撲特徵預測圖形的屬性或狀態。
一種 GNN 的具體實現,透過鄰域節點特徵的加權平均來更新每個節點的表示。
一種 GNN 模型,基於圖同構測試的 Weisfeiler-Lehman 算法設計,具有較強的圖判別能力。
圖神經網路(GNN)是一種用於處理圖結構資料的深度學習模型,能學習節點、邊和圖的表示,並用於節點分類、連結預測和圖分類等任務。
圖池化是一種減少圖形結構資料維度與節點數量的技術,用以提取全域特徵,降低計算成本,在圖神經網路中扮演關鍵的降維角色。
抓取規劃是機器人學中的核心技術,旨在為機器人手臂規劃出有效且穩定的抓取動作,以成功拾取、移動或操作物體,確保任務執行效率與安全性。
貪婪解碼是一種序列生成方法,在每個時間步選擇概率最高的詞作為輸出,直到生成終止符號或達到最大長度。它簡單快速,但可能陷入局部最佳解。
頓悟學習指模型在訓練初期泛化能力差,但經過長時間訓練後,突然展現出良好的泛化能力,如同頓悟一般。
一種高效的注意力機制,將多個查詢頭共享同一組鍵值頭,減少模型參數和記憶體消耗,同時保持性能不下降。
LSTM的簡化版本,參數更少、訓練更快,在多數序列任務上性能相當。
影像描述生成(Image Captioning)是電腦視覺與自然語言處理的交叉任務,旨在讓模型自動為輸入影像產生自然語言描述,是多模態 AI 的核心應用之一,評估指標常用 BLEU、CIDEr、SPI
圖像分類是電腦視覺中的一項任務,旨在將圖像分配到預定義的類別中。模型學習圖像特徵,並基於這些特徵預測圖像所屬的類別。
圖像生成是一種人工智慧技術,旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。
利用周邊像素信息自動填充或重建影像中的遺失、損壞或標記區域,用於去除物體、修復老照片等。
圖像識別是電腦視覺領域的一項任務,旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛,可能涉及定位和標記圖像中的多個對象。
影像分割是一種電腦視覺技術,將影像劃分為多個區域或物件,以便分析或理解影像內容,常用於醫學影像分析、自動駕駛等。
從低解析度影像重建高解析度版本,增加像素數或恢復細節,廣泛應用於監視、醫療影像、老照片增強。
在多模態學習中,將圖像和文本的表示映射到共同的語義空間,使得語義相關的圖文對的表示相近。
使用多分支並行卷積的架構,在同一層中採用不同大小(1×1, 3×3, 5×5)的卷積核進行特徵提取,捕捉多尺度信息。
Inception Network 是一種深度卷積神經網路架構,旨在透過並行使用多種卷積核大小,捕捉不同尺度的特徵,提升模型效能。
推論是指利用已訓練好的機器學習模型,對新的、未曾見過的資料進行預測或判斷的過程。是模型部署後的核心環節。
推論最佳化旨在提升已訓練模型的推論速度、降低資源消耗,使其更有效率地部署於實際應用中。
透過對比正負樣本,最大化互資訊下界的損失函數,主要用於自監督表徵學習。
長短期記憶網路(LSTM)的關鍵元件,通過 sigmoid 激活函數產生 0-1 之間的門控信號,動態控制有多少當前輸入信息應被添加到細胞狀態,實現選擇性的信息流控制。
在影像中同時偵測物件並為每個獨立個體生成精確像素級遮罩,區分同類中的不同個體。
意圖分類是自然語言處理中的一項任務,旨在將一段文字(例如使用者查詢)分類到預定義的意圖類別中,以理解使用者的目的。
結合異常偵測與可解釋AI技術,不僅識別異常點,還能說明異常發生的原因,提升決策透明度。
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
土地覆蓋分類是將遙感影像像素歸類為不同地物類型的過程。
語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。
透過統計或神經網路方法,學習文字序列的機率分布,用於預測下一個詞或評估句子合理性的模型。
大型語言模型是以大量文字訓練的超大 Transformer 模型,擅長理解並生成自然語言
潛在擴散模型(LDM)是一種生成式AI模型,透過在潛在空間中進行擴散和逆擴散過程,生成高解析度、高品質的圖像或其他資料。
潛在空間是機器學習模型學習到的高維資料的壓縮表示,它捕捉了資料的底層結構和關係,並將其映射到一個低維空間。
層歸一化是一種神經網路正規化技術,它在每個層級對所有神經元的激活值進行歸一化,以加速訓練並提高泛化能力。
學習是AI系統從數據中自動提取模式、規律與特徵,藉以提升特定任務效能的核心過程。
學習率排程是一種在訓練過程中調整學習率的技術,旨在加速收斂、避免震盪,並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。
訓練初期逐漸增加學習率,避免初始化不佳導致的訓練不穩定,通常在前幾個 epoch 內從 0 線性增加到目標值。
系統透過經驗不斷改進自身的學習過程,達到越來越高效的適應和泛化能力。
光達資料處理是指對雷射雷達感測器採集的三維點雲資料進行清理、分析與解釋的過程,旨在從中提取有意義的空間資訊,廣泛應用於自動駕駛、測繪與環境監測等領域。
機器學習系統在整個生命週期內不斷學習新知識、新任務,同時保留和擴展既有知識。
一種圖學習任務,目標是預測圖中兩個節點之間是否存在或將存在邊的連結。
LLaMA(Large Language Model Meta AI)是 Meta 開發的開放權重(open-weight)大型語言模型系列,可免費下載、修改、自行部署,採 Meta 自訂 community license 授權,非 OSI 認證開源。
AI負載平衡將AI任務分散到多個計算資源,確保資源有效利用,避免單點過載,提升整體系統效能和穩定性。
對數損失(Log Loss)是交叉熵損失在二元分類問題中的特殊形式,衡量模型預測機率與真實標籤之間的差異,數值越小代表模型表現越好。
指大型語言模型能夠處理和理解更長输入序列的能力,通常指支援數千到數百萬個 token 的上下文窗口。
長短期記憶網路是一種改良的循環神經網路,透過門控機制來克服傳統 RNN 在長序列中容易遺忘的缺陷
長距離依賴指資料序列中相距遙遠元素的關聯。捕捉此關聯是模型理解長篇上下文的核心。
LoRA是一種參數高效的微調技術,透過學習低秩矩陣來適應預訓練模型,大幅減少訓練參數,降低計算成本。
損失函數衡量模型預測與實際值之間的差異,數值越小代表模型預測越準確,是模型訓練中優化目標的關鍵組成部分。
利用深度學習技術改善在弱光或夜間條件下拍攝的影像品質,提升亮度、降低雜訊並恢復細節。
一種具有門控機制的循環神經網路變體,透過遺忘門、輸入門和輸出門有效解決傳統 RNN 的梯度消失問題,能捕捉長距離序列依存關係。
讓電腦系統具備閱讀人類語言文本並回答相關問題能力的自然語言處理技術。
機器翻譯是利用電腦程式自動將文字或語音從一種語言轉換成另一種語言的技術,旨在打破語言障礙,促進跨文化交流。
惡意軟體偵測是利用AI技術識別並阻止惡意軟體感染系統的過程,旨在保護電腦、網路和資料免受損害。
Mamba是一種基於選擇機制的序列模型,旨在解決Transformer在長序列建模上的效率瓶頸,透過硬體感知演算法提升運算速度。
從衛星、航空或無人機影像中提取地理資訊,自動或半自動生成地圖。
Mask R-CNN是一種深度學習模型,用於物件偵測、實例分割和人體姿勢估計。它擴展了Faster R-CNN,增加了預測每個物件像素級別遮罩的分支。
遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。
材料科學AI運用機器學習加速新材料的發現與設計,能精準預測材料特性並最佳化製程,顯著縮短研發週期。
機制性可解釋性旨在理解AI模型內部運作的具體機制,如同理解程式碼般,而非僅僅觀察輸入輸出關係。
醫療 AI 是指應用於醫療診斷、治療和管理的人工智能技術。它使用機器學習和深度學習對醫學影像進行分析、輔助診斷、預測患者風險和個性化治療方案。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
梅爾頻譜圖是一種音訊訊號的視覺表示,它將音訊的頻率轉換到梅爾尺度上,更符合人類聽覺感知,常用於語音辨識和音訊分析。
一種統一的圖神經網路框架,將圖學習過程表述為節點間的消息生成、傳遞和聚合。
元學習,又稱學習如何學習,旨在訓練模型能夠快速適應新任務或環境,透過少量樣本即可達到良好的效能。
混合精度訓練是一種使用不同精度(如 FP16 和 FP32)的浮點數進行模型訓練的技術,旨在加速訓練過程並減少記憶體佔用。
混合正則化是一種透過組合兩個或多個訓練樣本及其標籤來生成新訓練數據的技術,藉此擴增資料集多樣性,有效減輕神經網路模型的過擬合現象並提升泛化能力。
深度混合是一種模型架構,它結合了多個不同深度的子網路,以提升模型的表達能力和泛化能力,並允許模型根據輸入動態調整其深度。
專家混合模型是一種機器學習技術,透過結合多個獨立的「專家」模型,針對不同輸入選擇性地激活特定專家,以提升模型整體效能。
專為資源受限的行動設備(手機、平板、邊緣設備)設計的輕量級神經網路,確保低延遲、低功耗的推理。
MobileNet是一種針對移動和嵌入式設備設計的輕量級深度神經網路架構,旨在實現高效的資源利用和快速的推論速度。
GAN 訓練時生成器只輸出少數幾種重複樣本而喪失多樣性的訓練失敗現象。
透過機器學習演算法在大量數據中學習規律與特徵後,所產生可用於預測、分類或生成的數學結構與參數集合。
模型快取是一種將已訓練的模型儲存在記憶體或快速儲存裝置中,以加速模型載入和推論的技術。
模型壓縮是指減少機器學習模型大小和計算複雜度的技術,以便在資源有限的設備上部署,同時保持模型性能。
邊緣端模型壓縮是縮減神經網路體積與運算量的技術,使人工智慧模型能在資源受限的邊緣裝置上順暢執行。
模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式,藉此洩漏隱私。
模型平行化是一種將大型模型分割到多個裝置上進行訓練或推論的技術,以克服單一裝置的記憶體限制。
模型參數是機器學習模型從資料中學習到的內部數值變數,包含權重與偏差,主要決定模型如何產生預測結果。
學習環境模型(動態和獎賞),用模型進行規劃而非直接與環境互動的強化學習方法。
分子動力學預測結合人工智慧與物理模型,以計算模擬原子與分子系統的運動軌跡,大幅加速新藥開發與材料發現。
運用生成式人工智慧模型,探索廣大化學空間並精準設計出具有特定期望性質之全新分子結構的前沿技術。
Multi 泛指人工智慧中結合多種資料類型、任務或智能體的技術,能大幅提升系統處理複雜現實問題的靈活性。
多個智能體在同一環境中互動的強化學習,須處理協作、競爭和通訊等複雜關係。
Transformer 的核心元件,透過多組平行的注意力運算同時捕捉輸入序列在不同子空間中的依賴關係。
一種在連續影像中偵測並識別多個移動物件,持續賦予穩定追蹤編號與軌跡預測的電腦視覺分析技術。
多步預測是一種時間序列分析技術,旨在同時或依序預測未來多個時間點的數值,而非僅單一未來點。
多任務學習是一種機器學習方法,旨在同時訓練一個模型來執行多個相關任務,以提升模型的泛化能力和效率。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
音樂生成是利用AI模型自動創作音樂,涵蓋旋律、和聲、節奏等多個方面,旨在模擬人類作曲過程。
從音樂內容提取結構化資訊(如流派、演唱者、節拍、旋律)或進行檢索與推薦的技術與研究領域。
NAS 是一種自動化設計神經網路架構的技術,旨在減少人工設計的試錯成本,讓演算法自行尋找效能最佳的模型結構。
自然語言推論是判斷前提句子是否能邏輯推導出假設句子的技術,協助機器理解語言的深層語意關係。
自然語言處理使電腦能理解、分析和生成人類語言,是 AI 語音助理與翻譯等應用的核心技術
醫療 NLP 是指應用自然語言處理技術於醫療文本的技術,如電子病歷、臨床筆記、病理報告等。它能自動提取關鍵醫療信息、識別臨床事件、輔助診斷和生成臨床決策支持。
自然語言理解(NLU)是人工智慧的一個分支,旨在使電腦能夠理解和解釋人類語言的含義,從而執行相關任務。
利用神經網絡隱式表達3D場景的函數,能從多視角影像重建逼真的3D場景和新視角合成。
神經架構搜尋(NAS)是一種自動化設計神經網路架構的技術,旨在尋找在特定任務上表現最佳的模型結構,無需人工手動設計。
使用深度神經網路進行端到端機器翻譯的技術,相比傳統統計方法質量顯著提升。
神經網路是模仿人類大腦神經元結構的機器學習模型,由多層節點(神經元)組成,透過加權求和與激活函數學習複雜的非線性關係
神經輻射場景(NeRF)是一種使用神經網路表示3D場景的新穎方法,它通過學習場景的體積密度和顏色來實現逼真的渲染。
BERT 預訓練的輔助任務,給定兩個句子,判斷第二個句子是否在原文本中直接跟隨第一個句子,用於訓練模型理解句子間的邏輯關係。
一種圖學習任務,目標是為圖中的節點預測標籤或類別,利用圖結構和節點特徵進行學習。
節點嵌入是一種將圖形結構中的節點轉換為低維度連續向量的技術,目的是保留節點在原圖中的網絡拓樸與特徵資訊,以便於後續進行各類機器學習任務。
非極大值抑制 (NMS) 是一種在物件偵測中用於消除重複框的技術,它會保留置信度最高的框,並抑制與之高度重疊的其他框。
物件偵測是一種電腦視覺技術,用於識別影像或影片中特定物件的位置和類別,常用於自動駕駛、安全監控、零售分析等。
利用AI技術在衛星影像中識別並定位特定物件,如建築、車輛、船隻等。
機器人透過感測與控制,對實體物件進行抓取、移動、放置等動作,以完成特定任務的技術。
目標函數是機器學習模型訓練中用於評估模型表現的函數,其數值代表模型預測與實際值的差距,優化目標是最小化或最大化此函數。
光學字元辨識(OCR)是一種技術,能將圖像中的文字轉換為機器可讀的文字格式,例如將掃描文件轉換為可編輯的文字。
單樣本學習是一種機器學習方法,旨在僅使用一個或少數幾個樣本來學習新的類別或概念,模擬人類快速學習的能力。
ONNX 是一種開放標準,用於表示機器學習模型,允許模型在不同框架之間互操作,簡化模型部署流程。
分類任務中測試集包含訓練集未見過的類別,模型需識別『這是一個未知類別』的問題。
估計影片相鄰幀之間像素的運動向量,用於動作檢測、影片壓縮、視覺導航等應用。
指機器學習訓練過程中,最佳化演算法為更新模型權重所儲存的動量、變異數等歷史計算數值。
識別測試樣本是否來自訓練分布的異常檢測技術,用於檢測模型未見過的樣本。
識別模型在推論時遇到的輸入是否來自訓練資料分布之外的技術,以防止模型在未知情境下給出不可靠的預測。
長短期記憶網路(LSTM)的門控機制之一,通過 sigmoid 激活函數產生 0-1 的信號,決定細胞狀態中有多少信息應被輸出至隱藏狀態,控制網路對外部環境的信息交互程度。
神經網路最後一層,根據任務類型選擇合適的激活函數,將隱藏層的高維特徵轉換為最終預測結果(分類概率、迴歸值或其他形式),是模型與外界交互的界面。
PaLM (Pathways Language Model) 是 Google 開發的大型語言模型,以其卓越的推理能力和多語言處理能力著稱。
一種整合實例分割與語義分割的神經網路架構,透過特徵金字塔網路同時處理前景物件與背景環境的高效模型。
深度學習模型中用於同時執行語義與實例分割的模組。
全景品質是評估全景分割同時辨識物件與分割區域是否正確的綜合指標。
結合語義分割和實例分割,同時處理可數物體(分個體)和不可數物體(只分類),提供完整的場景理解。
全色銳化是將高解析度全色影像與低解析度多光譜影像融合,生成高空間解析度且色彩豐富的多光譜影像。
一種分散式機器學習架構,專門負責儲存與更新全域模型參數,並與多個工作節點進行通訊與資料同步。
模型參數是機器學習模型在訓練過程中學習到的數值,用於決定模型如何對輸入資料進行轉換和預測。它們是模型的內部變數。
詞性標注是自然語言處理中,為句子中的每個詞彙指定詞性的過程,例如名詞、動詞、形容詞等,是後續語法分析的基礎。
病理學AI利用人工智慧分析組織切片影像,輔助病理醫生診斷癌症、感染等疾病,提升診斷效率和客觀性。
困惑度衡量語言模型預測文本序列的能力,數值越低代表模型預測能力越好,對文本的理解程度越高。
結合物理定律與神經網路的機器學習模型,用於求解偏微分方程,無需大量標籤數據。
將深度神經網路的不同層分配到不同的 GPU 設備上,讓多個 micro-batch 在不同層上交叉執行以提高 GPU 利用率的分佈式訓練方法。
三維空間中由大量無序點組成的資料結構,每點含坐標和屬性,用於3D感知、掃描、建模和分析。
確定人體或物體在三維空間中的位置和方向,通常輸出關鍵點(如關節位置)的坐標。
位置編碼是一種將序列中單詞或符號的位置資訊嵌入到向量表示中的技術,使模型能感知序列順序。
在模型訓練完成後應用的量化技術,通過將浮點參數轉換為低精度整數或定點數來減少模型大小和計算成本,實現過程簡單但精度損失相對較大。
前綴調整法是一種參數高效的微調技術,通過在輸入序列前添加可訓練的前綴向量,來引導預訓練模型生成期望的輸出,同時保持原始模型參數凍結。
機率式預測是一種時間序列預測方法,它不僅提供單一的點預測,還提供未來值的完整機率分佈或置信區間,以量化預測的不確定性。
一種輕量級的模型適配方法,通過學習可訓練的向量嵌入來優化輸入提示,而不修改模型權重,特別適合大規模語言模型。
屬性預測是指利用機器學習模型,根據物件的特徵或結構資料,預測其物理、化學或行為特性的技術。
利用人工智慧技術,從蛋白質胺基酸序列推斷其三維結構,對於理解生物功能與藥物開發至關重要。
指兩個或多個蛋白質分子之間因物理接觸而產生的結合,為細胞功能的基礎。
改進的策略梯度演算法,透過信賴域約束防止策略過大更新,提高訓練穩定性。
模型剪枝是一種減少模型大小和計算複雜度的技術,透過移除模型中不重要的權重或神經元來實現。
QLoRA是LoRA的改進版,使用4位量化技術壓縮預訓練模型,進一步降低記憶體需求,實現在消費級硬體上微調大型模型。
模型量化是一種降低模型大小和加速推論的技術,透過減少模型權重和激活值的精度來實現。
在模型訓練過程中模擬量化效果的方法,通過學習量化帶來的誤差來優化模型性能,相比訓練後量化能保持更高精度。
量子化學預測利用機器學習模型預測分子的電子性質與化學反應,有效加速新藥開發與材料科學研究的進程。
問答系統是一種利用電腦程式自動回答人類提出的問題的技術,旨在提供快速、精確的資訊檢索和知識獲取。
放射醫學AI利用人工智慧技術分析醫學影像,輔助醫生診斷疾病,提高診斷效率和準確性,並減少人為錯誤。
隨機遮蔽是隱藏部分資料的自監督技術,迫使模型從剩餘資訊推斷缺失內容,以提升特徵提取與泛化能力。
衡量AI系統在理解和識別輸入資料(如圖像、語音、文本)時的準確性與可靠性。高辨識品質是確保模型效能和應用成功的關鍵。
修正線性單元是一種激活函數,其核心特徵為保留正值並將負值歸零,藉此加速計算並避免梯度消失
循環神經網路是一種具備「記憶」功能的神經網路,其能處理序列資料,並將前一步的輸出回饋至下一步
具有時序記憶能力的神經網路,透過隱藏狀態將過去的資訊傳遞至當前時步。
關係抽取旨在自動識別文本中實體之間的語義關係,例如「出生於」或「工作於」,是知識圖譜構建的關鍵技術。
線性整流函數(Rectified Linear Unit, ReLU)是深度學習中最常用的激活函數,將負值輸出設為零、正值保持不變,有效解決梯度消失問題並加速神經網路收斂。
重排序模型是一種在初步檢索後,對候選結果進行重新排序的技術,旨在提升檢索結果的相關性和準確性,通常使用更複雜的模型。
殘差網路 (ResNet) 是一種深度神經網路架構,透過引入殘差連接來解決深度網路的梯度消失問題,允許訓練非常深的網路。
ResNet是一種深度學習模型,透過引入殘差連接解決深度神經網路訓練時的梯度消失問題,允許網路學習殘差映射而非直接映射。
以紅(Red)、綠(Green)、藍(Blue)三原色疊加表示顏色的加法混色模型,是數位影像與電腦視覺任務中圖像表示的基礎格式。
環狀注意力是一種分散式注意力機制,將注意力計算分散到多個設備上,減少單一設備的記憶體需求,適用於超大型模型。
使用梯度平方的指數加權移動平均調整學習率的最佳化演算法,改進了 AdaGrad 學習率單調遞減的問題。
利用計算方法預測RNA分子單鏈內鹼基配對形成的二級結構,對於理解RNA功能至關重要。
使機器人能像人類一樣感知並理解周遭環境的技術,透過影像處理與分析,執行導航、辨識、操作等任務。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
一種位置編碼方法,通過複數旋轉操作將位置信息編碼到注意力機制中,相比絕對位置編碼具有更好的外推性能。
自動識別並分割影像中最吸引人類視覺注意的區域,常應用於影像縮略圖生成與視覺注意力研究。
規模指AI系統中模型參數、訓練資料與運算資源的量級。擴展規模可顯著提升效能,是推動大型語言模型突破的關鍵因素。
透過計算查詢與鍵的點積並進行縮放,以決定序列中特徵間的關聯權重,是提取上下文資訊的關鍵深度學習機制。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
將圖像轉換為結構化圖形的電腦視覺技術。節點代表物件,邊緣表示物件間的關係,賦予機器深度的場景理解力。
AI驅動科學發現指利用人工智慧技術加速科學研究流程,涵蓋假設生成、實驗設計、資料分析與結果驗證,大幅提升各學科創新效率與發現速度。
通過學習數據分佈的梯度(評分函數)來生成數據的生成模型,使用評分匹配目標直接建模數據分佈的梯度。
Meta提出的大規模基礎模型,能對任意圖像進行實例分割,採用提示工程實現靈活的互動式分割。
衡量圖像分割任務中預測區域與真實區域重疊程度的指標。
自注意力是一種機制,讓序列中的每個元素計算彼此關聯度,藉此捕捉序列內部的依賴關係
深度學習中根據序列內不同位置的相關性動態分配權重的機制,通過計算查詢(Query)、鍵(Key)、值(Value)的交互,使模型能關注序列中任意位置的信息,無視距離限制。
語義分析旨在理解文本的真實含義,超越字面解釋,提取句子或段落的深層語義結構和關係,賦予機器理解語言的能力。
對圖像中每個像素進行類別標記,將整張圖像分解為具有語義意義的區域的電腦視覺任務。
自然語言處理系統能夠理解文字背後的含義與上下文關係的能力。
SentencePiece 是一種獨立於語言的分詞器,它將輸入視為 Unicode 字符序列,並使用 BPE 或 Unigram 算法生成詞彙表。
情感分析是一種自然語言處理技術,用於識別和提取文本中的主觀情感,例如正面、負面或中性情緒,應用於輿情監控、客戶回饋分析等。
金融情緒分析利用自然語言處理技術,分析新聞、社群媒體等文本數據,提取市場情緒,用於預測股價、風險管理和交易策略。
Seq2Seq模型是一種將一個序列轉換為另一個序列的深度學習模型,廣泛應用於機器翻譯、文本摘要、語音辨識等任務。
序列建模是深度學習領域處理具時間或順序依賴性資料的技術,旨在理解、預測或生成序列模式。
使用編碼器-解碼器架構將一個序列轉換為另一個序列,廣泛應用於翻譯、文本摘要等。
基於會話推薦利用使用者單次瀏覽會話內的行為序列,預測使用者下一步可能感興趣的項目,無需使用者歷史資料。
將不同模態資料映射到同一向量空間,使它們可相互比較與理解。
連體神經網路是一種包含兩個或多個共享相同權重的相同神經網路的架構,用於比較輸入之間的相似性或關係。
Sigmoid 函數是一種將任意實數壓縮到 (0, 1) 區間的 S 形曲線,公式為 σ(x) = 1/(1+e⁻ˣ),常作為神經網路的激活函數及邏輯斯迴歸的輸出層,用於將線性輸出轉換為機率值。
模擬加速是一種結合人工智慧與計算科學的技術,用於在保持合理精確度的前提下,大幅縮短複雜系統模擬所需的時間。
直接連接網路中相隔若干層的神經元,允許梯度和信息跳過中間層流通,改善深層網路的梯度流動和訓練穩定性。
一種高效的注意力機制,限制每個位置只與一個固定大小的局部上下文窗口內的位置進行注意力計算,減少計算複雜度。
槽位填充是自然語言理解中的一項任務,旨在從文本中提取特定資訊,並將其填入預定義的槽位中,以形成結構化資料。
稀疏注意力機制是一種減少注意力機制計算複雜度的技術,透過只關注輸入序列中的部分元素,降低運算量,提升模型效率。
稀疏變換器是一種深度學習架構,透過限制注意力機制的計算範圍降低複雜度,使其能高效處理長序列資料。
語者分段旨在識別音訊中不同語者的發言時間段,並將其區分開來,無需事先知道語者身份。
推測解碼是一種加速大型語言模型推論速度的技術,透過小型模型預測多個token,再由大型模型驗證,減少計算量。
語音合成技術是一種將文字轉換成人類語音的技術,也稱為文字轉語音(TTS)。它廣泛應用於語音助理、導航系統和輔助科技等領域。
競價型訓練利用閒置的雲端運算資源,以大幅降低模型訓練成本,但可能因資源回收而中斷。
Stable Diffusion 是一種潛在擴散模型,用於根據文字描述生成高質量圖像,透過迭代去噪過程,從隨機噪聲中產生逼真圖像。
利用立體影像對(左右視圖)的對應像素差異估計深度信息,是三維重建的基礎。
隨機梯度下降(SGD)是一種迭代優化算法,用於最小化目標函數。它每次迭代僅使用一個或少量樣本計算梯度,加速訓練過程,但可能導致收斂不穩定。
風格轉換是一種使用人工智慧技術,將一張圖片的風格應用到另一張圖片的內容上的方法,創造出具有新風格的圖像。
次詞單元化是將單詞拆分為更小的子單元(次詞)的技術,用於解決詞彙量過大和未登錄詞(OOV)問題,提升模型泛化能力。
超解析度重建是一種電腦視覺技術,旨在從低解析度影像重建出高解析度影像,提升影像的清晰度和細節。
Swin Transformer是一種層級式的Transformer模型,用於電腦視覺任務,透過移動視窗機制有效降低計算複雜度,並提升模型效能。
T5 (Text-to-Text Transfer Transformer) 是一種將所有 NLP 任務轉換為文本到文本格式的轉換器模型,簡化了模型訓練和應用。
在視頻中精確識別和定位動作發生的時間段,給出動作開始和結束的時間戳。
使用擴張卷積取代遞迴層捕捉時序依賴的網路架構,支援高度並行化。
將單個張量(矩陣或更高維數組)的計算分割到多個 GPU 設備上,通過跨設備並行計算矩陣乘法等操作的分佈式訓練方法。
測試資料集用於評估模型在未見過資料上的泛化能力,是模型效能的最終指標,在模型部署前使用。
測試時運算是指在模型部署後,進行推論時所使用的運算資源。目標是在效能和延遲之間取得平衡,以滿足實際應用需求。
文本分類是自然語言處理中的一項任務,旨在將文本自動分配到預定義的類別中。它應用廣泛,例如垃圾郵件檢測、情感分析等。
文本摘要是自然語言處理中的一項任務,旨在從一篇或多篇文章中生成簡潔且信息豐富的摘要。分為抽取式和生成式兩種方法。
文字生成3D模型是指利用人工智慧技術,將文字描述轉換為對應的3D模型,實現從文字到視覺化模型的自動生成。
文字轉語音(TTS)是一種人工智慧技術,能將書面文字精準地轉換為自然流暢且富有表現力的人類語音,廣泛應用於語音助理、有聲書和無障礙輔助等領域。
文字生成圖像是一種人工智慧技術,它能根據文字描述自動生成對應的圖像,實現文字內容的視覺化呈現。
透過輸入自然語言描述,利用深度學習模型自動合成出符合語意內容與風格之圖像的多模態技術。
文字轉語音 (TTS) 技術將文字轉換為人類可理解的語音。它廣泛應用於輔助工具、語音助手和內容創作等領域。
文字生成影片是一種人工智慧技術,它能根據文字描述自動生成對應的影片,將文字內容轉化為動態視覺呈現。
為降低自注意力複雜度的技術。透過僅保留分數最高的前 K 個鍵值對參與計算,有效減少記憶體與運算開銷。
張量處理單元(TPU)是Google專為加速機器學習工作負載而設計的客製化硬體加速器,尤其擅長處理張量運算,是深度學習的利器。
軌跡預測是基於實體歷史移動數據,推斷其未來路徑的技術,常見於自動駕駛、機器人導航等時序分析應用。
AutoML遷移學習利用預訓練模型知識,加速AutoML流程,減少訓練數據需求,提升模型泛化能力,並降低計算成本。
完全基於 Attention 機制的架構,不用 RNN 的循環結構,能平行處理整個序列
將Transformer架構應用於時序資料,利用自注意力捕捉時間依賴,在預測任務上取得優異成績。
三元組抽取是從文本中提取(主語,謂語,賓語)三元組的過程,是構建知識圖譜的基礎,也是關係抽取的一種形式。
驗證資料集用於在模型訓練期間調整超參數和評估模型效能,以防止過擬合,並選擇最佳模型。
梯度消失是指在深度學習模型訓練中,梯度在反向傳播時逐漸縮小至接近於零,導致淺層網路權重難以更新,模型學習停滯。
變分自編碼器(VAE)是一種生成式深度學習模型,它將輸入資料壓縮成潛在空間中的機率分佈,並能從中採樣以生成多樣化且具代表性的新資料樣本。
將貝葉斯推論問題轉化為最優化問題,用易於計算的分布逼近複雜的後驗分布。
一種結合語義與實例分割的電腦視覺技術,能對影片中每個像素進行精確的物件類別與個體識別追蹤。
AI 模型分析並理解視頻內容的能力,包括識別物體、動作、場景和事件發展過程。
結合電腦視覺與自然語言處理的跨學科領域,使人工智慧系統能夠同時理解、對齊並處理影像與文字資訊。
Vision Transformer (ViT) 是一種將 Transformer 架構應用於圖像識別的深度學習模型,它將圖像分割成小塊,並將其視為序列進行處理。
視覺語言模型結合電腦視覺與自然語言處理,使機器能理解並生成圖像與文字之間的關聯,應用廣泛,例如圖像描述生成和視覺問答。
視覺問答(VQA)是一種人工智慧任務,要求模型根據給定的圖像回答自然語言問題,結合了電腦視覺和自然語言處理。
視覺關係檢測是一種電腦視覺技術,專注於識別影像中多個物件以及它們彼此間的空間、動作或語意互動關聯。
語音助理是一種使用語音辨識、自然語言處理等技術,讓人們透過語音指令與設備互動的AI系統。
聲音複製是指使用人工智慧技術,基於少量語音樣本,生成與目標人物聲音高度相似的合成語音。
將一個說話者的聲音轉換為另一個說話者聲音風格的技術,同時保持語言內容不變。
預熱訓練是一種在模型訓練初期,逐步提高學習率的策略,旨在穩定訓練過程,避免初期梯度爆炸或震盪。
使用瓦瑟施泰因距離作為損失函數的 GAN 變體,提供更穩定的梯度信號,減輕訓練不穩定性和模式崩潰問題。
WaveNet是一種深度生成模型,直接對原始音訊波形進行建模,能夠生成高品質的語音和音樂,並在語音合成領域取得了顯著的成果。
權重裁剪是一種正則化技術,透過將神經網路的權重限制在特定數值範圍內,以增強模型訓練的穩定性與收斂效果。
「權重衰減」是深度學習正則化技術,透過懲罰過大權重,防止模型過度擬合,提升泛化能力。
Whisper 是 OpenAI 開發的語音辨識系統,能將語音轉換為文字,支援多種語言,並具備良好的抗噪能力和翻譯功能。
結合寬線性模型和深度神經網絡的混合機器學習架構,寬部分用於學習特徵組合,深部分用於學習高階特徵交互,常用於推薦系統和分類任務
詞義消歧(WSD)是自然語言處理中的一項任務,旨在確定一個詞在特定上下文中的正確含義,因為許多詞具有多重含義。