摘要生成技術 Abstractive Summarization
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
瀏覽 AITerms.tw 中標籤為「模型訓練」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「模型訓練」,共 345 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「模型訓練」 ,共 345 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
在反向傳播時重新計算隱藏層激活值而非存儲,交換計算時間換取記憶體空間,使訓練更大模型成為可能。
神經網路中賦予模型非線性表達能力的函數,使深度網路能學習複雜非線性模式。
演員-評論家是一種強化學習演算法,結合了策略梯度(演員)和時序差分學習(評論家)的優點,以實現更穩定的學習。
根據過去梯度的平方和自動調整各參數學習率的最佳化演算法,使高頻參數學習率較小,低頻參數學習率較大。
適配器模組是一種輕量級的模型微調方法,透過在預訓練模型中插入少量可訓練參數,以適應特定任務,同時保持原始模型參數凍結。
對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改,使AI模型產生錯誤輸出的攻擊方式,用於測試模型的魯棒性。
對抗性去偏見是一種利用對抗性訓練減少機器學習模型預測中固有偏見的技術,確保演算法的公平性。
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題,確保AI的發展符合人類價值觀。
人工智慧安全旨在確保AI系統在部署後,其行為符合人類意圖,避免產生意外或有害的後果,保障人類福祉。
一種相對位置編碼方法,通過在注意力分數中添加位置相關的線性偏置項,實現相對位置編碼且具有優秀的外推性能。
對齊校準是指使AI模型,特別是大型語言模型,的行為與人類意圖、價值觀和倫理規範相符的過程,降低潛在風險。
一種在分散式系統中進行資料聚合與同步的通訊操作,確保所有計算節點最終獲得完全相同的整合結果。
反洗錢人工智慧(AML AI)利用AI技術自動偵測金融交易中的可疑活動,協助金融機構遵守法規,打擊洗錢犯罪。
通用人工智慧(AGI)是指具備與人類同等或超越人類的智慧,能夠理解、學習、適應並在任何智力任務中表現出色的AI系統。
注意力崩潰指深度神經網路的注意力權重趨向一致,導致模型無法有效區分輸入特徵的現象。
注意力機制讓神經網路在處理序列資料時,動態分配不同位置的關注權重,提升長距離依賴的捕捉能力
一種深度學習技術,使模型能動態權衡時間序列中不同時間步的重要性,以捕捉長期依賴關係和關鍵模式。
自編碼器是一種神經網路,旨在學習輸入數據的壓縮表示(編碼),然後從該壓縮表示重建原始數據(解碼)。
自動特徵工程利用演算法自動從原始資料中提取、選擇和轉換特徵,以提升機器學習模型的效能。
後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。
Bagging (Bootstrap Aggregating) 是一種集成學習技術,透過對原始資料集進行多次有放回的抽樣,訓練多個模型,並將它們的預測結果進行平均或投票。
批次正規化是一種標準化技巧,針對每層網路的輸入進行調整,使訓練過程更穩定,並允許使用較大的學習率
將大量資料或任務累積後一次性集中執行的計算模式,與即時處理相對。
批次大小是訓練時每次更新模型參數所使用的樣本數,直接影響訓練速度、記憶體用量與模型收斂穩定性
貝氏最佳化是一種用於最佳化黑盒函數的演算法,它使用貝氏模型來建立目標函數的代理模型,並利用該模型來選擇下一個要評估的點,以在最少的迭代次數內找到最佳解。
集束搜尋是一種啟發式搜尋演算法,用於序列預測任務,它在每個時間步保留多個最有可能的候選序列(集束),而非僅僅選擇最佳選項。
基準測試是用於評估和比較不同AI模型、演算法或系統性能的標準化方法,提供客觀的性能指標。
BERT是一種基於Transformer架構的雙向編碼器模型,用於理解文本的語義和上下文,廣泛應用於自然語言理解任務。
偏差是模型對特定族群或特徵產生系統性錯誤傾向,源自訓練資料不平衡或演算法設計缺陷
AI偏見是指AI系統在訓練或決策過程中,由於資料、演算法或人為因素,產生不公平或歧視性的結果。
偏差方差權衡是指在模型訓練中,降低偏差會增加方差,反之亦然。目標是找到一個平衡點,使模型在未見過的數據上表現良好。
將類別特徵映射為整數,再將這些整數轉換為其二進位表示的特徵工程方法。
黑箱模型是指其內部運作機制對使用者而言不透明的模型,難以理解輸入與輸出之間的具體關係。
Boosting 是一種集成學習技術,透過迭代訓練一系列弱學習器,每個學習器都試圖糾正前一個學習器的錯誤,最終將它們組合起來形成一個強學習器。
邊界框偵測是一種電腦視覺技術,用於在影像或影片中定位和識別物體,並使用矩形框標示出物體的位置。
指從開始到完成AI模型或軟體專案建置過程所需的時間。
位元組對編碼(BPE)是一種資料壓縮技術,也常用於自然語言處理中,作為一種詞彙標記化方法,將單詞分解成更小的子詞單元。
膠囊網路是一種神經網路架構,旨在解決卷積神經網路在處理物件方向和空間關係上的不足,透過膠囊和路由機制,更有效地捕捉物件的層次結構。
因果語言模型是一種語言模型,它基於序列中先前詞彙預測下一個詞彙,並明確建模詞彙之間的因果關係,以提升生成文本的連貫性和可控性。
在模型訓練過程中定期儲存模型狀態與權重的技術,可防止意外中斷導致進度遺失,並便於後續推論或微調。
金吉拉縮放是一種模型縮放法則,旨在透過調整模型大小和訓練資料量,以達到最佳的計算效率,避免過度訓練或訓練不足。
類別權重是一種機器學習技術,透過賦予少數類別較高權重來解決資料不平衡問題,提升模型對稀有事件的預測能力。
點擊率預測旨在預估使用者點擊特定廣告或連結的可能性,是數位廣告和推薦系統的核心技術。
冷啟動問題是指在推薦系統中,對於新使用者或新物品,由於缺乏足夠的互動資料,導致無法準確推薦的問題。常見解決方案包括利用元資料、內容過濾或混合推薦。
運算最佳訓練旨在於給定運算資源下,最大化模型效能。它涉及調整模型大小、資料集大小和訓練步驟,以達到最佳效率。
概念瓶頸模型是一種深度學習模型,它強制模型通過人類可理解的概念來進行預測,從而提高模型的可解釋性和可控性。
衡量數學問題或演算法對輸入微小變化的敏感程度。
憲法式AI原則是一種透過明確的價值觀或「憲法」來引導AI系統行為的方法,旨在確保AI的輸出符合人類的期望和倫理標準。
內容生成是指使用人工智慧技術自動創建文字、圖像、音訊或影片等內容的過程,旨在降低內容創作成本並提高效率。
持續學習旨在使AI模型能夠在不遺忘先前知識的情況下,逐步學習新的任務和資料,模擬人類終身學習的能力。
對比學習是一種自監督學習方法,通過學習區分相似和不相似的樣本,從而提取資料的有效表示,無需人工標註。
ControlNet 是一種神經網路結構,用於控制大型擴散模型,例如 Stable Diffusion,以實現更精確的圖像生成控制,例如基於草圖或邊緣圖生成圖像。
凸優化是一種數學優化方法,旨在尋找凸函數在凸集合上的最小值。其優點是局部最小值即為全局最小值,易於求解。
神經網路中利用卷積運算自動提取局部特徵的層級,通過多個小尺寸濾波器滑動掃描輸入數據,能有效減少參數數量並增強空間特徵學習能力。
語料庫是大量結構化的文本集合,用於語言研究和自然語言處理,提供真實語言使用的範例,用於訓練和評估模型。
學習率沿著餘弦函數曲線逐漸衰減,從初始值平滑降低到最小值,使模型在訓練後期細微調整參數。
代價函數是所有訓練樣本損失函數的平均值,用於評估模型在整個訓練集上的表現,並作為優化算法的目標。
交叉熵損失是一種衡量兩個機率分佈之間差異的損失函數,常用於分類任務中評估模型預測結果與真實標籤的差距。
交叉驗證是一種將資料分成多份,輪流以不同子集作為驗證集,藉此評估模型泛化能力的技術
資料標註是為資料集添加標籤或註解的過程,使機器學習模型能夠理解和學習這些資料,是模型訓練的基礎。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
描述資料集來源、組成、預期用途、限制與潛在偏誤的文件。
資料填補是處理遺失值的方法,透過統計方法估算並替換遺失值,以維持資料完整性,避免分析偏差。
資料標註是指為原始資料添加標籤的過程,這些標籤提供關於資料的額外資訊,用於訓練監督式機器學習模型。
資料並行是一種分散式訓練方法,將資料分割成多份,分配給多個節點,每個節點使用相同模型副本訓練不同資料子集。
資料投毒攻擊是一種惡意攻擊,攻擊者將惡意或錯誤的資料注入到訓練資料集中,以影響機器學習模型的性能或行為。攻擊目標是使模型產生錯誤的預測或執行其他有害操作。
資料前處理是指在將原始資料用於機器學習模型之前,對其進行清理、轉換和整合的過程,以提高模型效能和準確性。
將大規模資料集水平切割為多個獨立區塊,以提升平行處理效率與降低記憶體負荷。
資料版本控制是一種管理機器學習專案中資料集與模型異動的技術,確保實驗的可重複性與團隊協作效率。
資料版本控制追蹤資料集在不同時間點的狀態,確保可重複性、可追溯性,並允許回復到先前的資料版本。
決策樹是一種透過 if-else 條件判斷,將資料逐步拆解為更純粹子集的模型,具備高度可解釋性
深度協同過濾結合深度學習與協同過濾,利用神經網路學習使用者和物品的隱藏表示,以提升推薦準確度,尤其在處理複雜互動模式時。
深度學習是一種機器學習方法,透過多層神經網路自動從原始資料中提取階層特徵,解決複雜問題。
深度Q網路(DQN)是一種結合深度學習與Q學習的強化學習演算法,利用深度神經網路逼近Q函數,解決高維度狀態空間的強化學習問題。
深度強化學習結合深度學習與強化學習,透過深度神經網路學習複雜策略,以在特定環境中最大化累積獎勵。
去噪擴散機率模型(DDPM)是一種生成模型,通過逐步添加高斯噪聲破壞資料,然後學習逆向過程,從噪聲中重建資料,實現高品質的資料生成。
DenseNet是一種深度學習模型,透過密集連接每一層到所有後續層,最大化層之間的資訊流動,增強特徵重用,減少梯度消失問題。
Dice Loss是一種用於衡量兩個樣本之間相似度的損失函數,尤其適用於處理不平衡的資料集,常見於圖像分割任務。
擴散模型是一種生成模型,透過逐步將雜訊還原成清晰圖像,達成從隨機雜訊生成資料的目的
數位分身是真實世界實體或系統的虛擬化身,通過收集數據進行模擬、監控和預測,以優化性能、預防故障和做出更明智的決策。
降維處理旨在減少資料集的特徵數量,同時保留重要資訊,以簡化模型、加速運算並避免維度災難。
直接偏好優化(DPO)是一種直接利用人類偏好資料,優化語言模型,無需訓練獎勵模型的強化學習替代方案。
分散式訓練利用多個計算節點,將模型訓練任務分割並行處理,加速大型模型訓練,提升效率。
隨機丟棄是一種訓練技巧,透過隨機關閉部分神經元,避免網路過度依賴單一路徑,提升模型的泛化能力
隨機失活遮罩在訓練時動態產生隨機二元矩陣,將部分神經元輸出暫時歸零,以打破特徵依賴並防止模型過度擬合。
AI藥物發現利用人工智慧加速藥物研發流程,從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位,降低成本並縮短開發週期。
利用互逆任務(如中翻英與英翻中)之間的結構對稱性,建構閉環反饋系統以提升機器學習效能的無監督訓練框架。
提前終止是一種機器學習訓練技巧,藉由監控驗證損失,在模型過度擬合前及早停止訓練,以提高泛化能力。
高效神經架構搜尋(Efficient NAS)旨在降低NAS的計算成本,通過架構共享、代理模型等技術加速搜尋過程,找到高性能的神經網路架構。
EfficientNet 是一系列由 Google 開發的卷積神經網路架構,旨在透過複合縮放方法,在準確度和效率之間取得最佳平衡。
具身人工智慧是指讓AI系統擁有物理軀體,透過與環境互動來學習和解決問題,強調感知、行動和環境之間的循環。
端到端自動駕駛是一種深度學習架構,直接將感測器資料轉換為駕駛控制指令,無需人工設計中間模組。
集成學習透過結合多個弱學習器,建立一個強學習器,以提高模型的準確性和泛化能力,常見方法包括Bagging、Boosting和Stacking。
Epoch(訓練輪次)是模型完整遍歷一次訓練資料集的過程;訓練輪次數量影響模型效果,過多會造成過擬合,過少會導致欠擬合。
期望最大化 (EM) 算法是一種迭代算法,用於在存在隱變量的情況下,估計機率模型的參數。它交替執行期望 (E) 步驟和最大化 (M) 步驟。
梯度爆炸是指在深度學習模型訓練中,梯度在反向傳播時變得異常巨大,導致權重更新過大,模型訓練不穩定甚至崩潰。
探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。
GBDT 的進化版,加入正則化防過擬合,支援缺失值和並行化,是比賽和業界的常勝軍
公平性約束是在機器學習模型訓練或部署過程中引入的數學條件,旨在防止系統對特定群體產生偏見,確保演算法決策的公正性。
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
Faster R-CNN是一種物件偵測演算法,它使用區域建議網路(RPN)來生成候選區域,並使用卷積神經網路(CNN)對這些區域進行分類和邊界框回歸。
系統在部分元件發生故障時仍能持續正常運作的能力。
機器學習中,輸入資料的特徵分佈隨時間變化的現象,可能導致模型性能下降。
特徵工程透過創建、轉換與選擇原始資料的代表性特徵,顯著提升機器學習模型的預測效果
特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。
特徵選擇是機器學習中選擇最相關特徵子集的過程,旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。
特徵儲存庫是一個集中管理和共享機器學習特徵的平台,確保特徵一致性、可重用性,並簡化特徵工程流程。
聯邦平均算法透過對多個節點的本地模型參數進行加權平均,在不收集原始資料的情況下訓練全局模型。
聯邦邊緣學習是一種將機器學習模型訓練下放到邊緣設備的分散式架構,藉由保護數據隱私的同時提升運算效率。
聯邦學習是一種多方協作的機器學習方法,各方在本地訓練模型,僅共享模型更新,保護原始資料
回饋迴路是指系統輸出影響其輸入的過程,在AI中用於迭代改進模型效能,透過評估結果並調整參數。
前饋神經網路是一種訊息單向傳播的神經網路,由輸入層、隱藏層和輸出層組成,廣泛應用於分類和迴歸任務。
微調是在預訓練模型基礎上,以少量特定領域資料繼續訓練,使通用模型適應特定任務需求,提升性能。
閃電注意力機制是一種優化注意力計算的技術,透過重新排序計算步驟和利用硬體加速,大幅提升注意力計算的速度和記憶體效率。
通過重新組織注意力計算的記憶體訪問模式和利用 GPU 快速片上記憶體,大幅加速 Transformer 注意力層的技術。
焦點損失函數 (Focal Loss) 是一種用於解決物件偵測中類別不平衡問題的損失函數,它通過降低易分類樣本的權重,使模型更關注難分類樣本。
長短期記憶網路(LSTM)的核心門機制,通過 sigmoid 激活函數產生 0-1 的控制信號,決定上一時步細胞狀態中有多少信息應被遺棄或保留,是解決梯度消失問題的關鍵元件。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
將類別特徵轉換為其在資料集中出現的頻率或計數,以捕捉資訊並降低維度。
神經網路中每個神經元都與前一層所有神經元相連的層級,每條連接都有獨立的可學習權重,能進行高度非線性的特徵轉換,常用於網路最後階段進行分類或迴歸。
驗證AI模型或系統在特定輸入下行為是否符合預期功能的過程。
閘控循環單元(GRU)是一種循環神經網路(RNN)的變體,旨在解決傳統RNN的梯度消失問題,更有效地捕捉長期依賴關係。
高斯雜訊是一種機率密度符合常態分佈的隨機干擾訊號,數值多集中於平均值,常應用於資料擴增與生成模型中。
泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律,並應用於新數據。
生成分佈是指生成式人工智慧模型在給定隨機噪聲或潛在變數後,所產生的合成資料在特徵空間中呈現的機率分佈。
生成式模型(Generative Model)是能夠學習資料的機率分布並從中生成新樣本的機器學習模型,涵蓋 GAN、VAE、擴散模型等架構,廣泛應用於影像合成、文字生成與資料擴增。
基因演算法是一種模擬生物進化過程的優化算法,通過選擇、交叉和突變等操作,逐步演化出更優的解,用於解決複雜的搜索和優化問題。
GPT是一種基於Transformer架構的大型語言模型,透過預訓練學習大量文本資料,用於生成文本、翻譯語言、回答問題等。
圖形處理器(GPU)是一種專為並行處理設計的電子電路,最初用於加速圖像渲染,現廣泛應用於深度學習等需要大量計算的領域。
多個訓練步驟內累加梯度,最後進行一次參數更新,有效增加批量大小而不增加記憶體占用,用於訓練記憶體受限的大型模型。
梯度提升法是一種機器學習技術,透過迭代地組合弱學習器(通常是決策樹)來建立強大的預測模型,每次迭代都專注於修正前一個模型的錯誤。
梯度裁剪是一種防止梯度爆炸問題的技術,通過限制梯度的大小,確保訓練過程的穩定性,避免模型參數更新過大。
梯度下降是一種透過反覆運算,沿損失函數的梯度方向,逐步逼近損失函數最小值的演算法
梯度懲罰是用於穩定生成對抗網路的正則化技術,透過限制梯度範數以確保模型平滑,能防止模式崩潰。
在分散式機器學習中,匯總多個運算節點的梯度以確保模型參數一致更新的過程。
貪婪解碼是一種序列生成方法,在每個時間步選擇概率最高的詞作為輸出,直到生成終止符號或達到最大長度。它簡單快速,但可能陷入局部最佳解。
網格搜尋是一種超參數調校方法,它窮舉超參數空間中所有可能的組合,並評估每個組合的模型效能。
頓悟學習指模型在訓練初期泛化能力差,但經過長時間訓練後,突然展現出良好的泛化能力,如同頓悟一般。
真實邊界框是電腦視覺模型訓練與評估中,由人工標註的正確物件位置範圍,作為衡量預測結果的基準標準。
一種高效的注意力機制,將多個查詢頭共享同一組鍵值頭,減少模型參數和記憶體消耗,同時保持性能不下降。
指在人工智慧系統的訓練、評估與決策過程中,系統性引入人類專業知識與反饋的機制,以確保模型行為符合預期。
人機迴路 (HITL) 是一種 AI 方法,其中人類參與模型訓練和決策過程,以提高準確性、可靠性和倫理考量。
超參數是機器學習模型訓練前,由人為設定且影響模型學習效果的參數,例如學習率或網路層數
超參數調校是機器學習中,尋找最佳超參數組合以提升模型效能的過程,涉及多次模型訓練與評估。
圖像分類是電腦視覺中的一項任務,旨在將圖像分配到預定義的類別中。模型學習圖像特徵,並基於這些特徵預測圖像所屬的類別。
圖像生成是一種人工智慧技術,旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。
圖像識別是電腦視覺領域的一項任務,旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛,可能涉及定位和標記圖像中的多個對象。
機器人模仿學習是一種讓機器人透過觀察人類或其他專家示範來學習技能的方法,旨在使機器人能執行複雜任務。
上下文學習 (In-context Learning) 指的是大型語言模型無需額外訓練,僅通過輸入範例即可學習新任務的能力。
上下文學習理論指大型語言模型無需額外訓練,僅憑藉輸入提示中的範例,即可執行新任務的能力,展現了模型泛化的潛力。
Inception Network 是一種深度卷積神經網路架構,旨在透過並行使用多種卷積核大小,捕捉不同尺度的特徵,提升模型效能。
透過對比正負樣本,最大化互資訊下界的損失函數,主要用於自監督表徵學習。
長短期記憶網路(LSTM)的關鍵元件,通過 sigmoid 激活函數產生 0-1 之間的門控信號,動態控制有多少當前輸入信息應被添加到細胞狀態,實現選擇性的信息流控制。
指令微調是一種利用特定格式指令資料集,微調預訓練語言模型,使其更精確理解並執行人類指令的技術。
探索不足是指代理人過早專注於已知的高回報行為,未充分嘗試其他未知行為,導致陷入局部最佳解的現象。
意圖分類是自然語言處理中的一項任務,旨在將一段文字(例如使用者查詢)分類到預定義的意圖類別中,以理解使用者的目的。
標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好,反之則可能需要重新評估標註規範。
迭代反向翻譯是一種自然語言處理技術,透過將目標語言翻譯回來源語言生成合成平行語料,並反覆交替訓練正反向模型以提升翻譯品質。
L2 正則化是一種機器學習技術,透過在損失函數中加入權重平方和的懲罰項,促使模型權重縮小,有效降低模型複雜度並避免過度擬合,提升泛化能力。
標籤偏誤是指訓練資料的標註結果反映了人類主觀判斷或社會既有成見,導致資料標籤帶有系統性偏差,使AI模型學習到不公平的關聯。
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
拉格朗日乘數是一種尋找約束條件下函數極值的方法。它引入拉格朗日函數,將約束條件納入目標函數,從而將約束優化問題轉化為無約束優化問題。
土地覆蓋分類是將遙感影像像素歸類為不同地物類型的過程。
語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。
拉普拉斯平滑(Laplace Smoothing)又稱加一平滑,是貝氏統計中避免零機率問題的技術,在計算類別條件機率時,將每個類別的計數加上常數 α(通常為 1),防止訓練集未見過的詞彙或特徵使整個機
潛在擴散模型(LDM)是一種生成式AI模型,透過在潛在空間中進行擴散和逆擴散過程,生成高解析度、高品質的圖像或其他資料。
潛在空間是機器學習模型學習到的高維資料的壓縮表示,它捕捉了資料的底層結構和關係,並將其映射到一個低維空間。
層歸一化是一種神經網路正規化技術,它在每個層級對所有神經元的激活值進行歸一化,以加速訓練並提高泛化能力。
學習是AI系統從數據中自動提取模式、規律與特徵,藉以提升特定任務效能的核心過程。
學習率是機器學習模型訓練中的關鍵超參數,它決定了梯度下降演算法每次更新模型參數的步長與幅度,過大可能導致模型震盪,過小則會使收斂速度緩慢。
根據訓練進度動態調整學習率的策略,能幫助模型在初期快速收斂,並在後期穩定尋找全域理想解。
學習率排程是一種在訓練過程中調整學習率的技術,旨在加速收斂、避免震盪,並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。
訓練初期逐漸增加學習率,避免初始化不佳導致的訓練不穩定,通常在前幾個 epoch 內從 0 線性增加到目標值。
線性迴歸法是一種統計方法,用於建立自變數和應變數之間的線性關係模型。目標是找到最佳擬合線,以預測應變數的值。
LLaMA(Large Language Model Meta AI)是 Meta 開發的開放權重(open-weight)大型語言模型系列,可免費下載、修改、自行部署,採 Meta 自訂 community license 授權,非 OSI 認證開源。
讓大型語言模型的行為與人類價值觀、意圖及社會規範一致的技術與方法體系。
LLMs 是大型語言模型群的統稱,代表當今具備強大自然語言理解與生成能力的各類基礎模型集合。
對數損失(Log Loss)是交叉熵損失在二元分類問題中的特殊形式,衡量模型預測機率與真實標籤之間的差異,數值越小代表模型表現越好。
邏輯迴歸是一種廣義線性模型,用於預測二元或多元分類結果的機率。它使用 Sigmoid 函數將線性組合轉換為機率值,並透過最大似然估計來訓練模型。
LoRA是一種參數高效的微調技術,透過學習低秩矩陣來適應預訓練模型,大幅減少訓練參數,降低計算成本。
損失函數衡量模型預測與實際值之間的差異,數值越小代表模型預測越準確,是模型訓練中優化目標的關鍵組成部分。
機器學習讓電腦透過分析大量資料自動找出規律,無需明確程式指令即可完成預測與分類任務
把 DevOps 的實踐應用到 ML 系統上,自動化模型的訓練、部署、監控全生命週期
機器翻譯是利用電腦程式自動將文字或語音從一種語言轉換成另一種語言的技術,旨在打破語言障礙,促進跨文化交流。
Mamba是一種基於選擇機制的序列模型,旨在解決Transformer在長序列建模上的效率瓶頸,透過硬體感知演算法提升運算速度。
馬可夫決策過程(MDP)是一種用於建模決策的數學框架,其中結果部分隨機,部分受決策者控制。它廣泛應用於強化學習。
Mask R-CNN是一種深度學習模型,用於物件偵測、實例分割和人體姿勢估計。它擴展了Faster R-CNN,增加了預測每個物件像素級別遮罩的分支。
遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。
矩陣分解是一種將矩陣分解為兩個或多個矩陣乘積的技術,常應用於推薦系統,以預測用戶對未評分項目的偏好。
矩陣分解推薦是一種推薦系統技術,它將用戶-項目互動矩陣分解為兩個低維矩陣,分別代表用戶和項目的隱含特徵,用於預測用戶對未互動項目的偏好。
最大似然估計 (MLE) 是一種統計方法,用於估計機率分佈的參數,它通過最大化觀察到樣本數據的似然函數來實現。
平均絕對誤差(MAE)是衡量預測值與實際值之間平均絕對差異的指標,數值越小代表模型預測越準確。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
成員推斷攻擊旨在判斷特定資料點是否曾被用於訓練機器學習模型。攻擊者利用模型輸出來推斷訓練資料的成員關係,可能洩漏隱私資訊。
記憶率衡量AI模型對訓練資料中特定樣本的過度記憶程度,可能導致隱私洩露或泛化能力差。
元學習,又稱學習如何學習,旨在訓練模型能夠快速適應新任務或環境,透過少量樣本即可達到良好的效能。
指多模態模型在部分輸入資料(如影像或音訊)缺失或損壞時,仍能維持穩定預測效能與系統運作的能力。
混合精度訓練是一種使用不同精度(如 FP16 和 FP32)的浮點數進行模型訓練的技術,旨在加速訓練過程並減少記憶體佔用。
混合正則化是一種透過組合兩個或多個訓練樣本及其標籤來生成新訓練數據的技術,藉此擴增資料集多樣性,有效減輕神經網路模型的過擬合現象並提升泛化能力。
深度混合是一種模型架構,它結合了多個不同深度的子網路,以提升模型的表達能力和泛化能力,並允許模型根據輸入動態調整其深度。
專家混合模型是一種機器學習技術,透過結合多個獨立的「專家」模型,針對不同輸入選擇性地激活特定專家,以提升模型整體效能。
機器學習管線是自動化機器學習工作流程的步驟序列,包括資料準備、模型訓練、評估和部署。
MobileNet是一種針對移動和嵌入式設備設計的輕量級深度神經網路架構,旨在實現高效的資源利用和快速的推論速度。
GAN 訓練時生成器只輸出少數幾種重複樣本而喪失多樣性的訓練失敗現象。
模型壓縮是指減少機器學習模型大小和計算複雜度的技術,以便在資源有限的設備上部署,同時保持模型性能。
模型評估是衡量機器學習模型在未知資料上表現的過程,透過特定指標來確保模型的泛化能力與實用性。
模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式,藉此洩漏隱私。
模型平行化是一種將大型模型分割到多個裝置上進行訓練或推論的技術,以克服單一裝置的記憶體限制。
模型參數是機器學習模型從資料中學習到的內部數值變數,包含權重與偏差,主要決定模型如何產生預測結果。
模型登錄庫是集中管理 AI 模型版本、追蹤訓練紀錄與部署狀態的系統,如同模型的戶籍系統
模型版本控制是追蹤和管理機器學習模型不同迭代的過程,確保可重複性、可追溯性和協作。
學習環境模型(動態和獎賞),用模型進行規劃而非直接與環境互動的強化學習方法。
多步預測是一種時間序列分析技術,旨在同時或依序預測未來多個時間點的數值,而非僅單一未來點。
多任務學習是一種機器學習方法,旨在同時訓練一個模型來執行多個相關任務,以提升模型的泛化能力和效率。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
音樂生成是利用AI模型自動創作音樂,涵蓋旋律、和聲、節奏等多個方面,旨在模擬人類作曲過程。
N元語法是一種自然語言處理技術,用於預測序列中下一個詞的概率,基於前N-1個詞的出現頻率。
樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。
NAS 是一種自動化設計神經網路架構的技術,旨在減少人工設計的試錯成本,讓演算法自行尋找效能最佳的模型結構。
神經架構搜尋(NAS)是一種自動化設計神經網路架構的技術,旨在尋找在特定任務上表現最佳的模型結構,無需人工手動設計。
神經輻射場景(NeRF)是一種使用神經網路表示3D場景的新穎方法,它通過學習場景的體積密度和顏色來實現逼真的渲染。
BERT 預訓練的輔助任務,給定兩個句子,判斷第二個句子是否在原文本中直接跟隨第一個句子,用於訓練模型理解句子間的邏輯關係。
常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。
目標函數是機器學習模型訓練中用於評估模型表現的函數,其數值代表模型預測與實際值的差距,優化目標是最小化或最大化此函數。
從預先收集的固定資料集學習策略,不與環境互動,適合昂貴或危險環境。
單樣本學習是一種機器學習方法,旨在僅使用一個或少數幾個樣本來學習新的類別或概念,模擬人類快速學習的能力。
線上學習是一種機器學習方法,模型在接收到每個新資料點後立即更新,無需儲存所有資料或進行批次訓練,適用於資料流場景。
估計影片相鄰幀之間像素的運動向量,用於動作檢測、影片壓縮、視覺導航等應用。
指機器學習訓練過程中,最佳化演算法為更新模型權重所儲存的動量、變異數等歷史計算數值。
一種具有明確順序或等級關係,但數值間距不一定均等的類別型資料。
長短期記憶網路(LSTM)的門控機制之一,通過 sigmoid 激活函數產生 0-1 的信號,決定細胞狀態中有多少信息應被輸出至隱藏狀態,控制網路對外部環境的信息交互程度。
神經網路最後一層,根據任務類型選擇合適的激活函數,將隱藏層的高維特徵轉換為最終預測結果(分類概率、迴歸值或其他形式),是模型與外界交互的界面。
過擬合指模型過度記憶訓練資料的細節與雜訊,導致在未見過的新資料上預測表現大幅下滑
PaLM (Pathways Language Model) 是 Google 開發的大型語言模型,以其卓越的推理能力和多語言處理能力著稱。
一種整合實例分割與語義分割的神經網路架構,透過特徵金字塔網路同時處理前景物件與背景環境的高效模型。
結合語義分割和實例分割,同時處理可數物體(分個體)和不可數物體(只分類),提供完整的場景理解。
一種分散式機器學習架構,專門負責儲存與更新全域模型參數,並與多個工作節點進行通訊與資料同步。
模型參數是機器學習模型在訓練過程中學習到的數值,用於決定模型如何對輸入資料進行轉換和預測。它們是模型的內部變數。
病理學AI利用人工智慧分析組織切片影像,輔助病理醫生診斷癌症、感染等疾病,提升診斷效率和客觀性。
感知器是最簡單的神經網路模型,模擬生物神經元,接收輸入、加權求和、通過激活函數輸出,用於二元分類。
困惑度衡量語言模型預測文本序列的能力,數值越低代表模型預測能力越好,對文本的理解程度越高。
持久化儲存卷是在容器化環境中獨立於容器生命週期的儲存資源,能確保系統或任務重啟時資料不會遺失。
將深度神經網路的不同層分配到不同的 GPU 設備上,讓多個 micro-batch 在不同層上交叉執行以提高 GPU 利用率的分佈式訓練方法。
策略崩潰是強化學習中因參數更新過度,導致行為迅速退化成單一無效模式的現象,嚴重破壞訓練穩定性。
策略梯度是一種直接優化策略的強化學習方法,它通過計算策略梯度來更新策略參數,以最大化預期累積獎勵。
位置編碼是一種將序列中單詞或符號的位置資訊嵌入到向量表示中的技術,使模型能感知序列順序。
前綴調整法是一種參數高效的微調技術,通過在輸入序列前添加可訓練的前綴向量,來引導預訓練模型生成期望的輸出,同時保持原始模型參數凍結。
程式化標註是一種利用程式碼(例如,規則、啟發式方法或外部知識庫)自動生成訓練資料標籤的技術,以加速模型開發。
改進的策略梯度演算法,透過信賴域約束防止策略過大更新,提高訓練穩定性。
透過自動化演算法從多語言文本中萃取或合成的高語義相似度句子對集合,主要用於緩解跨語言任務中的資料稀缺問題。
放射醫學AI利用人工智慧技術分析醫學影像,輔助醫生診斷疾病,提高診斷效率和準確性,並減少人為錯誤。
隨機森林是一種集成學習演算法,透過多棵決策樹投票,以隨機子集資料和特徵進行訓練,提升預測準確性
隨機遮蔽是隱藏部分資料的自監督技術,迫使模型從剩餘資訊推斷缺失內容,以提升特徵提取與泛化能力。
隨機過採樣(Random Oversampling)是處理類別不平衡問題的技術,透過隨機複製少數類別的現有樣本,使各類別的訓練樣本數趨於平衡,讓模型對少數類別有足夠的學習機會,但有增加過擬合風險的疑慮
隨機搜尋是一種超參數最佳化方法,它在預定義的超參數空間中隨機選擇參數組合,並評估其性能,以找到最佳的超參數配置。
真實分佈是指母體資料在客觀現實中的機率分佈狀態,是機器學習與統計模型致力於逼近與學習的終極目標。
正則化是一種在機器學習中用於防止模型過度擬合的關鍵技術,它透過在損失函數中引入懲罰項,有效限制模型參數的複雜度,從而提升模型的泛化能力。
強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法
關係抽取旨在自動識別文本中實體之間的語義關係,例如「出生於」或「工作於」,是知識圖譜構建的關鍵技術。
線性整流函數(Rectified Linear Unit, ReLU)是深度學習中最常用的激活函數,將負值輸出設為零、正值保持不變,有效解決梯度消失問題並加速神經網路收斂。
殘差網路 (ResNet) 是一種深度神經網路架構,透過引入殘差連接來解決深度網路的梯度消失問題,允許訓練非常深的網路。
ResNet是一種深度學習模型,透過引入殘差連接解決深度神經網路訓練時的梯度消失問題,允許網路學習殘差映射而非直接映射。
檢索增強微調結合了檢索式和生成式模型的優勢,透過檢索相關資訊來增強微調過程,提升模型在特定任務上的效能。
獎勵函數是強化學習中定義代理在特定狀態下採取特定動作後獲得的獎勵的函數,用於引導代理學習期望行為。
獎勵建模是訓練AI模型以預測人類對不同結果的偏好,用於強化學習中,引導模型學習符合人類價值的行為。
修改強化學習的獎賞函數以加快收斂和改進學習效率的技術。
環狀注意力是一種分散式注意力機制,將注意力計算分散到多個設備上,減少單一設備的記憶體需求,適用於超大型模型。
結合強化學習與電腦視覺技術,讓代理程式透過與環境互動及獲得獎勵,學習解決動態且需序列決策的視覺任務。
人類回饋強化學習(RLHF)是一種利用人類回饋訊號,訓練強化學習模型,使其行為更符合人類偏好的方法。
使用梯度平方的指數加權移動平均調整學習率的最佳化演算法,改進了 AdaGrad 學習率單調遞減的問題。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
一種位置編碼方法,通過複數旋轉操作將位置信息編碼到注意力機制中,相比絕對位置編碼具有更好的外推性能。
函數曲面上在某方向為局部最大值,在另一方向為局部最小值之點,形似馬鞍。在最佳化中,理解收斂行為的關鍵概念。
規模指AI系統中模型參數、訓練資料與運算資源的量級。擴展規模可顯著提升效能,是推動大型語言模型突破的關鍵因素。
水平擴展是透過增加伺服器節點來分散系統負載的架構策略,常用於提升模型部署與分散式運算的處理能力。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
自我對弈是一種強化學習技術,其中智能體與自身的副本進行對弈,從而學習和改進策略,無需外部人類或標記數據。
半監督學習是一種機器學習方法,它結合了少量標記資料和大量未標記資料進行模型訓練,旨在利用未標記資料提升模型效能,降低標記成本。
SentencePiece 是一種獨立於語言的分詞器,它將輸入視為 Unicode 字符序列,並使用 BPE 或 Unigram 算法生成詞彙表。
Seq2Seq模型是一種將一個序列轉換為另一個序列的深度學習模型,廣泛應用於機器翻譯、文本摘要、語音辨識等任務。
基於會話推薦利用使用者單次瀏覽會話內的行為序列,預測使用者下一步可能感興趣的項目,無需使用者歷史資料。
連體神經網路是一種包含兩個或多個共享相同權重的相同神經網路的架構,用於比較輸入之間的相似性或關係。
模擬至實轉移是一種將在模擬環境中訓練的模型應用到真實世界的方法,旨在克服模擬與現實之間的差異,提升模型泛化能力。
模擬加速是一種結合人工智慧與計算科學的技術,用於在保持合理精確度的前提下,大幅縮短複雜系統模擬所需的時間。
一種高效的注意力機制,限制每個位置只與一個固定大小的局部上下文窗口內的位置進行注意力計算,減少計算複雜度。
槽位填充是自然語言理解中的一項任務,旨在從文本中提取特定資訊,並將其填入預定義的槽位中,以形成結構化資料。
SMOTE 是一種處理資料不平衡問題的過採樣技術,透過合成少數類別樣本來平衡資料分佈,提升模型學習效果。
稀疏性約束是一種在機器學習中,強制模型參數或內部表示包含更多零值的正則化技術,以降低運算成本。
推測解碼是一種加速大型語言模型推論速度的技術,透過小型模型預測多個token,再由大型模型驗證,減少計算量。
語音合成技術是一種將文字轉換成人類語音的技術,也稱為文字轉語音(TTS)。它廣泛應用於語音助理、導航系統和輔助科技等領域。
競價型訓練利用閒置的雲端運算資源,以大幅降低模型訓練成本,但可能因資源回收而中斷。
Stable Diffusion 是一種潛在擴散模型,用於根據文字描述生成高質量圖像,透過迭代去噪過程,從隨機噪聲中產生逼真圖像。
狀態機模型是一種計算模型,系統在任何給定時間都處於有限數量的狀態之一,並根據輸入在狀態之間轉換。
狀態空間模型是一種數學模型,用於描述系統隨時間演變的狀態。它包含狀態方程和觀測方程,廣泛應用於控制、預測和訊號處理。
隨機梯度下降(SGD)是一種迭代優化算法,用於最小化目標函數。它每次迭代僅使用一個或少量樣本計算梯度,加速訓練過程,但可能導致收斂不穩定。
風格轉換是一種使用人工智慧技術,將一張圖片的風格應用到另一張圖片的內容上的方法,創造出具有新風格的圖像。
次詞單元化是將單詞拆分為更小的子單元(次詞)的技術,用於解決詞彙量過大和未登錄詞(OOV)問題,提升模型泛化能力。
超解析度重建是一種電腦視覺技術,旨在從低解析度影像重建出高解析度影像,提升影像的清晰度和細節。
超級對齊旨在確保遠超人類智慧的AI系統,其目標與人類價值觀對齊,避免潛在的失控風險。
監督式學習是一種 AI 方法,透過提供帶有正確標籤的輸入資料,訓練模型學習預測新資料的標籤
支持向量機是一種機器學習模型,透過尋找最大邊界的超平面,將不同類別的資料有效分隔
Swin Transformer是一種層級式的Transformer模型,用於電腦視覺任務,透過移動視窗機制有效降低計算複雜度,並提升模型效能。
合成數據是指通過程式或演算法生成的人工數據,而非從真實世界收集的數據。它常用於訓練AI模型,特別是在真實數據稀缺或涉及隱私問題時。
合成資料生成是指透過程式或模型創建人工資料,用於訓練機器學習模型,尤其是在真實資料稀缺或難以獲取的情況下。
系統提示詞是用於引導大型語言模型行為的初始指令,影響模型的回應風格、知識範圍和任務執行方式。
T5 (Text-to-Text Transfer Transformer) 是一種將所有 NLP 任務轉換為文本到文本格式的轉換器模型,簡化了模型訓練和應用。
訓練模型時,不小心納入在預測時無法獲取的未來或結果資訊,導致模型過度樂觀。
時序差分學習是一種強化學習方法,透過預測未來獎勵並更新預測值,從不完整的序列中學習,無需等待完整結果。
將單個張量(矩陣或更高維數組)的計算分割到多個 GPU 設備上,通過跨設備並行計算矩陣乘法等操作的分佈式訓練方法。
測試資料集用於評估模型在未見過資料上的泛化能力,是模型效能的最終指標,在模型部署前使用。
文本分類是自然語言處理中的一項任務,旨在將文本自動分配到預定義的類別中。它應用廣泛,例如垃圾郵件檢測、情感分析等。
文本摘要是自然語言處理中的一項任務,旨在從一篇或多篇文章中生成簡潔且信息豐富的摘要。分為抽取式和生成式兩種方法。
文字生成3D模型是指利用人工智慧技術,將文字描述轉換為對應的3D模型,實現從文字到視覺化模型的自動生成。
文字轉語音(TTS)是一種人工智慧技術,能將書面文字精準地轉換為自然流暢且富有表現力的人類語音,廣泛應用於語音助理、有聲書和無障礙輔助等領域。
文字轉語音 (TTS) 技術將文字轉換為人類可理解的語音。它廣泛應用於輔助工具、語音助手和內容創作等領域。
文字生成影片是一種人工智慧技術,它能根據文字描述自動生成對應的影片,將文字內容轉化為動態視覺呈現。
張量處理單元(TPU)是Google專為加速機器學習工作負載而設計的客製化硬體加速器,尤其擅長處理張量運算,是深度學習的利器。
訓練集是用於訓練機器學習模型的資料集,模型通過學習訓練集中的模式和關係來提升預測能力。
遷移學習是將已在大數據集習得的知識,轉移應用至小數據集的新任務,藉此加速模型訓練
AutoML遷移學習利用預訓練模型知識,加速AutoML流程,減少訓練數據需求,提升模型泛化能力,並降低計算成本。
三元組抽取是從文本中提取(主語,謂語,賓語)三元組的過程,是構建知識圖譜的基礎,也是關係抽取的一種形式。
驗證資料集用於在模型訓練期間調整超參數和評估模型效能,以防止過擬合,並選擇最佳模型。
梯度消失是指在深度學習模型訓練中,梯度在反向傳播時逐漸縮小至接近於零,導致淺層網路權重難以更新,模型學習停滯。
Vision Transformer (ViT) 是一種將 Transformer 架構應用於圖像識別的深度學習模型,它將圖像分割成小塊,並將其視為序列進行處理。
視覺問答(VQA)是一種人工智慧任務,要求模型根據給定的圖像回答自然語言問題,結合了電腦視覺和自然語言處理。
預熱訓練是一種在模型訓練初期,逐步提高學習率的策略,旨在穩定訓練過程,避免初期梯度爆炸或震盪。
在模型訓練初期逐漸增加學習率的策略,可防止模型權重在訓練剛開始時因過大的梯度更新而崩潰或發散。
WaveNet是一種深度生成模型,直接對原始音訊波形進行建模,能夠生成高品質的語音和音樂,並在語音合成領域取得了顯著的成果。
弱監督學習利用不精確、不完整或帶有雜訊的標籤資料來訓練機器學習模型,降低對大量精確標註資料的依賴。
權重裁剪是一種正則化技術,透過將神經網路的權重限制在特定數值範圍內,以增強模型訓練的穩定性與收斂效果。
「權重衰減」是深度學習正則化技術,透過懲罰過大權重,防止模型過度擬合,提升泛化能力。
Whisper 是 OpenAI 開發的語音辨識系統,能將語音轉換為文字,支援多種語言,並具備良好的抗噪能力和翻譯功能。
世界模型是一種AI模型,旨在學習環境的內部表示,使代理能夠預測未來狀態並做出更明智的決策。