準確率 Accuracy
iPAS所有預測中正確的比例 = (TP+TN)/(全部)。類別不平衡時容易被多數類主導
瀏覽 AITerms.tw 中標籤為「機器學習」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「機器學習」,共 438 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「機器學習」 ,共 438 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
所有預測中正確的比例 = (TP+TN)/(全部)。類別不平衡時容易被多數類主導
一種機器學習策略,由演算法主動選擇最具訊息價值的未標籤樣本進行標籤,以最小化標籤成本並最大化模型性能
透過動態調整樣本權重,使後續模型專注於前面模型的分類錯誤的經典 Boosting 演算法。
根據過去梯度的平方和自動調整各參數學習率的最佳化演算法,使高頻參數學習率較小,低頻參數學習率較大。
適配器模組是一種輕量級的模型微調方法,透過在預訓練模型中插入少量可訓練參數,以適應特定任務,同時保持原始模型參數凍結。
調整蘭德指數用於評估分群演算法,透過修正隨機偏差,客觀衡量分群結果與真實標籤間的相似程度。
衡量模型在面對惡意擾動輸入時的性能,評估其魯棒性與安全性。
透過微小擾動特意設計的輸入,能使經過訓練的 AI 模型產生錯誤預測的輸入樣本
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
自主系統對抗韌性旨在確保AI驅動的自主系統,如自駕車或機器人,在面對惡意干擾或對抗性攻擊時,仍能維持其預期功能與安全性,避免錯誤決策或系統失效。
一種透過引入具有對抗特性的數據樣本來強化模型穩健性的機器學習訓練方法,能夠提升模型在面對惡意攻擊或分佈外輸入時的防禦能力。
AI 代理是能自主規劃、執行任務並運用工具的 AI 系統,它不只回答問題,更能實際採取行動
人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題,確保AI的發展符合人類價值觀。
確保 AI 系統對不同群體(如性別、種族、年齡)的決策結果不存在不合理歧視或偏差的原則與實踐。
人工智慧監管是指政府或相關機構制定和實施的,旨在規範人工智慧技術開發、部署和使用的法律、政策和指導方針,以確保其安全、公平和符合倫理。
人工智慧安全旨在確保AI系統在部署後,其行為符合人類意圖,避免產生意外或有害的後果,保障人類福祉。
演算法交易是指利用電腦程式自動執行交易指令,根據預先設定的規則和模型,在金融市場上進行買賣操作。
指代消解是自然語言處理中的一項任務,旨在確定文本中代詞或其他指稱語所指代的先行詞,以理解文本的完整含義。
異常偵測是指識別數據集中與預期模式顯著不同的數據點,這些異常點可能指示錯誤、欺詐或其他不尋常的事件。
反洗錢人工智慧(AML AI)利用AI技術自動偵測金融交易中的可疑活動,協助金融機構遵守法規,打擊洗錢犯罪。
衡量分類模型在不同閾值下的綜合表現,AUC=1 完美,AUC=0.5 等於隨機猜
通用人工智慧(AGI)是指具備與人類同等或超越人類的智慧,能夠理解、學習、適應並在任何智力任務中表現出色的AI系統。
人工智慧是模擬人類認知能力的電腦技術,透過機器學習與深度學習讓系統能自主學習與決策
AUC(曲線下面積)是一種模型評估指標,用於衡量二元分類模型區分正負樣本的整體能力,值介於0到1之間,越高代表性能越好。
自動擴展根據系統負載自動調整計算資源,動態增加或減少伺服器數量,確保應用程式效能,同時優化成本。
自動特徵工程利用演算法自動從原始資料中提取、選擇和轉換特徵,以提升機器學習模型的效能。
自動駕駛技術利用感測器、人工智慧和控制系統,使車輛能夠在沒有人為干預的情況下感知環境並自主導航。
自主系統是指能在沒有外部干預下,感知環境、做出決策並執行動作的系統,具備一定程度的獨立性和適應性。
後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。
詞袋模型是一種簡化文本表示的方法,忽略詞語的順序和語法結構,僅統計每個詞語在文本中出現的次數,形成詞頻向量。
Bagging (Bootstrap Aggregating) 是一種集成學習技術,透過對原始資料集進行多次有放回的抽樣,訓練多個模型,並將它們的預測結果進行平均或投票。
批次推論是指將大量資料一次性輸入模型進行預測,適用於對延遲不敏感的場景,例如定期報表生成或離線資料分析。
將大量資料或任務累積後一次性集中執行的計算模式,與即時處理相對。
低功耗機器學習是一種專注於減少模型推論時能源消耗的技術,旨在延長行動裝置與邊緣設備的電池續航力。
貝氏定理描述在已知一些條件下,事件發生的機率。它基於先驗機率、條件機率和證據,更新對事件的信念。
用有向無環圖與條件機率表表示變數間依賴關係的概率圖模型,支援推論與學習。
貝氏最佳化是一種用於最佳化黑盒函數的演算法,它使用貝氏模型來建立目標函數的代理模型,並利用該模型來選擇下一個要評估的點,以在最少的迭代次數內找到最佳解。
行為預測是機器學習技術,透過分析歷史數據,識別模式,進而預測個體或群體的未來行為,應用於推薦、風險管理等。
在圖模型上透過相鄰節點間訊息的迭代交換,計算邊際分布與進行機率推論的演算法。
基準測試是用於評估和比較不同AI模型、演算法或系統性能的標準化方法,提供客觀的性能指標。
偏見偵測旨在識別AI資料或演算法中對特定群體的歧視性偏差,是確保系統公平性與可信度的關鍵步驟。
AI偏見是指AI系統在訓練或決策過程中,由於資料、演算法或人為因素,產生不公平或歧視性的結果。
識別和減少機器學習模型中存在的各種偏見,確保 AI 系統的公平性和非歧視性
偏差方差權衡是指在模型訓練中,降低偏差會增加方差,反之亦然。目標是找到一個平衡點,使模型在未見過的數據上表現良好。
將類別特徵映射為整數,再將這些整數轉換為其二進位表示的特徵工程方法。
黑箱模型是指其內部運作機制對使用者而言不透明的模型,難以理解輸入與輸出之間的具體關係。
Boosting 是一種集成學習技術,透過迭代訓練一系列弱學習器,每個學習器都試圖糾正前一個學習器的錯誤,最終將它們組合起來形成一個強學習器。
神經網路在學習新知識時快速遺忘舊知識的現象,導致之前習得的能力消失。
機器學習中取值為有限離散類別的特徵,如性別(男/女)、顏色(紅/綠/藍)、地區等,需要特殊編碼才能用於模型訓練
因果推論是從觀察數據中推斷因果關係的方法,旨在確定一個變數的變化是否直接導致另一個變數的變化。
用數學或圖形方式表示變數間因果關係與機制的模型,包括結構方程模型與因果圖。
聊天機器人是一種能模擬人類對話的電腦程式,透過文字或語音與使用者互動,提供資訊、協助解決問題或執行特定任務。
金吉拉縮放是一種模型縮放法則,旨在透過調整模型大小和訓練資料量,以達到最佳的計算效率,避免過度訓練或訓練不足。
分塊處理是指將大型資料集或文本分割成更小、更易於管理的部分,以便於模型處理和分析,提升效率。
引文網路是將文獻作為節點、引用關係作為有向邊的圖結構,用於分析學術影響力與知識傳承脈絡。
類別權重是一種機器學習技術,透過賦予少數類別較高權重來解決資料不平衡問題,提升模型對稀有事件的預測能力。
在分類模型訓練時對不同類別樣本賦予不同損失權重的技術,用於緩解資料類別不平衡問題,使模型更重視少數類別。
點擊率預測旨在預估使用者點擊特定廣告或連結的可能性,是數位廣告和推薦系統的核心技術。
AI 氣候模型是指使用機器學習加速和改進氣候模擬和預測的技術。AI 能從大規模氣象數據中學習複雜的氣候動態,提高預測準確性和計算效率,支持氣候變化研究和政策制定。
臨床自然語言處理 (Clinical NLP) 是一種利用自然語言處理技術,從醫療文本中提取、分析和理解資訊的AI應用,旨在改善醫療照護品質和效率。
程式碼生成是指利用人工智慧模型,自動產生程式碼片段或完整程式的技術,旨在提高開發效率並降低編碼錯誤。
冷啟動問題是指在推薦系統中,對於新使用者或新物品,由於缺乏足夠的互動資料,導致無法準確推薦的問題。常見解決方案包括利用元資料、內容過濾或混合推薦。
協同過濾是一種推薦系統技術,透過分析使用者行為或偏好,預測使用者可能感興趣的項目,例如商品、電影或音樂。
利用強化學習演算法來解決複雜組合最佳化問題的技術,透過與環境互動學習最佳決策策略以尋求近似最佳解。
計算生物學結合電腦科學、統計學與生物學,利用演算法分析生物數據,以理解複雜的生物系統與過程。
運算最佳訓練旨在於給定運算資源下,最大化模型效能。它涉及調整模型大小、資料集大小和訓練步驟,以達到最佳效率。
概念漂移是指機器學習模型在部署後,由於資料分佈隨時間變化,導致模型預測準確度下降的現象。需要持續監控並重新訓練模型。
評估分類模型效能的表格,顯示預測與真實類別的對應關係,幫助理解模型在各類別上的表現。
一種生成模型,通過學習將任意噪音水平的數據映射到同一最終樣本,實現單步或少步生成,不需要逐步去噪過程。
內容過濾推薦是一種推薦系統方法,它基於用戶過去互動過的項目內容特徵,向用戶推薦相似的項目。它分析項目描述,並匹配用戶偏好。
根據物品的內容特徵與用戶的歷史偏好相似度,推薦相似物品。無需依賴其他用戶信息,適合新物品和冷啟動場景。
持續學習旨在使AI模型能夠在不遺忘先前知識的情況下,逐步學習新的任務和資料,模擬人類終身學習的能力。
自動化系統持續收集新資料、重新訓練機器學習模型並部署新版本,使模型效能適應環境變化。
對比學習是一種自監督學習方法,通過學習區分相似和不相似的樣本,從而提取資料的有效表示,無需人工標註。
對話式人工智慧是指能透過自然語言與人類進行互動的AI系統,例如聊天機器人或語音助理,旨在提供更自然、直觀的互動體驗。
凸優化是一種數學優化方法,旨在尋找凸函數在凸集合上的最小值。其優點是局部最小值即為全局最小值,易於求解。
Copilot 是一個 AI 程式碼助手,透過分析程式碼上下文,提供程式碼建議、自動完成和程式碼生成,提升開發效率。
相關係數衡量兩個變數之間線性關係的強度和方向,範圍從 -1 到 1。1 表示完全正相關,-1 表示完全負相關,0 表示沒有線性關係。
餘弦相似度是一種衡量兩個非零向量之間夾角餘弦值的度量方法,常用於評估文本或資料點之間的相似程度。
代價函數是所有訓練樣本損失函數的平均值,用於評估模型在整個訓練集上的表現,並作為優化算法的目標。
反事實解釋描述了為了改變模型預測結果,輸入數據需要做的最小變動。它提供了一種理解模型決策邏輯的方式。
基於對現實世界的因果理解,推測「如果過去發生不同的事,現在會是什麼樣」的推理方式。
共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。
共變數偏移是指機器學習模型在訓練與推論階段,輸入特徵的資料分佈發生改變,但給定特徵下的目標變數條件分佈保持不變的現象。
交叉熵損失是一種衡量兩個機率分佈之間差異的損失函數,常用於分類任務中評估模型預測結果與真實標籤的差距。
晶體結構預測是指透過計算機演算法,從給定的化學組成預測材料在特定條件下的穩定三維晶體結構。
系統從簡單任務開始,逐步學習難度遞增的任務,提升效率和收斂性。
隨著資料維度增加,樣本空間呈指數級膨脹,導致資料密度急劇下降、距離量度失效,使機器學習模型的訓練難度與資料需求大幅提高。
資料標註是為資料集添加標籤或註解的過程,使機器學習模型能夠理解和學習這些資料,是模型訓練的基礎。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
訓練資料中存在的系統性偏差,使模型對特定群體或情境產生不公平或不準確的預測結果,是 AI 公平性問題的主要根源之一。
資料填補是處理遺失值的方法,透過統計方法估算並替換遺失值,以維持資料完整性,避免分析偏差。
資料標註是指為原始資料添加標籤的過程,這些標籤提供關於資料的額外資訊,用於訓練監督式機器學習模型。
資料洩漏(Data Leakage)是指模型訓練過程中,未來或測試集的資訊意外滲入訓練集,導致模型在評估時表現虛高,但部署後實際效能大幅下滑的現象。
資料並行是一種分散式訓練方法,將資料分割成多份,分配給多個節點,每個節點使用相同模型副本訓練不同資料子集。
資料投毒攻擊是一種惡意攻擊,攻擊者將惡意或錯誤的資料注入到訓練資料集中,以影響機器學習模型的性能或行為。攻擊目標是使模型產生錯誤的預測或執行其他有害操作。
資料前處理是指在將原始資料用於機器學習模型之前,對其進行清理、轉換和整合的過程,以提高模型效能和準確性。
資料版本控制追蹤資料集在不同時間點的狀態,確保可重複性、可追溯性,並允許回復到先前的資料版本。
密度型空間分群演算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)是一種基於資料點鄰域密度進行分群的演算法,
二元分類器將預測機率轉換為類別標籤時使用的臨界值,通常預設為 0.5,但可調整以平衡精確率、召回率等不同業務目標。
決策樹是一種透過 if-else 條件判斷,將資料逐步拆解為更純粹子集的模型,具備高度可解釋性
利用深度神經網路學習用戶與物品的複雜非線性互動,自動提取高階特徵,實現精細化個性化推薦。
深度Q網路(DQN)是一種結合深度學習與Q學習的強化學習演算法,利用深度神經網路逼近Q函數,解決高維度狀態空間的強化學習問題。
深度強化學習結合深度學習與強化學習,透過深度神經網路學習複雜策略,以在特定環境中最大化累積獎勵。
使網路中的每一層都接收所有前面層的輸出作為輸入,通過特徵複用和梯度流通改善深層網路的訓練和性能。
使用深度學習模型進行端到端訓練的文段檢索方法,將查詢和文段都編碼為密集向量,通過向量相似度進行匹配。
稠密檢索模型使用神經網路將查詢和文檔嵌入到一個低維向量空間中,通過計算向量相似度來檢索相關文檔,克服了傳統方法的詞彙不匹配問題。
密度分群是一種基於資料分布密度的分群方法,它能找出任意形狀的群集,並自動識別出噪訊
依存句法分析是自然語言處理中,分析句子中詞彙之間的依存關係,建立句子的語法結構,揭示詞彙間的修飾、支配等關係。
指感測器或裝置隨時間產生資料分佈變化的現象,影響模型效能。
對話系統是一種能與人類進行自然語言互動的AI系統,目標是理解使用者意圖並提供適當的回應,完成特定任務或提供資訊。
降維處理旨在減少資料集的特徵數量,同時保留重要資訊,以簡化模型、加速運算並避免維度災難。
分散式訓練利用多個計算節點,將模型訓練任務分割並行處理,加速大型模型訓練,提升效率。
DNA序列分析是計算生物學領域的關鍵技術,旨在解讀、比較和理解生物體的遺傳信息,對於疾病診斷、藥物開發和演化研究至關重要。
將在來源領域(Source Domain)訓練的模型調整為能有效應用於目標領域(Target Domain)的遷移學習技術。
隨機失活遮罩在訓練時動態產生隨機二元矩陣,將部分神經元輸出暫時歸零,以打破特徵依賴並防止模型過度擬合。
藥物發現是指使用 AI 和機器學習從海量化學分子中識別和優化具有治療潛力的藥物候選物。AI 可以加速分子篩選、性質預測和優化過程,將藥物開發週期從十年縮短為數年。
AI藥物發現利用人工智慧加速藥物研發流程,從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位,降低成本並縮短開發週期。
藥物靶點預測是利用機器學習預測候選藥物分子與生物靶點蛋白質之間的結合力,加速新藥研發並降低實驗成本。
利用互逆任務(如中翻英與英翻中)之間的結構對稱性,建構閉環反饋系統以提升機器學習效能的無監督訓練框架。
高效神經架構搜尋(Efficient NAS)旨在降低NAS的計算成本,通過架構共享、代理模型等技術加速搜尋過程,找到高性能的神經網路架構。
針對計算、內存、功耗等資源約束進行優化的神經網路,在保持性能的同時減少參數量和計算複雜度。
特徵值是線性變換作用於向量後,該向量長度縮放的比例。它描述了變換對特定方向向量的影響程度。
特徵向量是指在線性變換下,方向保持不變或僅反向的非零向量。它對應於特定的特徵值,代表變換的主要作用方向。
電子病歷人工智慧 (EHR AI) 指的是利用人工智慧技術分析電子病歷 (EHR) 數據,以改善醫療照護、研究和管理的應用。
具身人工智慧是指讓AI系統擁有物理軀體,透過與環境互動來學習和解決問題,強調感知、行動和環境之間的循環。
湧現能力是指大型語言模型在達到一定規模後,突然展現出在較小模型中未曾觀察到的複雜能力,例如推理、翻譯和程式碼生成。
集成學習透過結合多個弱學習器,建立一個強學習器,以提高模型的準確性和泛化能力,常見方法包括Bagging、Boosting和Stacking。
實體鏈接是將文本中的實體提及項,連結到知識庫中對應實體的過程,以消除歧義並豐富文本的語義資訊。
實體解析是一種資料處理技術,旨在識別並連結來自不同資料來源中指涉相同真實世界實體的記錄,以建立統一且一致的實體視圖。
熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。
將連續型數值特徵依等距區間分割成有限個離散類別的資料前處理技術。
期望最大化 (EM) 算法是一種迭代算法,用於在存在隱變量的情況下,估計機率模型的參數。它交替執行期望 (E) 步驟和最大化 (M) 步驟。
機器學習模型決策過程的透明度與可理解性,使用戶與利益相關者能理解模型為何做出特定預測。
探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。
提取式摘要技術從原文中選擇重要句子組成摘要,簡單直接,易於實現,但可能缺乏連貫性,且無法進行語義概括。
GBDT 的進化版,加入正則化防過擬合,支援缺失值和並行化,是比賽和業界的常勝軍
用低秩因子向量建模特徵間的二階交互作用,兼具線性模型的效率和特徵交互學習的能力。
公平性約束是在機器學習模型訓練或部署過程中引入的數學條件,旨在防止系統對特定群體產生偏見,確保演算法決策的公正性。
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
機器學習公平性旨在確保人工智慧系統決策的客觀與公正,防止演算法因使用者的種族、性別或年齡等受保護特徵而產生系統性的偏見與歧視。
量化每個輸入特徵對模型預測結果的貢獻程度,幫助理解和驗證模型的決策依據。
特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。
特徵選擇是機器學習中選擇最相關特徵子集的過程,旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。
特徵儲存庫是一個集中管理和共享機器學習特徵的平台,確保特徵一致性、可重用性,並簡化特徵工程流程。
將原始特徵通過數學變換或編碼映射為新的特徵表示,以改善機器學習模型的學習效果和泛化能力。
聯邦學習是一種多方協作的機器學習方法,各方在本地訓練模型,僅共享模型更新,保護原始資料
回饋迴路是指系統輸出影響其輸入的過程,在AI中用於迭代改進模型效能,透過評估結果並調整參數。
用極少量目標域標籤資料,在保持源域知識的前提下快速適應新域。
少樣本學習讓模型僅憑少數標記範例即可泛化至新任務,突破傳統機器學習對大量訓練資料的依賴
金融 AI 是指應用於金融市場預測、風險管理、詐欺偵測和投資決策的人工智能技術。它使用機器學習分析大量財務數據和市場信號,提升交易策略的性能和降低風險。
閃電注意力機制是一種優化注意力計算的技術,透過重新排序計算步驟和利用硬體加速,大幅提升注意力計算的速度和記憶體效率。
一種生成模型訓練方法,通過學習光滑的向量場使數據從噪音流向目標分佈,相比擴散模型具有更快的推理速度。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
AI 詐欺偵測(Fraud Detection)透過機器學習即時分析交易行為,識別異常模式,廣泛應用於銀行信用卡詐欺防範、網路詐騙偵測與保險理賠審核。
頻率計數是計算特定事件、特徵或字詞在數據集中出現次數的統計方法,為資料分析與機器學習提供基礎特徵。
將類別特徵轉換為其在資料集中出現的頻率或計數,以捕捉資訊並降低維度。
函數呼叫是一種允許大型語言模型(LLM)調用外部函數或API的能力,以擴展其功能並與外部世界互動。
基因表達預測利用機器學習分析DNA序列與生物特徵,以推估細胞中特定基因的轉錄活躍度與產物生成量。
泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律,並應用於新數據。
基因演算法是一種模擬生物進化過程的優化算法,通過選擇、交叉和突變等操作,逐步演化出更優的解,用於解決複雜的搜索和優化問題。
地理空間AI結合人工智慧與地理空間資料,分析地球表面現象,從衛星影像、地圖和感測器數據中提取洞察,支援智慧城市、環境監測等應用。
衡量資料集標籤混雜程度的指標,常用於決策樹的分裂準則,值越低表示越純淨。
圖形處理器(GPU)是一種專為並行處理設計的電子電路,最初用於加速圖像渲染,現廣泛應用於深度學習等需要大量計算的領域。
梯度提升法是一種機器學習技術,透過迭代地組合弱學習器(通常是決策樹)來建立強大的預測模型,每次迭代都專注於修正前一個模型的錯誤。
圖異常偵測是分析圖結構與節點特徵,以識別出網路中異常節點、邊或子圖的技術,常應用於金融防詐與資安防護。
將圖中的節點或邊映射到低維向量空間的技術,保留原圖的結構信息和語義關係。
圖結構生成是一種利用機器學習模型自動建立或擴充圖結構資料的技術,旨在模擬真實世界中節點與邊的複雜關聯網路。
圖神經網路(GNN)是一種用於處理圖結構資料的深度學習模型,能學習節點、邊和圖的表示,並用於節點分類、連結預測和圖分類等任務。
抓取規劃是機器人學中的核心技術,旨在為機器人手臂規劃出有效且穩定的抓取動作,以成功拾取、移動或操作物體,確保任務執行效率與安全性。
網格搜尋是一種超參數調校方法,它窮舉超參數空間中所有可能的組合,並評估每個組合的模型效能。
頓悟學習指模型在訓練初期泛化能力差,但經過長時間訓練後,突然展現出良好的泛化能力,如同頓悟一般。
LSTM的簡化版本,參數更少、訓練更快,在多數序列任務上性能相當。
包含多種節點類型和邊類型的圖,其中不同類型的節點或邊具有不同的特徵和語義。
隱藏狀態是神經網路中用於儲存與傳遞歷史資訊的內部記憶向量,負責在處理序列資料時保留上下文特徵,協助模型理解時序依賴關係。
階層式分群(Hierarchical Clustering)是一類無監督學習演算法,透過逐步合併最相似的群組(凝聚法)或分裂群組(分裂法)來建立樹狀結構的群組層次,不需預先指定群數。
階層式密度分群演算法(Hierarchical DBSCAN, HDBSCAN)是 DBSCAN 的進化版本,透過建立多密度尺度的階層式叢集樹,能自動適應密度不均勻的資料,無需設定全局鄰域半徑 ε,並
階層式強化學習將複雜任務分解為多層次的子任務,透過高低層策略協同運作,解決稀疏獎勵與長期規劃問題。
指特徵空間中的極高維度狀態,或深度學習模型萃取出具備高度抽象、全局觀念與豐富語意的高階向量表示。
高基數特徵(High Cardinality)指某個類別型特徵包含大量不同取值的情況,例如用戶 ID、商品 SKU、地理位置等可能有數萬至數百萬種取值,直接進行 One-Hot 編碼會導致維度爆炸,需
Hugging Face 提供開源機器學習模型與資料集託管,協助開發者協作、分享並快速部署各類人工智慧應用。
超參數是機器學習模型訓練前,由人為設定且影響模型學習效果的參數,例如學習率或網路層數
超參數調校是機器學習中,尋找最佳超參數組合以提升模型效能的過程,涉及多次模型訓練與評估。
圖像生成是一種人工智慧技術,旨在從文字描述、其他圖像或隨機雜訊中創造出全新的、逼真的或風格化的圖像。
機器人模仿學習是一種讓機器人透過觀察人類或其他專家示範來學習技能的方法,旨在使機器人能執行複雜任務。
使用者在與推薦系統互動時被動產生的行為信號(如點擊、購買、停留時間),相對於明確評分等顯式回饋,隱式回饋資料量更大但含義更模糊。
上下文學習 (In-context Learning) 指的是大型語言模型無需額外訓練,僅通過輸入範例即可學習新任務的能力。
上下文學習理論指大型語言模型無需額外訓練,僅憑藉輸入提示中的範例,即可執行新任務的能力,展現了模型泛化的潛力。
使用多分支並行卷積的架構,在同一層中採用不同大小(1×1, 3×3, 5×5)的卷積核進行特徵提取,捕捉多尺度信息。
推論是指利用已訓練好的機器學習模型,對新的、未曾見過的資料進行預測或判斷的過程。是模型部署後的核心環節。
推論最佳化旨在提升已訓練模型的推論速度、降低資源消耗,使其更有效率地部署於實際應用中。
信息檢索是一個計算機科學領域,旨在從大規模的資料集合中精準查找符合用戶需求的相關信息。它是搜索引擎、推薦系統和知識管理的核心技術。
資訊理論研究資訊的量化、儲存與傳輸,核心概念包含熵、互資訊、通道容量等,為資料壓縮、通訊編碼等領域奠定基礎。
內積是計算兩向量相似度與投影關係的數學運算。在機器學習中用於衡量特徵相關性,為神經網路的核心基礎。
意圖分類是自然語言處理中的一項任務,旨在將一段文字(例如使用者查詢)分類到預定義的意圖類別中,以理解使用者的目的。
標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好,反之則可能需要重新評估標註規範。
結合異常偵測與可解釋AI技術,不僅識別異常點,還能說明異常發生的原因,提升決策透明度。
設計和使用易於人類理解決策過程的機器學習模型,透過明確的特徵-預測映射提高透明性與信任度。
入侵偵測系統(IDS)是一種安全系統,旨在監控網路或系統中的惡意活動或策略違規行為。它通過分析流量、日誌和系統行為來識別潛在的入侵。
逆向設計是一種從目標性能出發,利用機器學習或最佳化演算法推導出滿足該性能之材料結構或系統參數的方法。
孤立森林是一種無監督異常偵測演算法,透過隨機切割資料空間,將數量稀少且特徵獨特的資料點快速分離出來。
K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂
K 近鄰演算法是一種基於實例的學習方法,透過找出距離最近的 K 個鄰居,以投票方式決定資料點的分類
在支援向量機等演算法中,將低維資料映射到高維特徵空間的函數,使原本線性不可分的問題變得可分。
KL散度(Kullback-Leibler Divergence)衡量兩個機率分佈的差異,數值越大代表分佈差異越大,常用於評估模型預測分佈與真實分佈的接近程度。
K 近鄰演算法(K-Nearest Neighbors, KNN)是一種非參數式監督學習演算法,透過尋找訓練集中距離最近的 K 個樣本進行多數投票(分類)或加權平均(回歸),無需建立顯式的模型參數。
知識融合是將來自多個異構來源的知識整合為統一、連貫表示的過程,旨在提升AI系統的理解與推理能力。
一種技術,將知識圖譜中的實體和關係嵌入到連續向量空間,以便進行關係預測和推理。
L1 正則化透過懲罰權重的絕對值總和,驅使模型將不重要特徵的權重歸零,達到特徵選擇的效果
L2 正則化是一種機器學習技術,透過在損失函數中加入權重平方和的懲罰項,促使模型權重縮小,有效降低模型複雜度並避免過度擬合,提升泛化能力。
標籤分布漂移(Label Drift)指模型在生產環境中遭遇的目標變數(標籤)分布與訓練時不同的現象,例如詐欺偵測中詐欺案件占比從 1% 升至 5%,導致原本校準好的模型閾值和效能指標失效,需觸發再訓
標籤編碼是將類別型資料轉換為整數,以便機器學習模型處理,但需注意可能產生不必要的順序關係
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
拉格朗日乘數是一種尋找約束條件下函數極值的方法。它引入拉格朗日函數,將約束條件納入目標函數,從而將約束優化問題轉化為無約束優化問題。
土地覆蓋分類是將遙感影像像素歸類為不同地物類型的過程。
語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。
拉普拉斯平滑(Laplace Smoothing)又稱加一平滑,是貝氏統計中避免零機率問題的技術,在計算類別條件機率時,將每個類別的計數加上常數 α(通常為 1),防止訓練集未見過的詞彙或特徵使整個機
一種在線性迴歸損失函數中加入 L1 懲罰項的迴歸方法,可自動將不重要特徵係數壓縮至零,實現特徵選取。
學習是AI系統從數據中自動提取模式、規律與特徵,藉以提升特定任務效能的核心過程。
學習率排程是一種在訓練過程中調整學習率的技術,旨在加速收斂、避免震盪,並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。
系統透過經驗不斷改進自身的學習過程,達到越來越高效的適應和泛化能力。
將排序問題轉化為機器學習任務,透過訓練排序模型預測查詢-文檔對的相關性,自動優化排序順序。
留一法交叉驗證是一種極端形式的交叉驗證,每次訓練模型時排除一個資料點,並用該點進行測試,重複此過程直到每個資料點都被用作測試集一次,以評估模型性能。
機器學習系統在整個生命週期內不斷學習新知識、新任務,同時保留和擴展既有知識。
微軟開發的高效梯度提升實現,採用葉子生長策略和直方圖優化,訓練速度和記憶體效率通常。
局部可解釋模型無關解釋(Local Interpretable Model-Agnostic Explanations, LIME)是一種模型可解釋性技術,透過在單一預測結果附近擾動輸入資料並訓練簡單
線性迴歸法是一種統計方法,用於建立自變數和應變數之間的線性關係模型。目標是找到最佳擬合線,以預測應變數的值。
假設因變數與一個或多個自變數之間存在線性關係,並透過最小化殘差平方和來估計參數的統計預測模型。
一種圖學習任務,目標是預測圖中兩個節點之間是否存在或將存在邊的連結。
AI負載平衡將AI任務分散到多個計算資源,確保資源有效利用,避免單點過載,提升整體系統效能和穩定性。
局部異常因子是一種透過比較資料點與其鄰近樣本的局部密度差異,藉此找出潛在異常值的無監督機器學習演算法。
對數損失(Log Loss)是交叉熵損失在二元分類問題中的特殊形式,衡量模型預測機率與真實標籤之間的差異,數值越小代表模型表現越好。
邏輯迴歸是一種廣義線性模型,用於預測二元或多元分類結果的機率。它使用 Sigmoid 函數將線性組合轉換為機率值,並透過最大似然估計來訓練模型。
留一交叉驗證(Leave-One-Out Cross-Validation, LOOCV)是 K 折交叉驗證的特例,每次將一個樣本作為驗證集,其餘所有樣本作為訓練集,重複執行 N 次(N 為樣本數),
LoRA是一種參數高效的微調技術,透過學習低秩矩陣來適應預訓練模型,大幅減少訓練參數,降低計算成本。
損失函數衡量模型預測與實際值之間的差異,數值越小代表模型預測越準確,是模型訓練中優化目標的關鍵組成部分。
機器翻譯是利用電腦程式自動將文字或語音從一種語言轉換成另一種語言的技術,旨在打破語言障礙,促進跨文化交流。
惡意軟體偵測是利用AI技術識別並阻止惡意軟體感染系統的過程,旨在保護電腦、網路和資料免受損害。
材料科學AI運用機器學習加速新材料的發現與設計,能精準預測材料特性並最佳化製程,顯著縮短研發週期。
矩陣分解是一種將矩陣分解為兩個或多個矩陣乘積的技術,常應用於推薦系統,以預測用戶對未評分項目的偏好。
矩陣分解推薦是一種推薦系統技術,它將用戶-項目互動矩陣分解為兩個低維矩陣,分別代表用戶和項目的隱含特徵,用於預測用戶對未互動項目的偏好。
最大似然估計 (MLE) 是一種統計方法,用於估計機率分佈的參數,它通過最大化觀察到樣本數據的似然函數來實現。
一種衡量兩個機率分佈之間差異的統計距離,常用於生成模型評估與領域適應。
平均絕對誤差(MAE)是衡量預測值與實際值之間平均絕對差異的指標,數值越小代表模型預測越準確。
平均精確率(MAP)是評估信息檢索系統排序質量的重要指標。它在不同的召回率點上計算精確率,然後求平均值,全面反映系統的排序性能。
機制性可解釋性旨在理解AI模型內部運作的具體機制,如同理解程式碼般,而非僅僅觀察輸入輸出關係。
醫療 AI 是指應用於醫療診斷、治療和管理的人工智能技術。它使用機器學習和深度學習對醫學影像進行分析、輔助診斷、預測患者風險和個性化治療方案。
成員推論是一種隱私攻擊技術,旨在判斷特定資料樣本是否曾被用於訓練特定的機器學習模型。
成員推斷攻擊旨在判斷特定資料點是否曾被用於訓練機器學習模型。攻擊者利用模型輸出來推斷訓練資料的成員關係,可能洩漏隱私資訊。
具有外部記憶機制的神經網路架構,能夠存儲、檢索和更新信息,支持推理任務。
元學習,又稱學習如何學習,旨在訓練模型能夠快速適應新任務或環境,透過少量樣本即可達到良好的效能。
專家混合模型是一種機器學習技術,透過結合多個獨立的「專家」模型,針對不同輸入選擇性地激活特定專家,以提升模型整體效能。
機器學習管線是自動化機器學習工作流程的步驟序列,包括資料準備、模型訓練、評估和部署。
MLOps 是一種將機器學習模型開發與部署流程標準化的方法,旨在加速模型迭代、提高可靠性並簡化維護。
專為資源受限的行動設備(手機、平板、邊緣設備)設計的輕量級神經網路,確保低延遲、低功耗的推理。
這是一個測試用的短定義,長度超過二十個字元以符合 lint 規則的要求,這樣才能成功推進。
透過機器學習演算法在大量數據中學習規律與特徵後,所產生可用於預測、分類或生成的數學結構與參數集合。
一種元學習方法,訓練模型使其對新任務能透過少量樣本迅速適應,與模型架構無關。
模型即服務(MaaS)是一種雲端運算服務,提供預先訓練好的機器學習模型,讓使用者透過API存取並應用於各種任務,無需自行訓練模型。
模型快取是一種將已訓練的模型儲存在記憶體或快速儲存裝置中,以加速模型載入和推論的技術。
模型壓縮是指減少機器學習模型大小和計算複雜度的技術,以便在資源有限的設備上部署,同時保持模型性能。
模型評估是衡量機器學習模型在未知資料上表現的過程,透過特定指標來確保模型的泛化能力與實用性。
模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式,藉此洩漏隱私。
模型參數是機器學習模型從資料中學習到的內部數值變數,包含權重與偏差,主要決定模型如何產生預測結果。
模型服務化是指將訓練好的機器學習模型部署到生產環境,使其能夠接收請求並返回預測結果的過程。
模型竊取是一種針對機器學習模型的網路安全攻擊手法。攻擊者透過大量且有系統地向目標模型的應用程式介面發送查詢,並記錄其回傳的預測結果,藉此訓練出一個功能與原始目標高度相似的替代模型。
模型版本控制是追蹤和管理機器學習模型不同迭代的過程,確保可重複性、可追溯性和協作。
分子動力學預測結合人工智慧與物理模型,以計算模擬原子與分子系統的運動軌跡,大幅加速新藥開發與材料發現。
分子圖將化學分子抽象為圖形,以節點代表原子、邊緣代表化學鍵,是機器學習處理分子結構的核心格式。
安全多方計算(Multi-Party Computation,MPC)是一種密碼學協議,允許多方在不揭露各自私有輸入資料的前提下,共同計算某個函數的結果,廣泛應用於聯邦學習、隱私保護 AI 推論等場景
多代理系統是由多個獨立自主的代理(Agent)組成的計算機系統,這些代理透過相互溝通、協調與合作,共同解決複雜問題或達成特定目標。
多步預測是一種時間序列分析技術,旨在同時或依序預測未來多個時間點的數值,而非僅單一未來點。
多任務學習是一種機器學習方法,旨在同時訓練一個模型來執行多個相關任務,以提升模型的泛化能力和效率。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
音樂生成是利用AI模型自動創作音樂,涵蓋旋律、和聲、節奏等多個方面,旨在模擬人類作曲過程。
互信息衡量兩個隨機變數之間相互包含的信息量,數值越大代表相關性越高,常用於特徵選擇、圖像配準等任務。
樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。
自然語言處理使電腦能理解、分析和生成人類語言,是 AI 語音助理與翻譯等應用的核心技術
自然語言理解(NLU)是人工智慧的一個分支,旨在使電腦能夠理解和解釋人類語言的含義,從而執行相關任務。
一種最佳化技術,用於在訓練模型時高效選擇負例,尤其在推薦系統和NLP中。
神經架構搜尋(NAS)是一種自動化設計神經網路架構的技術,旨在尋找在特定任務上表現最佳的模型結構,無需人工手動設計。
神經符號人工智慧結合了神經網路的學習能力和符號AI的推理能力,旨在克服各自的局限性,實現更強大、更可靠的AI系統。
一種圖學習任務,目標是為圖中的節點預測標籤或類別,利用圖結構和節點特徵進行學習。
節點嵌入是一種將圖形結構中的節點轉換為低維度連續向量的技術,目的是保留節點在原圖中的網絡拓樸與特徵資訊,以便於後續進行各類機器學習任務。
在 DBSCAN 聚類演算法中,不屬於任何聚類的樣本點,即鄰域內核心點密度不足、也非邊界點的孤立資料點,通常代表離群值或異常值。
常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。
新穎性偵測是一種機器學習技術,旨在識別訓練資料中從未出現過的全新模式或資料點,通常用於確保系統在面對未知情況時的穩定性。
機器人透過感測與控制,對實體物件進行抓取、移動、放置等動作,以完成特定任務的技術。
目標函數是機器學習模型訓練中用於評估模型表現的函數,其數值代表模型預測與實際值的差距,優化目標是最小化或最大化此函數。
光學字元辨識(OCR)是一種技術,能將圖像中的文字轉換為機器可讀的文字格式,例如將掃描文件轉換為可編輯的文字。
裝置端學習是一種直接在智慧型手機等終端設備上進行模型訓練與推論的技術,能降低延遲並提升資料隱私安全性。
單類別支持向量機為非監督式異常偵測演算法,利用正常樣本建立高維邊界,以分離出落於邊界之外的異常資料。
單樣本學習是一種機器學習方法,旨在僅使用一個或少數幾個樣本來學習新的類別或概念,模擬人類快速學習的能力。
線上學習是一種機器學習方法,模型在接收到每個新資料點後立即更新,無需儲存所有資料或進行批次訓練,適用於資料流場景。
ONNX 是一種開放標準,用於表示機器學習模型,允許模型在不同框架之間互操作,簡化模型部署流程。
分佈外指測試資料的特徵分佈與訓練集不一致的現象,對 AI 模型的泛化能力構成重大挑戰。
選項框架是層次化強化學習中的數學模型,透過將基礎動作抽象為高階宏觀動作,幫助智能體在複雜環境中進行長時間跨度的規劃與決策。
將類別型特徵依照其固有順序轉換為整數的編碼方式,保留類別間的大小關係。
一種具有明確順序或等級關係,但數值間距不一定均等的類別型資料。
過擬合指模型過度記憶訓練資料的細節與雜訊,導致在未見過的新資料上預測表現大幅下滑
優化物品對的相對順序,確保相關物品排在不相關物品之前。計算複雜度與效果的良好平衡點。
模型參數是機器學習模型在訓練過程中學習到的數值,用於決定模型如何對輸入資料進行轉換和預測。它們是模型的內部變數。
詞性標注是自然語言處理中,為句子中的每個詞彙指定詞性的過程,例如名詞、動詞、形容詞等,是後續語法分析的基礎。
視覺化機器學習模型中某個特徵與預測結果的邊際關係,展現改變該特徵值如何影響預測。
感知器是最簡單的神經網路模型,模擬生物神經元,接收輸入、加權求和、通過激活函數輸出,用於二元分類。
網路釣魚偵測是利用AI技術識別並阻止網路釣魚攻擊的過程,旨在保護用戶免受詐騙、身份盜竊和財務損失。
結合物理定律與神經網路的機器學習模型,用於求解偏微分方程,無需大量標籤數據。
在人工智慧中,規劃是指為達成特定目標,自動生成一系列行動步驟的過程。它涉及預測行動的結果,並選擇最佳的行動序列。
策略崩潰是強化學習中因參數更新過度,導致行為迅速退化成單一無效模式的現象,嚴重破壞訓練穩定性。
策略梯度是一種直接優化策略的強化學習方法,它通過計算策略梯度來更新策略參數,以最大化預期累積獎勵。
精確率是模型預測為正例中真正為正例的比例,反映預測結果的準確度,與召回率形成取捨
二分類評估工具,縱軸為精確率,橫軸為召回率,展示模型在不同決策閾值下精確率和召回率的權衡關係,特別適合評估類別不均衡問題
預測分析(Predictive Analytics)運用機器學習與統計模型,從歷史資料預測未來趨勢或事件機率,廣泛用於銷售預測、風險管理、客戶流失預防。
前綴調整法是一種參數高效的微調技術,通過在輸入序列前添加可訓練的前綴向量,來引導預訓練模型生成期望的輸出,同時保持原始模型參數凍結。
在訓練和使用機器學習模型時,採用技術和方法來保護個人數據的隱私和敏感信息的機密性
機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的(例如二項分佈)或連續的(例如常態分佈)。
程式化標註是一種利用程式碼(例如,規則、啟發式方法或外部知識庫)自動生成訓練資料標籤的技術,以加速模型開發。
屬性預測是指利用機器學習模型,根據物件的特徵或結構資料,預測其物理、化學或行為特性的技術。
Prophet是由Facebook開發的時間序列預測模型,專為具有強烈季節性趨勢的商業時間序列資料設計,易於使用且具有良好的預測能力。
蛋白質交互作用網路是描述細胞內蛋白質之間物理與功能連結的圖結構,是理解生命活動與疾病機制的關鍵。
利用人工智慧技術,從蛋白質胺基酸序列推斷其三維結構,對於理解生物功能與藥物開發至關重要。
模型剪枝是一種減少模型大小和計算複雜度的技術,透過移除模型中不重要的權重或神經元來實現。
QLoRA是LoRA的改進版,使用4位量化技術壓縮預訓練模型,進一步降低記憶體需求,實現在消費級硬體上微調大型模型。
模型量化是一種降低模型大小和加速推論的技術,透過減少模型權重和激活值的精度來實現。
量子化學預測利用機器學習模型預測分子的電子性質與化學反應,有效加速新藥開發與材料科學研究的進程。
結合量子計算與機器學習的跨領域技術,利用量子力學原理加速數據處理與模式識別過程。
在主動學習中訓練多個模型,選擇它們預測意見分歧最大的樣本進行標籤,以高效識別決策邊界。
隨機森林是一種集成學習演算法,透過多棵決策樹投票,以隨機子集資料和特徵進行訓練,提升預測準確性
隨機過採樣(Random Oversampling)是處理類別不平衡問題的技術,透過隨機複製少數類別的現有樣本,使各類別的訓練樣本數趨於平衡,讓模型對少數類別有足夠的學習機會,但有增加過擬合風險的疑慮
隨機搜尋是一種超參數最佳化方法,它在預定義的超參數空間中隨機選擇參數組合,並評估其性能,以找到最佳的超參數配置。
排序是信息檢索系統的核心功能,指根據相關性、質量、流行度等指標,將檢索結果按優先級排列,使用戶最快找到需要的信息。
要求模型跨越字面意義,透過邏輯推演與跨段落分析,推導出未明示結論的進階自然語言處理技術。
真實分佈是指母體資料在客觀現實中的機率分佈狀態,是機器學習與統計模型致力於逼近與學習的終極目標。
即時推論是指模型在接收到單個輸入後立即進行預測,適用於需要快速響應的應用,例如線上推薦或詐欺檢測。
推理能力是指AI系統基於已知資訊和規則,進行邏輯推導,得出結論或解決問題的能力。是AI模擬人類智慧的關鍵組成部分。
召回率衡量模型在所有實際正例中,成功識別出多少正例的能力,反映其查找完整性的指標
以 FPR 為 X 軸、TPR 為 Y 軸畫出的曲線,展示模型在不同分類門檻下的權衡
利用圖資料結構模擬使用者與物品間的複雜互動關聯,藉由捕捉高階網路拓樸特徵以提升推薦精準度與多樣性。
推薦系統是一種利用演算法預測使用者對物品偏好的資訊過濾系統,旨在幫助使用者發現感興趣的內容,並提升平台互動與銷售。
正則化是一種在機器學習中用於防止模型過度擬合的關鍵技術,它透過在損失函數中引入懲罰項,有效限制模型參數的複雜度,從而提升模型的泛化能力。
重排序模型是一種在初步檢索後,對候選結果進行重新排序的技術,旨在提升檢索結果的相關性和準確性,通常使用更複雜的模型。
一種在強化學習系統中出現的現象,指智能體發現並利用獎勵函數的漏洞或意外行為來獲得高分,而不是實現設計者的實際目標。這種遺漏通常源於獎勵函數與真實目標之間的不完全對齐。
在線性迴歸損失函數中加入 L2 懲罰項以限制係數大小,防止過擬合的監督學習方法。
利用計算方法預測RNA分子單鏈內鹼基配對形成的二級結構,對於理解RNA功能至關重要。
機器人理財顧問是一種使用演算法和人工智慧來提供自動化投資建議和管理服務的平台,旨在降低投資門檻和成本。
機器人學習是指讓機器人透過感測資料與互動經驗,自主學習新技能與適應環境的技術。
使機器人能像人類一樣感知並理解周遭環境的技術,透過影像處理與分析,執行導航、辨識、操作等任務。
機器人學是設計、建造、操作和應用機器人的科學和工程學科,涉及機械工程、電子工程、電腦科學等多個領域。
使用中位數與四分位距進行特徵縮放的預處理方法,對離群值不敏感,適合含極端值的資料集。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
接收者操作特徵曲線(Receiver Operating Characteristic Curve)是以偽陽性率為橫軸、真陽性率為縱軸,透過改變分類閾值所繪製的曲線,用於評估二元分類模型在不同閾值下的
規則提取是從機器學習模型中提取人類可理解的規則的過程,旨在提高模型的可解釋性和可信度。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
AI驅動科學發現指利用人工智慧技術加速科學研究流程,涵蓋假設生成、實驗設計、資料分析與結果驗證,大幅提升各學科創新效率與發現速度。
通過學習數據分佈的梯度(評分函數)來生成數據的生成模型,使用評分匹配目標直接建模數據分佈的梯度。
自我對弈是一種強化學習技術,其中智能體與自身的副本進行對弈,從而學習和改進策略,無需外部人類或標記數據。
將文字或概念轉換為連續向量空間中數值表示的技術,讓機器能理解並比較資料間的深層意義關聯與相似度。
語意解析是將自然語言文本轉換為機器可讀的邏輯形式或結構化表示的方法,使電腦能精確理解人類意圖。
語義搜尋是一種理解使用者搜尋意圖和上下文的搜尋技術,超越了關鍵字匹配,旨在提供更相關和精確的搜尋結果。
語義空間是將詞彙、句子或文件轉換為多維連續向量的數學模型,使電腦能計算語言的意義相似度與深層關聯。
半監督學習是一種機器學習方法,它結合了少量標記資料和大量未標記資料進行模型訓練,旨在利用未標記資料提升模型效能,降低標記成本。
情感分析是一種自然語言處理技術,用於識別和提取文本中的主觀情感,例如正面、負面或中性情緒,應用於輿情監控、客戶回饋分析等。
金融情緒分析利用自然語言處理技術,分析新聞、社群媒體等文本數據,提取市場情緒,用於預測股價、風險管理和交易策略。
使用編碼器-解碼器架構將一個序列轉換為另一個序列,廣泛應用於翻譯、文本摘要等。
序列異常偵測是一種從具有時間或先後順序的資料中,找出不符合預期模式或異常行為的分析技術。
無伺服器機器學習是一種雲端運算模型,允許開發者在無需管理伺服器的情況下構建、訓練和部署機器學習模型,按實際使用量付費。
基於會話推薦利用使用者單次瀏覽會話內的行為序列,預測使用者下一步可能感興趣的項目,無需使用者歷史資料。
基於Shapley值的機器學習模型解釋方法,公平分配每個特徵對預測結果的貢獻。
Sigmoid 函數是一種將任意實數壓縮到 (0, 1) 區間的 S 形曲線,公式為 σ(x) = 1/(1+e⁻ˣ),常作為神經網路的激活函數及邏輯斯迴歸的輸出層,用於將線性輸出轉換為機率值。
評估非監督式分群品質的指標,衡量每個樣本與所屬群集的緊密程度相對於鄰近群集的分離程度,數值範圍為 -1 到 1。
模擬至實轉移是一種將在模擬環境中訓練的模型應用到真實世界的方法,旨在克服模擬與現實之間的差異,提升模型泛化能力。
奇異值分解(SVD)是一種將矩陣分解為三個矩陣乘積的技術,廣泛應用於降維、推薦系統和資料壓縮等領域。
直接連接網路中相隔若干層的神經元,允許梯度和信息跳過中間層流通,改善深層網路的梯度流動和訓練穩定性。
SMOTE 是一種處理資料不平衡問題的過採樣技術,透過合成少數類別樣本來平衡資料分佈,提升模型學習效果。
稀疏注意力機制是一種減少注意力機制計算複雜度的技術,透過只關注輸入序列中的部分元素,降低運算量,提升模型效率。
稀疏性約束是一種在機器學習中,強制模型參數或內部表示包含更多零值的正則化技術,以降低運算成本。
語者分段旨在識別音訊中不同語者的發言時間段,並將其區分開來,無需事先知道語者身份。
語音合成技術是一種將文字轉換成人類語音的技術,也稱為文字轉語音(TTS)。它廣泛應用於語音助理、導航系統和輔助科技等領域。
脈衝神經網路屬於第三代人工神經網路,模仿生物大腦透過離散的脈衝訊號進行資訊傳遞,具備極低的功耗與高時間解析度優勢。
競價型訓練利用閒置的雲端運算資源,以大幅降低模型訓練成本,但可能因資源回收而中斷。
多層集成架構,用多個基礎模型的輸出作為新特徵訓練元模型,捕捉基礎模型的複雜交互。
狀態機模型是一種計算模型,系統在任何給定時間都處於有限數量的狀態之一,並根據輸入在狀態之間轉換。
狀態空間模型是一種數學模型,用於描述系統隨時間演變的狀態。它包含狀態方程和觀測方程,廣泛應用於控制、預測和訊號處理。
逐步迴歸分析是一種特徵選擇演算法,透過反覆加入或移除自變數,建立預測目標變數的最佳統計模型。
隨機梯度下降(SGD)是一種迭代優化算法,用於最小化目標函數。它每次迭代僅使用一個或少量樣本計算梯度,加速訓練過程,但可能導致收斂不穩定。
確保每個折(Fold)中各類別樣本比例與原始資料集一致的 K 折交叉驗證變體。
分層抽樣是一種統計抽樣方法,將母體依據特定特徵劃分為互斥的子群體(層),再從各層中獨立抽樣。這確保了各層在樣本中的代表性,能有效降低抽樣誤差,特別適用於處理不平衡資料集。
用數學方程與有向無環圖表示變數間因果機制的模型,允許進行干預與反事實推理。
超級對齊旨在確保遠超人類智慧的AI系統,其目標與人類價值觀對齊,避免潛在的失控風險。
監督式學習是一種 AI 方法,透過提供帶有正確標籤的輸入資料,訓練模型學習預測新資料的標籤
支持向量機是一種機器學習模型,透過尋找最大邊界的超平面,將不同類別的資料有效分隔
基於支援向量機原理的迴歸模型,利用間隔帶容忍小誤差,對雜訊具有一定抵抗力。
合成數據是指通過程式或演算法生成的人工數據,而非從真實世界收集的數據。它常用於訓練AI模型,特別是在真實數據稀缺或涉及隱私問題時。
合成資料生成是指透過程式或模型創建人工資料,用於訓練機器學習模型,尤其是在真實資料稀缺或難以獲取的情況下。
時間抽象化將一連串底層動作封裝為高階技能,使強化學習模型能在更長的時間尺度上決策與規劃。
使用擴張卷積取代遞迴層捕捉時序依賴的網路架構,支援高度並行化。
時序差分學習是一種強化學習方法,透過預測未來獎勵並更新預測值,從不完整的序列中學習,無需等待完整結果。
時序點過程是一種用於建模非連續事件發生時間的統計工具,特別適用於分析事件之間的時間依賴性與相互作用。
測試資料集用於評估模型在未見過資料上的泛化能力,是模型效能的最終指標,在模型部署前使用。
文本分類是自然語言處理中的一項任務,旨在將文本自動分配到預定義的類別中。它應用廣泛,例如垃圾郵件檢測、情感分析等。
文本摘要是自然語言處理中的一項任務,旨在從一篇或多篇文章中生成簡潔且信息豐富的摘要。分為抽取式和生成式兩種方法。
文字生成圖像是一種人工智慧技術,它能根據文字描述自動生成對應的圖像,實現文字內容的視覺化呈現。
文字轉語音 (TTS) 技術將文字轉換為人類可理解的語音。它廣泛應用於輔助工具、語音助手和內容創作等領域。
文字生成影片是一種人工智慧技術,它能根據文字描述自動生成對應的影片,將文字內容轉化為動態視覺呈現。
改變分類模型的決策閾值來權衡精確率和召回率的技術,預設閾值通常為 0.5,調整閾值可適應不同業務需求
時間序列分析是研究按時間順序排列的數據點序列,以識別模式、趨勢和週期性,並預測未來值。
張量處理單元(TPU)是Google專為加速機器學習工作負載而設計的客製化硬體加速器,尤其擅長處理張量運算,是深度學習的利器。
訓練集是用於訓練機器學習模型的資料集,模型通過學習訓練集中的模式和關係來提升預測能力。
軌跡最佳化是機器人學與控制領域的關鍵技術,旨在規劃出滿足特定約束條件並最佳化預設目標函數的運動路徑。
軌跡預測是基於實體歷史移動數據,推斷其未來路徑的技術,常見於自動駕駛、機器人導航等時序分析應用。
遷移學習是將已在大數據集習得的知識,轉移應用至小數據集的新任務,藉此加速模型訓練
AutoML遷移學習利用預訓練模型知識,加速AutoML流程,減少訓練數據需求,提升模型泛化能力,並降低計算成本。
將Transformer架構應用於時序資料,利用自注意力捕捉時間依賴,在預測任務上取得優異成績。
U-Net是一種用於圖像分割的深度學習模型,其架構呈U型,包含編碼器和解碼器,能有效捕捉圖像的上下文資訊和精確定位分割邊界。
在主動學習中選擇模型預測信心度最低的樣本進行標籤,以優先改進模型的薄弱決策邊界。
欠擬合指模型過於簡單,無法捕捉資料中的主要規律,訓練集與測試集的預測表現皆不理想
非監督式異常偵測技術無需標註資料,能自動學習數據的常態模式,有效辨識出偏離預期特徵的罕見異常事件。
非監督式學習是機器學習方法,讓模型在沒有標籤的輸入資料中,自行探索隱藏的結構與模式
驗證資料集用於在模型訓練期間調整超參數和評估模型效能,以防止過擬合,並選擇最佳模型。
將貝葉斯推論問題轉化為最優化問題,用易於計算的分布逼近複雜的後驗分布。
向量資料庫是一種專門儲存和檢索向量嵌入的資料庫,能高效處理高維度資料的相似性搜尋,廣泛應用於推薦系統和語義搜尋。
視覺問答(VQA)是一種人工智慧任務,要求模型根據給定的圖像回答自然語言問題,結合了電腦視覺和自然語言處理。
聲音複製是指使用人工智慧技術,基於少量語音樣本,生成與目標人物聲音高度相似的合成語音。
使用瓦瑟施泰因距離作為損失函數的 GAN 變體,提供更穩定的梯度信號,減輕訓練不穩定性和模式崩潰問題。
一種時頻分析方法,通過不同尺度的小波函數分解信號,同時保留時間和頻率信息。
弱監督學習利用不精確、不完整或帶有雜訊的標籤資料來訓練機器學習模型,降低對大量精確標註資料的依賴。
Whisper 是 OpenAI 開發的語音辨識系統,能將語音轉換為文字,支援多種語言,並具備良好的抗噪能力和翻譯功能。
結合廣義線性模型與深度神經網路的混合機器學習架構,同時具備記憶歷史特徵組合能力與推廣未見特徵能力的優勢。
結合寬線性模型和深度神經網絡的混合機器學習架構,寬部分用於學習特徵組合,深部分用於學習高階特徵交互,常用於推薦系統和分類任務
詞義消歧(WSD)是自然語言處理中的一項任務,旨在確定一個詞在特定上下文中的正確含義,因為許多詞具有多重含義。
世界模型是一種AI模型,旨在學習環境的內部表示,使代理能夠預測未來狀態並做出更明智的決策。