A/B測試 A/B Testing
A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。
瀏覽 AITerms.tw 中標籤為「模型評估」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「模型評估」,共 240 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「模型評估」 ,共 240 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。
透過逐一移除模型的組成元件來衡量各元件對整體性能貢獻的實驗方法,廣泛用於驗證架構設計決策。
所有預測中正確的比例 = (TP+TN)/(全部)。類別不平衡時容易被多數類主導
調整蘭德指數用於評估分群演算法,透過修正隨機偏差,客觀衡量分群結果與真實標籤間的相似程度。
衡量模型在面對惡意擾動輸入時的性能,評估其魯棒性與安全性。
對抗性攻擊是指通過對輸入數據進行微小且不易察覺的修改,使AI模型產生錯誤輸出的攻擊方式,用於測試模型的魯棒性。
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題,確保AI的發展符合人類價值觀。
人工智慧風險評估是一種識別、分析和評估人工智慧系統可能造成的潛在風險的過程,旨在了解風險的性質、可能性和影響,並制定相應的應對措施。
人工智慧安全旨在確保AI系統在部署後,其行為符合人類意圖,避免產生意外或有害的後果,保障人類福祉。
AI沙盒是一個受控的環境,用於測試和評估AI系統,而無需擔心對真實世界產生負面影響。它提供了一個安全可靠的實驗平台。
AI浮水印是一種將資訊嵌入AI模型或其產生的內容中的技術,用於驗證來源、追蹤使用情況或防止未經授權的複製。
錨框(Anchor Box)是在目標檢測中預先定義的一系列具有不同大小和長寬比的矩形框,用於在圖像中生成候選區域,以便模型進行目標分類和邊界框回歸。
異常偵測是指識別數據集中與預期模式顯著不同的數據點,這些異常點可能指示錯誤、欺詐或其他不尋常的事件。
變異數分析 (ANOVA) 是一種統計方法,用於比較兩個或多個群體的平均數是否存在顯著差異。它將總變異分解為不同來源的變異。
反洗錢人工智慧(AML AI)利用AI技術自動偵測金融交易中的可疑活動,協助金融機構遵守法規,打擊洗錢犯罪。
衡量分類模型在不同閾值下的綜合表現,AUC=1 完美,AUC=0.5 等於隨機猜
ARIMA是一種廣泛使用的時間序列預測模型,結合了自迴歸、差分和移動平均三個部分,用於分析和預測時間序列資料。
注意力可視化是一種技術,用於呈現神經網路模型在處理輸入時,將注意力集中在哪些部分。它能幫助理解模型決策過程,並診斷潛在問題。
AUC(曲線下面積)是一種模型評估指標,用於衡量二元分類模型區分正負樣本的整體能力,值介於0到1之間,越高代表性能越好。
模擬真實情境以測試和評估AI系統的安全性、合規性與應變能力,識別潛在弱點。
後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。
Bagging (Bootstrap Aggregating) 是一種集成學習技術,透過對原始資料集進行多次有放回的抽樣,訓練多個模型,並將它們的預測結果進行平均或投票。
貝氏定理描述在已知一些條件下,事件發生的機率。它基於先驗機率、條件機率和證據,更新對事件的信念。
模型基準測試是一套標準化的評估任務與資料集,用來客觀衡量並比較不同 AI 模型的各項性能與實際能力。
基準測試是用於評估和比較不同AI模型、演算法或系統性能的標準化方法,提供客觀的性能指標。
偏差是模型對特定族群或特徵產生系統性錯誤傾向,源自訓練資料不平衡或演算法設計缺陷
偏見偵測旨在識別AI資料或演算法中對特定群體的歧視性偏差,是確保系統公平性與可信度的關鍵步驟。
AI偏見是指AI系統在訓練或決策過程中,由於資料、演算法或人為因素,產生不公平或歧視性的結果。
偏差方差權衡是指在模型訓練中,降低偏差會增加方差,反之亦然。目標是找到一個平衡點,使模型在未見過的數據上表現良好。
雙語評估替代指標(BLEU,Bilingual Evaluation Understudy)是機器翻譯品質評估的自動化量化指標,透過比對機器翻譯輸出與人工參考譯文中 n-gram 的重疊程度,給出 0
黑箱模型是指其內部運作機制對使用者而言不透明的模型,難以理解輸入與輸出之間的具體關係。
BLEU分數是一種評估機器翻譯文本品質的指標,通過比較候選譯文與參考譯文的n-gram重疊程度來計算,數值越高表示翻譯品質越好。
Boosting 是一種集成學習技術,透過迭代訓練一系列弱學習器,每個學習器都試圖糾正前一個學習器的錯誤,最終將它們組合起來形成一個強學習器。
衡量AI模型或軟體專案建置過程中失敗次數佔總次數的比例。
金絲雀部署是將新版本軟體或模型逐步發布給少數使用者,以便在全面推廣前偵測問題,有效降低風險並確保系統穩定性。
膠囊網路是一種神經網路架構,旨在解決卷積神經網路在處理物件方向和空間關係上的不足,透過膠囊和路由機制,更有效地捕捉物件的層次結構。
因果推論是從觀察數據中推斷因果關係的方法,旨在確定一個變數的變化是否直接導致另一個變數的變化。
中央極限定理指出,大量獨立隨機變數的總和(或平均值)趨近於常態分佈,與原始變數的分佈無關。是統計推論的基石。
可證明穩健性指在特定的擾動範圍內,透過數學或嚴謹的演算法保證機器學習模型輸出不會發生改變的性質。
卡方檢定是一種統計方法,用於檢驗兩個或多個類別變數之間是否存在顯著關聯性。它比較觀察值與期望值之間的差異。
金吉拉縮放是一種模型縮放法則,旨在透過調整模型大小和訓練資料量,以達到最佳的計算效率,避免過度訓練或訓練不足。
點擊率預測旨在預估使用者點擊特定廣告或連結的可能性,是數位廣告和推薦系統的核心技術。
完形填空任務是一種語言理解測試,透過移除文本中的部分詞彙,要求模型或人類填補缺失部分,以評估其對上下文的理解能力。
協同過濾是一種推薦系統技術,透過分析使用者行為或偏好,預測使用者可能感興趣的項目,例如商品、電影或音樂。
運算最佳訓練旨在於給定運算資源下,最大化模型效能。它涉及調整模型大小、資料集大小和訓練步驟,以達到最佳效率。
概念瓶頸模型是一種深度學習模型,它強制模型通過人類可理解的概念來進行預測,從而提高模型的可解釋性和可控性。
概念漂移是指機器學習模型在部署後,由於資料分佈隨時間變化,導致模型預測準確度下降的現象。需要持續監控並重新訓練模型。
評估分類模型效能的表格,顯示預測與真實類別的對應關係,幫助理解模型在各類別上的表現。
憲法式AI原則是一種透過明確的價值觀或「憲法」來引導AI系統行為的方法,旨在確保AI的輸出符合人類的期望和倫理標準。
持續學習旨在使AI模型能夠在不遺忘先前知識的情況下,逐步學習新的任務和資料,模擬人類終身學習的能力。
持續驗證是主動且持續地測試複雜系統的工程實踐,旨在確保模型與基礎設施在正式環境中始終符合預期的效能、穩定性與安全標準。
相關係數衡量兩個變數之間線性關係的強度和方向,範圍從 -1 到 1。1 表示完全正相關,-1 表示完全負相關,0 表示沒有線性關係。
代價函數是所有訓練樣本損失函數的平均值,用於評估模型在整個訓練集上的表現,並作為優化算法的目標。
反事實解釋描述了為了改變模型預測結果,輸入數據需要做的最小變動。它提供了一種理解模型決策邏輯的方式。
共變數偏移是指機器學習模型在訓練與推論階段,輸入特徵的資料分佈發生改變,但給定特徵下的目標變數條件分佈保持不變的現象。
信用評分是利用統計模型評估個人或企業的信用風險,預測其未來償還債務的能力,是金融機構決策的重要依據。
交叉熵損失是一種衡量兩個機率分佈之間差異的損失函數,常用於分類任務中評估模型預測結果與真實標籤的差距。
交叉驗證是一種將資料分成多份,輪流以不同子集作為驗證集,藉此評估模型泛化能力的技術
隨著資料維度增加,樣本空間呈指數級膨脹,導致資料密度急劇下降、距離量度失效,使機器學習模型的訓練難度與資料需求大幅提高。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
資料不平衡指訓練資料中各類別樣本數量差異懸殊,導致模型傾向預測多數類別,常用 SMOTE 過採樣或欠採樣等技術來處理
資料洩漏(Data Leakage)是指模型訓練過程中,未來或測試集的資訊意外滲入訓練集,導致模型在評估時表現虛高,但部署後實際效能大幅下滑的現象。
資料品質監控是指持續追蹤和評估資料的準確性、完整性、一致性、時效性和有效性,以確保資料符合預期標準。
資料版本控制追蹤資料集在不同時間點的狀態,確保可重複性、可追溯性,並允許回復到先前的資料版本。
二元分類器將預測機率轉換為類別標籤時使用的臨界值,通常預設為 0.5,但可調整以平衡精確率、召回率等不同業務目標。
深度協同過濾結合深度學習與協同過濾,利用神經網路學習使用者和物品的隱藏表示,以提升推薦準確度,尤其在處理複雜互動模式時。
深度強化學習結合深度學習與強化學習,透過深度神經網路學習複雜策略,以在特定環境中最大化累積獎勵。
深度偽造偵測旨在辨識經由深度學習技術偽造或操縱的影音內容,以防止不實資訊傳播和維護資訊真實性。
DenseNet是一種深度學習模型,透過密集連接每一層到所有後續層,最大化層之間的資訊流動,增強特徵重用,減少梯度消失問題。
依存句法分析是自然語言處理中,分析句子中詞彙之間的依存關係,建立句子的語法結構,揭示詞彙間的修飾、支配等關係。
Dice Loss是一種用於衡量兩個樣本之間相似度的損失函數,尤其適用於處理不平衡的資料集,常見於圖像分割任務。
數位分身是真實世界實體或系統的虛擬化身,通過收集數據進行模擬、監控和預測,以優化性能、預防故障和做出更明智的決策。
降維處理旨在減少資料集的特徵數量,同時保留重要資訊,以簡化模型、加速運算並避免維度災難。
AI藥物發現利用人工智慧加速藥物研發流程,從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位,降低成本並縮短開發週期。
提前終止是一種機器學習訓練技巧,藉由監控驗證損失,在模型過度擬合前及早停止訓練,以提高泛化能力。
高效神經架構搜尋(Efficient NAS)旨在降低NAS的計算成本,通過架構共享、代理模型等技術加速搜尋過程,找到高性能的神經網路架構。
EfficientNet 是一系列由 Google 開發的卷積神經網路架構,旨在透過複合縮放方法,在準確度和效率之間取得最佳平衡。
特徵值是線性變換作用於向量後,該向量長度縮放的比例。它描述了變換對特定方向向量的影響程度。
特徵向量是指在線性變換下,方向保持不變或僅反向的非零向量。它對應於特定的特徵值,代表變換的主要作用方向。
集成學習透過結合多個弱學習器,建立一個強學習器,以提高模型的準確性和泛化能力,常見方法包括Bagging、Boosting和Stacking。
熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。
機器學習模型決策過程的透明度與可理解性,使用戶與利益相關者能理解模型為何做出特定預測。
可解釋 AI 透過視覺化或簡化模型,讓複雜的黑箱模型預測決策過程能被人類理解、信任與稽核。
指數平滑法是一系列時序預測方法,使用加權平均數,其中權重隨著時間的推移呈指數衰減,更重視近期觀測值。
提取式摘要技術從原文中選擇重要句子組成摘要,簡單直接,易於實現,但可能缺乏連貫性,且無法進行語義概括。
Precision 和 Recall 的調和平均數 = 2PR/(P+R),兼顧「找得準」和「找得全」
人臉辨識是一種電腦視覺技術,用於自動識別或驗證圖像或影片中的人臉,並與已知人臉資料庫進行比對。
AI 公平性要求模型對不同族群的決策結果無系統性歧視,需透過資料平衡與演算法設計確保一致待遇,是負責任 AI 的核心原則。
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
機器學習公平性旨在確保人工智慧系統決策的客觀與公正,防止演算法因使用者的種族、性別或年齡等受保護特徵而產生系統性的偏見與歧視。
模型預測為陰性(負例),但實際上為陽性(正例)的錯誤分類結果。
模型將實際為負的樣本錯誤預測為正的情況,又稱型一錯誤。
機器學習中,輸入資料的特徵分佈隨時間變化的現象,可能導致模型性能下降。
一種在不改變程式碼的情況下,動態啟用或停用系統功能與機器學習模型的工程技術。
特徵金字塔網路(FPN)是一種用於目標檢測的深度學習架構,旨在從不同尺度的特徵圖中提取豐富的語義信息,以提升小目標的檢測性能。
特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。
特徵選擇是機器學習中選擇最相關特徵子集的過程,旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。
前饋神經網路是一種訊息單向傳播的神經網路,由輸入層、隱藏層和輸出層組成,廣泛應用於分類和迴歸任務。
焦點損失函數 (Focal Loss) 是一種用於解決物件偵測中類別不平衡問題的損失函數,它通過降低易分類樣本的權重,使模型更關注難分類樣本。
衡量時間序列預測結果的可靠性與波動範圍,反映未來事件的不可預測程度。
AI 詐欺偵測(Fraud Detection)透過機器學習即時分析交易行為,識別異常模式,廣泛應用於銀行信用卡詐欺防範、網路詐騙偵測與保險理賠審核。
驗證AI模型或系統在特定輸入下行為是否符合預期功能的過程。
泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律,並應用於新數據。
生成分佈是指生成式人工智慧模型在給定隨機噪聲或潛在變數後,所產生的合成資料在特徵空間中呈現的機率分佈。
Grad-CAM是一種可視化技術,利用梯度資訊來突出顯示輸入圖像中對模型預測最重要的區域,提供模型決策的可解釋性。
梯度提升法是一種機器學習技術,透過迭代地組合弱學習器(通常是決策樹)來建立強大的預測模型,每次迭代都專注於修正前一個模型的錯誤。
頓悟學習指模型在訓練初期泛化能力差,但經過長時間訓練後,突然展現出良好的泛化能力,如同頓悟一般。
真實邊界框是電腦視覺模型訓練與評估中,由人工標註的正確物件位置範圍,作為衡量預測結果的基準標準。
圖像分類是電腦視覺中的一項任務,旨在將圖像分配到預定義的類別中。模型學習圖像特徵,並基於這些特徵預測圖像所屬的類別。
圖像識別是電腦視覺領域的一項任務,旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛,可能涉及定位和標記圖像中的多個對象。
影像分割是一種電腦視覺技術,將影像劃分為多個區域或物件,以便分析或理解影像內容,常用於醫學影像分析、自動駕駛等。
Inception Network 是一種深度卷積神經網路架構,旨在透過並行使用多種卷積核大小,捕捉不同尺度的特徵,提升模型效能。
推論是指利用已訓練好的機器學習模型,對新的、未曾見過的資料進行預測或判斷的過程。是模型部署後的核心環節。
交並比是物件偵測中,用來評估預測框與真實框定位準確度的指標,計算兩者重疊面積與聯集面積的比率
在特定子任務上直接評估模型或表示的質量,如詞向量的類比任務,不涉及下游應用。
K 近鄰演算法是一種基於實例的學習方法,透過找出距離最近的 K 個鄰居,以投票方式決定資料點的分類
KL散度(Kullback-Leibler Divergence)衡量兩個機率分佈的差異,數值越大代表分佈差異越大,常用於評估模型預測分佈與真實分佈的接近程度。
K 近鄰演算法(K-Nearest Neighbors, KNN)是一種非參數式監督學習演算法,透過尋找訓練集中距離最近的 K 個樣本進行多數投票(分類)或加權平均(回歸),無需建立顯式的模型參數。
標籤分布漂移(Label Drift)指模型在生產環境中遭遇的目標變數(標籤)分布與訓練時不同的現象,例如詐欺偵測中詐欺案件占比從 1% 升至 5%,導致原本校準好的模型閾值和效能指標失效,需觸發再訓
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
學習率排程是一種在訓練過程中調整學習率的技術,旨在加速收斂、避免震盪,並提高模型的泛化能力。常見方法包括步階衰減、指數衰減和餘弦退火。
留一法交叉驗證是一種極端形式的交叉驗證,每次訓練模型時排除一個資料點,並用該點進行測試,重複此過程直到每個資料點都被用作測試集一次,以評估模型性能。
局部可解釋模型無關解釋(Local Interpretable Model-Agnostic Explanations, LIME)是一種模型可解釋性技術,透過在單一預測結果附近擾動輸入資料並訓練簡單
線性迴歸法是一種統計方法,用於建立自變數和應變數之間的線性關係模型。目標是找到最佳擬合線,以預測應變數的值。
LIME 針對單筆預測,以局部線性模型近似複雜黑箱模型的行為,提供與模型無關的可解釋性
對數損失(Log Loss)是交叉熵損失在二元分類問題中的特殊形式,衡量模型預測機率與真實標籤之間的差異,數值越小代表模型表現越好。
邏輯迴歸是一種廣義線性模型,用於預測二元或多元分類結果的機率。它使用 Sigmoid 函數將線性組合轉換為機率值,並透過最大似然估計來訓練模型。
留一交叉驗證(Leave-One-Out Cross-Validation, LOOCV)是 K 折交叉驗證的特例,每次將一個樣本作為驗證集,其餘所有樣本作為訓練集,重複執行 N 次(N 為樣本數),
損失函數衡量模型預測與實際值之間的差異,數值越小代表模型預測越準確,是模型訓練中優化目標的關鍵組成部分。
機器學習讓電腦透過分析大量資料自動找出規律,無需明確程式指令即可完成預測與分類任務
惡意軟體偵測是利用AI技術識別並阻止惡意軟體感染系統的過程,旨在保護電腦、網路和資料免受損害。
矩陣分解是一種將矩陣分解為兩個或多個矩陣乘積的技術,常應用於推薦系統,以預測用戶對未評分項目的偏好。
一種衡量兩個機率分佈之間差異的統計距離,常用於生成模型評估與領域適應。
平均絕對誤差(MAE)是衡量預測值與實際值之間平均絕對差異的指標,數值越小代表模型預測越準確。
均方誤差是一種常用的迴歸模型評估指標,它計算預測值與真實值之間差異的平方平均值,能有效衡量模型預測的準確性,並對較大的誤差給予更高的懲罰。
衡量系統或組件從故障到完全修復所需的平均時間,是可靠性工程關鍵指標。
機制性可解釋性旨在理解AI模型內部運作的具體機制,如同理解程式碼般,而非僅僅觀察輸入輸出關係。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
成員推論是一種隱私攻擊技術,旨在判斷特定資料樣本是否曾被用於訓練特定的機器學習模型。
成員推斷攻擊旨在判斷特定資料點是否曾被用於訓練機器學習模型。攻擊者利用模型輸出來推斷訓練資料的成員關係,可能洩漏隱私資訊。
記憶率衡量AI模型對訓練資料中特定樣本的過度記憶程度,可能導致隱私洩露或泛化能力差。
元學習,又稱學習如何學習,旨在訓練模型能夠快速適應新任務或環境,透過少量樣本即可達到良好的效能。
指多模態模型在部分輸入資料(如影像或音訊)缺失或損壞時,仍能維持穩定預測效能與系統運作的能力。
深度混合是一種模型架構,它結合了多個不同深度的子網路,以提升模型的表達能力和泛化能力,並允許模型根據輸入動態調整其深度。
模型快取是一種將已訓練的模型儲存在記憶體或快速儲存裝置中,以加速模型載入和推論的技術。
概述AI模型性能、限制、預期用途、評估指標與潛在風險的文件。
模型評估是衡量機器學習模型在未知資料上表現的過程,透過特定指標來確保模型的泛化能力與實用性。
模型監控是持續追蹤機器學習模型在生產環境中的效能和行為,以確保其準確性、可靠性和公平性。及時發現並解決問題。
從多個候選機器學習模型中,依評估指標與驗證策略選出泛化能力最佳的決策過程。
模型服務化是指將訓練好的機器學習模型部署到生產環境,使其能夠接收請求並返回預測結果的過程。
模型竊取是一種針對機器學習模型的網路安全攻擊手法。攻擊者透過大量且有系統地向目標模型的應用程式介面發送查詢,並記錄其回傳的預測結果,藉此訓練出一個功能與原始目標高度相似的替代模型。
蒙地卡羅方法是一種利用隨機抽樣來估算數學問題解的計算技術。它通過大量模擬隨機事件,統計結果,從而得到近似解。
多任務學習是一種機器學習方法,旨在同時訓練一個模型來執行多個相關任務,以提升模型的泛化能力和效率。
多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。
互信息衡量兩個隨機變數之間相互包含的信息量,數值越大代表相關性越高,常用於特徵選擇、圖像配準等任務。
樸素貝氏分類器是一種基於貝氏定理的簡單機率分類器。它假設所有特徵之間相互獨立,簡化了計算複雜度,因此得名「樸素」。常用於文本分類等任務。
自然語言生成(NLG)是將結構化資料轉換為人類可理解的自然語言文本的AI技術,廣泛應用於報告生成、聊天機器人等。
神經架構搜尋(NAS)是一種自動化設計神經網路架構的技術,旨在尋找在特定任務上表現最佳的模型結構,無需人工手動設計。
非極大值抑制 (NMS) 是一種在物件偵測中用於消除重複框的技術,它會保留置信度最高的框,並抑制與之高度重疊的其他框。
常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。
新穎性偵測是一種機器學習技術,旨在識別訓練資料中從未出現過的全新模式或資料點,通常用於確保系統在面對未知情況時的穩定性。
物件偵測是一種電腦視覺技術,用於識別影像或影片中特定物件的位置和類別,常用於自動駕駛、安全監控、零售分析等。
利用AI技術在衛星影像中識別並定位特定物件,如建築、車輛、船隻等。
目標函數是機器學習模型訓練中用於評估模型表現的函數,其數值代表模型預測與實際值的差距,優化目標是最小化或最大化此函數。
單樣本學習是一種機器學習方法,旨在僅使用一個或少數幾個樣本來學習新的類別或概念,模擬人類快速學習的能力。
分佈外指測試資料的特徵分佈與訓練集不一致的現象,對 AI 模型的泛化能力構成重大挑戰。
過擬合指模型過度記憶訓練資料的細節與雜訊,導致在未見過的新資料上預測表現大幅下滑
深度學習模型中用於同時執行語義與實例分割的模組。
全景品質是評估全景分割同時辨識物件與分割區域是否正確的綜合指標。
詞性標注是自然語言處理中,為句子中的每個詞彙指定詞性的過程,例如名詞、動詞、形容詞等,是後續語法分析的基礎。
視覺化機器學習模型中某個特徵與預測結果的邊際關係,展現改變該特徵值如何影響預測。
病理學AI利用人工智慧分析組織切片影像,輔助病理醫生診斷癌症、感染等疾病,提升診斷效率和客觀性。
困惑度衡量語言模型預測文本序列的能力,數值越低代表模型預測能力越好,對文本的理解程度越高。
網路釣魚偵測是利用AI技術識別並阻止網路釣魚攻擊的過程,旨在保護用戶免受詐騙、身份盜竊和財務損失。
事後插補是在模型訓練完成後,於推論階段或生成事後解釋時,即時填補缺失特徵的技術。
精確率是模型預測為正例中真正為正例的比例,反映預測結果的準確度,與召回率形成取捨
分類模型評估的核心指標:精確率衡量預測為正的樣本有多準確,召回率衡量實際為正的樣本被找回多少。
二分類評估工具,縱軸為精確率,橫軸為召回率,展示模型在不同決策閾值下精確率和召回率的權衡關係,特別適合評估類別不均衡問題
預測分析(Predictive Analytics)運用機器學習與統計模型,從歷史資料預測未來趨勢或事件機率,廣泛用於銷售預測、風險管理、客戶流失預防。
機率式預測是一種時間序列預測方法,它不僅提供單一的點預測,還提供未來值的完整機率分佈或置信區間,以量化預測的不確定性。
機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的(例如二項分佈)或連續的(例如常態分佈)。
Prophet是由Facebook開發的時間序列預測模型,專為具有強烈季節性趨勢的商業時間序列資料設計,易於使用且具有良好的預測能力。
族群穩定性指數(Population Stability Index, PSI)用於量化資料分布隨時間的變化幅度,是監控機器學習模型輸入特徵或輸出預測是否發生偏移(drift)的核心指標,PSI 越大
判定係數(R-squared)衡量模型解釋目標變數變異的比例,數值介於 0 到 1 之間
放射醫學AI利用人工智慧技術分析醫學影像,輔助醫生診斷疾病,提高診斷效率和準確性,並減少人為錯誤。
召回率衡量模型在所有實際正例中,成功識別出多少正例的能力,反映其查找完整性的指標
以 FPR 為 X 軸、TPR 為 Y 軸畫出的曲線,展示模型在不同分類門檻下的權衡
衡量AI系統在理解和識別輸入資料(如圖像、語音、文本)時的準確性與可靠性。高辨識品質是確保模型效能和應用成功的關鍵。
推薦系統是一種利用演算法預測使用者對物品偏好的資訊過濾系統,旨在幫助使用者發現感興趣的內容,並提升平台互動與銷售。
紅隊演練是一種模擬攻擊的測試方法,通過模擬真實攻擊者的行為,評估AI系統的安全性,找出潛在的漏洞和弱點。
重排序模型是一種在初步檢索後,對候選結果進行重新排序的技術,旨在提升檢索結果的相關性和準確性,通常使用更複雜的模型。
殘差網路 (ResNet) 是一種深度神經網路架構,透過引入殘差連接來解決深度網路的梯度消失問題,允許訓練非常深的網路。
ResNet是一種深度學習模型,透過引入殘差連接解決深度神經網路訓練時的梯度消失問題,允許網路學習殘差映射而非直接映射。
負責任AI是一種全面性的框架,旨在確保人工智慧系統的開發、部署與使用過程,能嚴格遵守倫理原則、社會價值觀和法律規範,以促進公平、透明且可信賴的AI發展。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
接收者操作特徵曲線(Receiver Operating Characteristic Curve)是以偽陽性率為橫軸、真陽性率為縱軸,透過改變分類閾值所繪製的曲線,用於評估二元分類模型在不同閾值下的
透過改變分類閾值,以真陽性率(召回率)為縱軸、假陽性率為橫軸繪製的曲線,用於評估二元分類模型在各閾值下的辨別能力。
均方根誤差是均方誤差開根號後的數值,代表模型預測值與實際值之間差值的集中程度,單位與原始資料相同
ROUGE評分是一種用於評估自動文本摘要或機器翻譯品質的指標,通過比較生成文本與參考文本的n-gram重疊程度來衡量。
規則提取是從機器學習模型中提取人類可理解的規則的過程,旨在提高模型的可解釋性和可信度。
顯著性地圖是一種圖像處理技術,用於突出顯示圖像中最引人注目的區域。它通過計算每個像素的顯著性得分來實現,得分越高表示該區域越顯著。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
季節性分解是一種時序分析技術,將時間序列分解為趨勢、季節性、週期性和殘差等成分,以便更好地理解和預測資料。
識別時間序列資料中重複出現的週期性模式,如每日、每週或每年循環。
衡量圖像分割任務中預測區域與真實區域重疊程度的指標。
半監督學習是一種機器學習方法,它結合了少量標記資料和大量未標記資料進行模型訓練,旨在利用未標記資料提升模型效能,降低標記成本。
情感分析是一種自然語言處理技術,用於識別和提取文本中的主觀情感,例如正面、負面或中性情緒,應用於輿情監控、客戶回饋分析等。
基於會話推薦利用使用者單次瀏覽會話內的行為序列,預測使用者下一步可能感興趣的項目,無需使用者歷史資料。
基於Shapley值的機器學習模型解釋方法,公平分配每個特徵對預測結果的貢獻。
SHAP 是一種基於賽局理論 Shapley 值的模型解釋方法,用於量化各特徵對模型預測的貢獻程度
連體神經網路是一種包含兩個或多個共享相同權重的相同神經網路的架構,用於比較輸入之間的相似性或關係。
確保每個折(Fold)中各類別樣本比例與原始資料集一致的 K 折交叉驗證變體。
分層抽樣是一種統計抽樣方法,將母體依據特定特徵劃分為互斥的子群體(層),再從各層中獨立抽樣。這確保了各層在樣本中的代表性,能有效降低抽樣誤差,特別適用於處理不平衡資料集。
監督式學習是一種 AI 方法,透過提供帶有正確標籤的輸入資料,訓練模型學習預測新資料的標籤
Swin Transformer是一種層級式的Transformer模型,用於電腦視覺任務,透過移動視窗機制有效降低計算複雜度,並提升模型效能。
訓練模型時,不小心納入在預測時無法獲取的未來或結果資訊,導致模型過度樂觀。
測試資料集用於評估模型在未見過資料上的泛化能力,是模型效能的最終指標,在模型部署前使用。
測試時運算是指在模型部署後,進行推論時所使用的運算資源。目標是在效能和延遲之間取得平衡,以滿足實際應用需求。
文本分類是自然語言處理中的一項任務,旨在將文本自動分配到預定義的類別中。它應用廣泛,例如垃圾郵件檢測、情感分析等。
文本摘要是自然語言處理中的一項任務,旨在從一篇或多篇文章中生成簡潔且信息豐富的摘要。分為抽取式和生成式兩種方法。
文本蘊含是判斷一段前提文本是否能邏輯推導出另一段假設文本的自然語言處理任務,廣泛應用於問答系統與事實查核。
改變分類模型的決策閾值來權衡精確率和召回率的技術,預設閾值通常為 0.5,調整閾值可適應不同業務需求
時間序列分析是研究按時間順序排列的數據點序列,以識別模式、趨勢和週期性,並預測未來值。
訓練集是用於訓練機器學習模型的資料集,模型通過學習訓練集中的模式和關係來提升預測能力。
AutoML遷移學習利用預訓練模型知識,加速AutoML流程,減少訓練數據需求,提升模型泛化能力,並降低計算成本。
指在AI系統開發與運作中,適當揭露資料來源、模型設計與決策邏輯,讓利害關係人能理解並評估系統行為。
將時間序列資料拆解為趨勢、季節性與殘差成分,以揭示其潛在模式。
分類模型正確預測為「負類」的樣本,模型預測與真實標籤皆為陰性。
分類模型將實際為正例的樣本正確預測為正例的情況,是混淆矩陣四格中最理想的預測結果之一。
截斷技巧是一種在生成式模型中,透過限制潛在向量採樣範圍來提升生成品質的策略,主要用多樣性來換取更高的影像或資料保真度。