A/B測試 A/B Testing
A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。
瀏覽 AITerms.tw 中標籤為「統計方法」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「統計方法」,共 119 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「統計方法」 ,共 119 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
A/B測試是一種隨機實驗方法,用於比較兩個版本的變數(A 和 B),以確定哪個版本表現更好。常用於優化使用者體驗和提升轉換率。
所有預測中正確的比例 = (TP+TN)/(全部)。類別不平衡時容易被多數類主導
調整蘭德指數用於評估分群演算法,透過修正隨機偏差,客觀衡量分群結果與真實標籤間的相似程度。
演算法是一組定義明確的指令,用於解決特定問題或執行特定任務。它接收輸入,經過一系列步驟處理,並產生輸出。
變異數分析 (ANOVA) 是一種統計方法,用於比較兩個或多個群體的平均數是否存在顯著差異。它將總變異分解為不同來源的變異。
衡量分類模型在不同閾值下的綜合表現,AUC=1 完美,AUC=0.5 等於隨機猜
ARIMA是一種廣泛使用的時間序列預測模型,結合了自迴歸、差分和移動平均三個部分,用於分析和預測時間序列資料。
AUC(曲線下面積)是一種模型評估指標,用於衡量二元分類模型區分正負樣本的整體能力,值介於0到1之間,越高代表性能越好。
Bagging (Bootstrap Aggregating) 是一種集成學習技術,透過對原始資料集進行多次有放回的抽樣,訓練多個模型,並將它們的預測結果進行平均或投票。
貝氏定理描述在已知一些條件下,事件發生的機率。它基於先驗機率、條件機率和證據,更新對事件的信念。
貝氏最佳化是一種用於最佳化黑盒函數的演算法,它使用貝氏模型來建立目標函數的代理模型,並利用該模型來選擇下一個要評估的點,以在最少的迭代次數內找到最佳解。
偏差方差權衡是指在模型訓練中,降低偏差會增加方差,反之亦然。目標是找到一個平衡點,使模型在未見過的數據上表現良好。
Boosting 是一種集成學習技術,透過迭代訓練一系列弱學習器,每個學習器都試圖糾正前一個學習器的錯誤,最終將它們組合起來形成一個強學習器。
因果推論是從觀察數據中推斷因果關係的方法,旨在確定一個變數的變化是否直接導致另一個變數的變化。
中央極限定理指出,大量獨立隨機變數的總和(或平均值)趨近於常態分佈,與原始變數的分佈無關。是統計推論的基石。
卡方檢定是一種統計方法,用於檢驗兩個或多個類別變數之間是否存在顯著關聯性。它比較觀察值與期望值之間的差異。
統計語料中詞對同時出現的頻次形成的矩陣,是許多詞向量和 NLP 方法的基礎。
計算生物學結合電腦科學、統計學與生物學,利用演算法分析生物數據,以理解複雜的生物系統與過程。
衡量數學問題或演算法對輸入微小變化的敏感程度。
評估分類模型效能的表格,顯示預測與真實類別的對應關係,幫助理解模型在各類別上的表現。
相關係數衡量兩個變數之間線性關係的強度和方向,範圍從 -1 到 1。1 表示完全正相關,-1 表示完全負相關,0 表示沒有線性關係。
餘弦相似度是一種衡量兩個非零向量之間夾角餘弦值的度量方法,常用於評估文本或資料點之間的相似程度。
代價函數是所有訓練樣本損失函數的平均值,用於評估模型在整個訓練集上的表現,並作為優化算法的目標。
共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。
信用評分是利用統計模型評估個人或企業的信用風險,預測其未來償還債務的能力,是金融機構決策的重要依據。
交叉熵損失是一種衡量兩個機率分佈之間差異的損失函數,常用於分類任務中評估模型預測結果與真實標籤的差距。
隨著資料維度增加,樣本空間呈指數級膨脹,導致資料密度急劇下降、距離量度失效,使機器學習模型的訓練難度與資料需求大幅提高。
資料填補是處理遺失值的方法,透過統計方法估算並替換遺失值,以維持資料完整性,避免分析偏差。
資料前處理是指在將原始資料用於機器學習模型之前,對其進行清理、轉換和整合的過程,以提高模型效能和準確性。
密度型空間分群演算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)是一種基於資料點鄰域密度進行分群的演算法,
降維處理旨在減少資料集的特徵數量,同時保留重要資訊,以簡化模型、加速運算並避免維度災難。
DNA序列分析是計算生物學領域的關鍵技術,旨在解讀、比較和理解生物體的遺傳信息,對於疾病診斷、藥物開發和演化研究至關重要。
特徵值是線性變換作用於向量後,該向量長度縮放的比例。它描述了變換對特定方向向量的影響程度。
特徵向量是指在線性變換下,方向保持不變或僅反向的非零向量。它對應於特定的特徵值,代表變換的主要作用方向。
集成學習透過結合多個弱學習器,建立一個強學習器,以提高模型的準確性和泛化能力,常見方法包括Bagging、Boosting和Stacking。
熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。
在貝氏推論中,證據指觀測資料的邊際機率。因計算困難,實務上常透過最大化證據下界來最佳化生成模型。
期望最大化 (EM) 算法是一種迭代算法,用於在存在隱變量的情況下,估計機率模型的參數。它交替執行期望 (E) 步驟和最大化 (M) 步驟。
探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。
在機器學習建模前,透過視覺化與統計方法理解資料特徵、發現模式並檢驗假設的關鍵資料處理步驟。
指數平滑法是一系列時序預測方法,使用加權平均數,其中權重隨著時間的推移呈指數衰減,更重視近期觀測值。
提取式摘要技術從原文中選擇重要句子組成摘要,簡單直接,易於實現,但可能缺乏連貫性,且無法進行語義概括。
霍克斯過程是一種自激發點過程,事件發生會增加未來事件發生的機率。常用於建模事件序列的相互影響,如金融交易、地震或社交媒體互動。
階層式分群(Hierarchical Clustering)是一類無監督學習演算法,透過逐步合併最相似的群組(凝聚法)或分裂群組(分裂法)來建立樹狀結構的群組層次,不需預先指定群數。
階層式密度分群演算法(Hierarchical DBSCAN, HDBSCAN)是 DBSCAN 的進化版本,透過建立多密度尺度的階層式叢集樹,能自動適應密度不均勻的資料,無需設定全局鄰域半徑 ε,並
分析包含數百個窄頻譜波段的影像,以識別材料成分與特性。
資訊理論研究資訊的量化、儲存與傳輸,核心概念包含熵、互資訊、通道容量等,為資料壓縮、通訊編碼等領域奠定基礎。
內積是計算兩向量相似度與投影關係的數學運算。在機器學習中用於衡量特徵相關性,為神經網路的核心基礎。
逆向文件頻率(IDF)是一種評估詞彙重要性的統計指標,用於降低常見詞彙權重並突顯罕見關鍵字。
四分位距(Interquartile Range, IQR)是第三四分位數(Q3)與第一四分位數(Q1)的差值,代表資料中間 50% 的分布範圍,常用於穩健的異常值偵測,不受極端值影響。
孤立森林是一種無監督異常偵測演算法,透過隨機切割資料空間,將數量稀少且特徵獨特的資料點快速分離出來。
K 均值分群是一種將資料點分配到 K 個群集的演算法,透過反覆運算,將點分配到最近的群集中心,並更新中心位置,直到收斂
K 近鄰演算法是一種基於實例的學習方法,透過找出距離最近的 K 個鄰居,以投票方式決定資料點的分類
KL散度(Kullback-Leibler Divergence)衡量兩個機率分佈的差異,數值越大代表分佈差異越大,常用於評估模型預測分佈與真實分佈的接近程度。
K 近鄰演算法(K-Nearest Neighbors, KNN)是一種非參數式監督學習演算法,透過尋找訓練集中距離最近的 K 個樣本進行多數投票(分類)或加權平均(回歸),無需建立顯式的模型參數。
拉格朗日乘數是一種尋找約束條件下函數極值的方法。它引入拉格朗日函數,將約束條件納入目標函數,從而將約束優化問題轉化為無約束優化問題。
語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。
拉普拉斯平滑(Laplace Smoothing)又稱加一平滑,是貝氏統計中避免零機率問題的技術,在計算類別條件機率時,將每個類別的計數加上常數 α(通常為 1),防止訓練集未見過的詞彙或特徵使整個機
留一法交叉驗證是一種極端形式的交叉驗證,每次訓練模型時排除一個資料點,並用該點進行測試,重複此過程直到每個資料點都被用作測試集一次,以評估模型性能。
線性迴歸法是一種統計方法,用於建立自變數和應變數之間的線性關係模型。目標是找到最佳擬合線,以預測應變數的值。
對數損失(Log Loss)是交叉熵損失在二元分類問題中的特殊形式,衡量模型預測機率與真實標籤之間的差異,數值越小代表模型表現越好。
邏輯迴歸是一種廣義線性模型,用於預測二元或多元分類結果的機率。它使用 Sigmoid 函數將線性組合轉換為機率值,並透過最大似然估計來訓練模型。
留一交叉驗證(Leave-One-Out Cross-Validation, LOOCV)是 K 折交叉驗證的特例,每次將一個樣本作為驗證集,其餘所有樣本作為訓練集,重複執行 N 次(N 為樣本數),
損失函數衡量模型預測與實際值之間的差異,數值越小代表模型預測越準確,是模型訓練中優化目標的關鍵組成部分。
一種統計假設,主張系統在給定當前狀態下,未來的演變與過去歷史狀態相互獨立,即未來只取決於現在。
矩陣分解推薦是一種推薦系統技術,它將用戶-項目互動矩陣分解為兩個低維矩陣,分別代表用戶和項目的隱含特徵,用於預測用戶對未互動項目的偏好。
最大似然估計 (MLE) 是一種統計方法,用於估計機率分佈的參數,它通過最大化觀察到樣本數據的似然函數來實現。
一種衡量兩個機率分佈之間差異的統計距離,常用於生成模型評估與領域適應。
平均絕對誤差(MAE)是衡量預測值與實際值之間平均絕對差異的指標,數值越小代表模型預測越準確。
均方誤差是一種常用的迴歸模型評估指標,它計算預測值與真實值之間差異的平方平均值,能有效衡量模型預測的準確性,並對較大的誤差給予更高的懲罰。
蒙地卡羅方法是一種利用隨機抽樣來估算數學問題解的計算技術。它通過大量模擬隨機事件,統計結果,從而得到近似解。
互信息衡量兩個隨機變數之間相互包含的信息量,數值越大代表相關性越高,常用於特徵選擇、圖像配準等任務。
困惑度衡量語言模型預測文本序列的能力,數值越低代表模型預測能力越好,對文本的理解程度越高。
卜瓦松分佈是一種離散機率分佈,描述在固定時間或地點內,事件發生的次數。其特點是事件發生是獨立且隨機的。
投資組合最佳化利用數學模型,在給定的風險承受度下,尋求最大化投資回報或在給定的回報目標下,最小化投資風險。
精確率是模型預測為正例中真正為正例的比例,反映預測結果的準確度,與召回率形成取捨
預測分析(Predictive Analytics)運用機器學習與統計模型,從歷史資料預測未來趨勢或事件機率,廣泛用於銷售預測、風險管理、客戶流失預防。
主成分分析是一種降維技術,藉由找出資料變異最大的方向,將高維度資料投影至低維度空間,以保留關鍵資訊
機率式預測是一種時間序列預測方法,它不僅提供單一的點預測,還提供未來值的完整機率分佈或置信區間,以量化預測的不確定性。
機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的(例如二項分佈)或連續的(例如常態分佈)。
族群穩定性指數(Population Stability Index, PSI)用於量化資料分布隨時間的變化幅度,是監控機器學習模型輸入特徵或輸出預測是否發生偏移(drift)的核心指標,PSI 越大
判定係數(R-squared)衡量模型解釋目標變數變異的比例,數值介於 0 到 1 之間
隨機森林是一種集成學習演算法,透過多棵決策樹投票,以隨機子集資料和特徵進行訓練,提升預測準確性
隨機過採樣(Random Oversampling)是處理類別不平衡問題的技術,透過隨機複製少數類別的現有樣本,使各類別的訓練樣本數趨於平衡,讓模型對少數類別有足夠的學習機會,但有增加過擬合風險的疑慮
真實分佈是指母體資料在客觀現實中的機率分佈狀態,是機器學習與統計模型致力於逼近與學習的終極目標。
以 FPR 為 X 軸、TPR 為 Y 軸畫出的曲線,展示模型在不同分類門檻下的權衡
正則化是一種在機器學習中用於防止模型過度擬合的關鍵技術,它透過在損失函數中引入懲罰項,有效限制模型參數的複雜度,從而提升模型的泛化能力。
遙感技術是從遠處獲取地球表面資訊的科學與藝術,不直接接觸目標。
利用計算方法預測RNA分子單鏈內鹼基配對形成的二級結構,對於理解RNA功能至關重要。
接收者操作特徵曲線(Receiver Operating Characteristic Curve)是以偽陽性率為橫軸、真陽性率為縱軸,透過改變分類閾值所繪製的曲線,用於評估二元分類模型在不同閾值下的
均方根誤差是均方誤差開根號後的數值,代表模型預測值與實際值之間差值的集中程度,單位與原始資料相同
處理合成孔徑雷達影像,提取地物資訊,應用於環境監測、災害評估等領域。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
季節性分解是一種時序分析技術,將時間序列分解為趨勢、季節性、週期性和殘差等成分,以便更好地理解和預測資料。
識別時間序列資料中重複出現的週期性模式,如每日、每週或每年循環。
半監督學習是一種機器學習方法,它結合了少量標記資料和大量未標記資料進行模型訓練,旨在利用未標記資料提升模型效能,降低標記成本。
序列比對是計算生物學技術,用於找出生物序列間的相似區域,揭示演化關係或功能同源性。
Sigmoid 函數是一種將任意實數壓縮到 (0, 1) 區間的 S 形曲線,公式為 σ(x) = 1/(1+e⁻ˣ),常作為神經網路的激活函數及邏輯斯迴歸的輸出層,用於將線性輸出轉換為機率值。
奇異值分解(SVD)是一種將矩陣分解為三個矩陣乘積的技術,廣泛應用於降維、推薦系統和資料壓縮等領域。
SMOTE 是一種處理資料不平衡問題的過採樣技術,透過合成少數類別樣本來平衡資料分佈,提升模型學習效果。
社群網路分析是利用圖論與網路理論探討實體間關係特徵的方法,常被用於發掘意見領袖與偵測資訊流動路徑。
逐步迴歸分析是一種特徵選擇演算法,透過反覆加入或移除自變數,建立預測目標變數的最佳統計模型。
分層抽樣是一種統計抽樣方法,將母體依據特定特徵劃分為互斥的子群體(層),再從各層中獨立抽樣。這確保了各層在樣本中的代表性,能有效降低抽樣誤差,特別適用於處理不平衡資料集。
支持向量機是一種機器學習模型,透過尋找最大邊界的超平面,將不同類別的資料有效分隔