iPAS 考題解析

若開發一個用於罕見疾病自動診斷的分類模型，目前資料集中確診樣本僅佔不到1%，且因為標記成本高，短期內無法取得更多資料。在此情況下，若希望提升模型對少數類的偵測能力，同時避免過擬合，下列哪一種策略最為合理？

中級大數據處理分析與應用難度：中等 ★★☆ 114 年考題

考試範圍定位

考試等級: 中級能力鑑定
考試科目: 大數據處理分析與應用
知識主題: 大數據分析方法與工具
能力指標: 常見的大數據分析方法（L22302）

本題屬於 iPAS AI 應用規劃師中級能力鑑定「大數據處理分析與應用」科目中的「大數據分析方法與工具」範疇，對應的能力指標為「常見的大數據分析方法」，涵蓋數據分析演算法、模式識別以及資料不平衡處理策略等核心知識點。考生在準備這個範疇時，需要掌握相關的理論基礎與實務應用。

題目與選項

A. 對少數類進行隨機過採樣（Random Oversampling）
B. 對多數類進行欠採樣（Random Undersampling）
C. 使用SMOTE（Synthetic Minority Over-sampling Technique）生成合成少數類樣本後再訓練分類模型 ✓ 正確答案
D. 僅使用現有資料調整模型決策閾值（Decision Threshold）以提升召回率

詳細解析

正確答案：C. 使用SMOTE（Synthetic Minority Over-sampling Technique）生成合成少數類樣本後再訓練分類模型

SMOTE透過插值生成合成少數類樣本而非單純複製，能有效增加少數類多樣性、提升模型泛化能力並降低過擬合風險，是處理嚴重類別不平衡的標準方法。

各選項逐一解析

理解每個選項為什麼對或錯，是真正掌握這個知識點的關鍵。以下逐一分析每個選項的含義與判斷依據。

A. 對少數類進行隨機過採樣（Random Oversampling）（不正確）

隨機過採樣重複複製樣本，在1%極少數類情況下容易造成嚴重過擬合。

B. 對多數類進行欠採樣（Random Undersampling）（不正確）

欠採樣刪除多數類樣本，但資料量本已有限，再丟棄樣本會損失大量學習資訊。

C. 使用SMOTE（Synthetic Minority Over-sampling Technique）生成合成少數類樣本後再訓練分類模型（正確）

SMOTE生成合成樣本增加少數類多樣性，比單純複製更能避免過擬合，是最合理的策略。

D. 僅使用現有資料調整模型決策閾值（Decision Threshold）以提升召回率（不正確）

僅調整決策閾值不改變模型學習的偏差問題，對極端不平衡的1%類別效果有限。

延伸學習

本題尚未連結特定術語，你可以從以下常見主題開始探索相關知識。

AI 基礎機器學習深度學習自然語言處理電腦視覺

中等題備考建議

▶ 本題屬於中等難度，需要理解概念之間的關聯與應用情境，不能只靠死背定義。
▶ 中等難度的題目常考「為什麼」和「怎麼用」，建議整理各技術的優缺點比較表。
▶ 練習時注意錯誤選項的陷阱設計，很多時候錯誤選項只有一兩個字的差異，需要仔細辨別。
▶ 建議用「費曼學習法」，嘗試向別人解釋這道題的解題思路，能講清楚就代表真正理解了。

同主題考題練習

以下題目與本題屬於相同的考試範疇，建議一併練習以加強對該主題的掌握程度。

若使用主成分分析（PCA）將資料降維至兩個主成分，這表示哪一種情況？

中級大數據處理分析與應用難度 ★★☆ 114 年

下列哪種方法屬於非監督式學習中的降維技術？

中級大數據處理分析與應用難度 ★★☆ 114 年

團隊希望比較北美、歐洲、日本及其他地區的整體銷售比例，並使用seaborn套件以長條圖的形式進行視覺化分析。請選出能正確顯示這些地區銷售總額比例的程式碼。（資料欄位：NA_Sales、EU_Sales、JP_Sales、Other_Sales）

中級大數據處理分析與應用難度 ★★☆ 114 年

iPAS AI 應用規劃師認證簡介

iPAS AI 應用規劃師能力鑑定是經濟部產業發展署推動的國家級 AI 證照制度，分為「初級」與「中級」兩個等級。初級考試包含「人工智慧基礎概論」和「生成式 AI 應用與規劃」兩個科目，著重基本概念的理解與應用。中級考試涵蓋「AI 技術應用與規劃」「大數據處理分析與應用」「機器學習技術與應用」三個科目，要求考生具備更深入的技術知識與實務能力。本題來自中級考試範圍，需要具備紮實的技術基礎才能正確作答。

開始準備 iPAS 考試

本題來自 114 年 AI 應用規劃師中級考試。想通過 iPAS 認證？從完整題庫練習開始，搭配術語詞典與備考攻略，系統化提升你的 AI 知識。

開始練習題庫進行診斷測驗中級備考指南 iPAS 總覽