iPAS 考題解析

某企業建置生成式AI系統，利用大量客服紀錄與產品評論資料訓練語言模型，由於資料來源多樣，且包含非結構化文字、影像與表格資訊，團隊希望在不降低模型效能的前提下，提升資料處理效率與一致性，下列哪一種資料處理策略最適合？

中級大數據處理分析與應用難度：中等 ★★☆ 114 年考題

考試範圍定位

考試等級: 中級能力鑑定
考試科目: 大數據處理分析與應用
知識主題: 大數據在人工智慧之應用
能力指標: 大數據在生成式 AI 中的應用（L22403）

本題屬於 iPAS AI 應用規劃師中級能力鑑定「大數據處理分析與應用」科目中的「大數據在人工智慧之應用」範疇，對應的能力指標為「大數據在生成式 AI 中的應用」，涵蓋生成式模型在處理大規模語料時的技術需求等核心知識點。考生在準備這個範疇時，需要掌握相關的理論基礎與實務應用。

題目與選項

A. 建立資料湖（Data Lake）結構，並以Apache Spark或Ray進行分散式資料前處理與特徵抽取，再串接至模型訓練管線（Pipeline） ✓ 正確答案
B. 採用單節點高效能伺服器搭配批次處理模式，集中執行資料清洗與格式轉換
C. 將所有文字資料轉換為向量，並以資料庫索引方式直接餵入語言模型訓練
D. 使用生成式模型先行自動清理資料內容，再將結果輸入至下游訓練流程

詳細解析

正確答案：A. 建立資料湖（Data Lake）結構，並以Apache Spark或Ray進行分散式資料前處理與特徵抽取，再串接至模型訓練管線（Pipeline）

資料湖能儲存多種格式的原始資料，Apache Spark或Ray提供分散式處理能力可高效處理大規模異質資料，串接至訓練管線確保端到端一致性。單節點方式有擴展瓶頸，其他選項有資料洩漏或架構問題。

各選項逐一解析

理解每個選項為什麼對或錯，是真正掌握這個知識點的關鍵。以下逐一分析每個選項的含義與判斷依據。

A. 建立資料湖（Data Lake）結構，並以Apache Spark或Ray進行分散式資料前處理與特徵抽取，再串接至模型訓練管線（Pipeline）（正確）

資料湖+分散式處理框架+訓練管線的組合，最能應對多格式大量資料且保持效率與一致性。

B. 採用單節點高效能伺服器搭配批次處理模式，集中執行資料清洗與格式轉換（不正確）

單節點伺服器處理大量多模態訓練資料會成為瓶頸，無法擴展。

C. 將所有文字資料轉換為向量，並以資料庫索引方式直接餵入語言模型訓練（不正確）

僅向量化文字無法處理影像和表格，且跳過必要的清洗步驟。

D. 使用生成式模型先行自動清理資料內容，再將結果輸入至下游訓練流程（不正確）

用生成式模型清理訓練資料可能引入偏差並造成資料污染，有循環依賴風險。

延伸學習

本題尚未連結特定術語，你可以從以下常見主題開始探索相關知識。

AI 基礎機器學習深度學習自然語言處理電腦視覺

中等題備考建議

▶ 本題屬於中等難度，需要理解概念之間的關聯與應用情境，不能只靠死背定義。
▶ 中等難度的題目常考「為什麼」和「怎麼用」，建議整理各技術的優缺點比較表。
▶ 練習時注意錯誤選項的陷阱設計，很多時候錯誤選項只有一兩個字的差異，需要仔細辨別。
▶ 建議用「費曼學習法」，嘗試向別人解釋這道題的解題思路，能講清楚就代表真正理解了。

同主題考題練習

以下題目與本題屬於相同的考試範疇，建議一併練習以加強對該主題的掌握程度。

為了加速大數據環境下的 AI 模型訓練，以下哪一項為常見技術？

中級大數據處理分析與應用難度 ★★★ 114 年

拉拉網路商城的老闆擬透過機器學習的方式，利用過往的產品銷售資料，預測下一季的產品銷售數量，以調整現有的庫存水位。下列哪一個類型的模型，比較適合應用在老闆期望的預測目標？

中級大數據處理分析與應用難度 ★★☆ 114 年

考慮資料集已經填補遺漏值，參考下圖執行結果，OLS迴歸輸出顯示：R-squared=0.898，迴歸係數：youtube=0.0455、facebook=0.1891、newspaper=-0.0006，截距=3.5561，newspaper的p值=0.914（不顯著）。程式碼架構： X = df[['youtube','facebook','newspaper']] y = df['sales'] reg = 空格1 print(reg.coef_) X2 = sm.add_constant(X) model_sm = 空格2 print(model_sm.summary()) 各陳述： A: 空格1完整語法 reg = LinearRegression().fit(y, X) B: 空格1完整語法 reg = LinearRegression().fit(X, y) C: print(reg.coef_)結果為包括截距項等4個係數值 D: 空格2完整語法 sm.OLS(X2, y).fit() E: model_sm迴歸模型的所有迴歸係數在α=0.05之下具有顯著的解釋力 F: 截距項係數值為3.5561 下列哪些陳述正確？

中級大數據處理分析與應用難度 ★★☆ 114 年

iPAS AI 應用規劃師認證簡介

iPAS AI 應用規劃師能力鑑定是經濟部產業發展署推動的國家級 AI 證照制度，分為「初級」與「中級」兩個等級。初級考試包含「人工智慧基礎概論」和「生成式 AI 應用與規劃」兩個科目，著重基本概念的理解與應用。中級考試涵蓋「AI 技術應用與規劃」「大數據處理分析與應用」「機器學習技術與應用」三個科目，要求考生具備更深入的技術知識與實務能力。本題來自中級考試範圍，需要具備紮實的技術基礎才能正確作答。

開始準備 iPAS 考試

本題來自 114 年 AI 應用規劃師中級考試。想通過 iPAS 認證？從完整題庫練習開始，搭配術語詞典與備考攻略，系統化提升你的 AI 知識。

開始練習題庫進行診斷測驗中級備考指南 iPAS 總覽