某企業建置生成式AI系統,利用大量客服紀錄與產品評論資料訓練語言模型,由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?

iPAS 考題解析

某企業建置生成式AI系統,利用大量客服紀錄與產品評論資料訓練語言模型,由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?

  • A. 建立資料湖(Data Lake)結構,並以Apache Spark或Ray進行分散式資料前處理與特徵抽取,再串接至模型訓練管線(Pipeline) ✓ 正確答案
  • B. 採用單節點高效能伺服器搭配批次處理模式,集中執行資料清洗與格式轉換
  • C. 將所有文字資料轉換為向量,並以資料庫索引方式直接餵入語言模型訓練
  • D. 使用生成式模型先行自動清理資料內容,再將結果輸入至下游訓練流程

詳細解析

資料湖能儲存多種格式的原始資料,Apache Spark或Ray提供分散式處理能力可高效處理大規模異質資料,串接至訓練管線確保端到端一致性。單節點方式有擴展瓶頸,其他選項有資料洩漏或架構問題。

出題年份:114 難度:★★☆