某企業建置生成式AI系統,利用大量客服紀錄與產品評論資料訓練語言模型,由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?
iPAS 考題解析
某企業建置生成式AI系統,利用大量客服紀錄與產品評論資料訓練語言模型,由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?
- A. 建立資料湖(Data Lake)結構,並以Apache Spark或Ray進行分散式資料前處理與特徵抽取,再串接至模型訓練管線(Pipeline) ✓ 正確答案
- B. 採用單節點高效能伺服器搭配批次處理模式,集中執行資料清洗與格式轉換
- C. 將所有文字資料轉換為向量,並以資料庫索引方式直接餵入語言模型訓練
- D. 使用生成式模型先行自動清理資料內容,再將結果輸入至下游訓練流程
詳細解析
資料湖能儲存多種格式的原始資料,Apache Spark或Ray提供分散式處理能力可高效處理大規模異質資料,串接至訓練管線確保端到端一致性。單節點方式有擴展瓶頸,其他選項有資料洩漏或架構問題。
出題年份:114 難度:★★☆