生成式 AI 處理多來源資料的最佳做法為何?
iPAS 考題解析
生成式 AI 處理多來源資料的最佳做法為何?
- A. Data Lake 搭配 Apache Spark/Ray 分散式預處理與管線 ✓ 正確答案
- B. 單節點批次處理
- C. 向量資料庫索引直接餵入模型
- D. 讓生成式模型自動清理資料
詳細解析
多來源資料(結構化、非結構化、不同格式)先存入 Data Lake,再用 Spark/Ray 做分散式清洗和轉換,建立標準化(Standardization)的資料管線。
難度:★★★
生成式 AI 處理多來源資料的最佳做法為何?
生成式 AI 處理多來源資料的最佳做法為何?
多來源資料(結構化、非結構化、不同格式)先存入 Data Lake,再用 Spark/Ray 做分散式清洗和轉換,建立標準化(Standardization)的資料管線。