L22 含 Python 程式題 16-20% 擇一報考

大數據處理分析與應用

中級擇一科目，50 題，90 分鐘，及格 70 分

🐍 程式題特別說明（16-20% 題數）

L22 有約 8-10 題 Python/PySpark 程式碼閱讀題。不需要會寫程式，但要能看懂以下操作的邏輯和結果：

# 分組統計

df.groupby('category').agg({'sales': 'sum', 'count': 'mean'}).reset_index()

# 表格合併

merged = df1.merge(df2, on='user_id', how='left') # left join

# 資料清理

clean_df = df.dropna(subset=['revenue']).query('revenue > 0')

重點：看懂執行邏輯和輸出結果，不需要背 API 名稱

⚠️ 115 年新增考點警報

▸ PySpark DataFrame 程式碼閱讀（groupBy/agg/join/filter）
▸ Apache Kafka 串流架構（Producer-Consumer-Topic-Partition）
▸ Delta Lake（可靠資料湖，支援 ACID）
▸ Feature Store 概念（特徵集中管理、重複使用）

約 16-20% 為 Python/PySpark 程式碼閱讀題，不需寫程式但要能看懂操作邏輯

🔴 官方勘誤

主題：p 值題措辭

❌ 錯誤版本 「p 值越大，拒絕 H₀ 的依據越強」

✅ 正確版本 「p 值越小（< α），拒絕 H₀ 的依據越強」

影響：假設檢定解釋題常考此邏輯方向

知識點地圖（依評鑑範圍）

L221 機率統計基礎（預估 12-15 題）

敘述性統計

• 集中趨勢：平均數 / 中位數 / 眾數
• 離散程度：標準差 / 變異數 / 四分位距
• 偏度（Skewness）與峰度（Kurtosis）

假設檢定（重點！）

• H₀（虛無假設）vs H₁（對立假設）
• p 值 < α → 拒絕 H₀（顯著）
• Type I Error = 拒絕真實 H₀（= α）
• Type II Error = 接受假 H₀（= β）

L222 大數據處理技術（預估 10-12 題）

ETL vs ELT

• ETL：Extract → Transform → Load（傳統倉儲）
• ELT：Extract → Load → Transform（現代資料湖）
• 批次處理（Batch）vs 串流處理（Streaming）

儲存架構

• Data Warehouse vs Data Lake vs Data Lakehouse
• OLTP（交易）vs OLAP（分析）
• Kafka：事件串流（Producer → Topic → Consumer）

L223 大數據分析方法（預估 12-15 題）

資料不平衡處理

• SMOTE：合成少數類別樣本（過採樣）
• 欠採樣（Undersampling）
• 加權損失函數

程式碼閱讀重點

• groupby().agg()：分組 + 聚合
• merge() how 參數：left/right/inner/outer
• pivot_table：多維交叉分析

常見陷阱

⚠️

groupby().agg() 的執行順序：先分組，再對每組套用聚合函數

⚠️

join type 語意：left join 保留左表所有列；inner join 只保留兩表都有的列

⚠️

Type I/II Error（同 L11 勘誤）：Type I = 拒絕真 H₀；Type II = 接受假 H₀

⚠️

p 值判斷：p < α 時拒絕 H₀（顯著）；p > α 時無法拒絕 H₀

備考計畫

7 天速成建議

Day 1-2：L221 統計基礎（假設檢定、p 值判斷）
Day 3：L222 ETL vs ELT + 資料架構
Day 4：Python/pandas 程式碼閱讀練習（groupby/merge）
Day 5：L223 資料不平衡 + 視覺化
Day 6-7：做題 + 錯題複習

策略：程式碼閱讀題不需背語法，要能看懂「這段程式在做什麼」和「執行結果是什麼」；pandas/PySpark 的 groupby、merge、pivot 是重點

開始中級 L22 診斷測驗