L22 含 Python 程式題 16-20% 擇一報考

大數據處理分析與應用

中級擇一科目,50 題,90 分鐘,及格 70 分

🐍 程式題特別說明(16-20% 題數)

L22 有約 8-10 題 Python/PySpark 程式碼閱讀題。不需要會寫程式,但要能看懂以下操作的邏輯和結果:

# 分組統計

df.groupby('category').agg({'sales': 'sum', 'count': 'mean'}).reset_index()

# 表格合併

merged = df1.merge(df2, on='user_id', how='left') # left join

# 資料清理

clean_df = df.dropna(subset=['revenue']).query('revenue > 0')

重點:看懂執行邏輯和輸出結果,不需要背 API 名稱

⚠️ 115 年新增考點警報

  • PySpark DataFrame 程式碼閱讀(groupBy/agg/join/filter)
  • Apache Kafka 串流架構(Producer-Consumer-Topic-Partition)
  • Delta Lake(可靠資料湖,支援 ACID)
  • Feature Store 概念(特徵集中管理、重複使用)

約 16-20% 為 Python/PySpark 程式碼閱讀題,不需寫程式但要能看懂操作邏輯

🔴 官方勘誤

主題:p 值題措辭

❌ 錯誤版本 「p 值越大,拒絕 H₀ 的依據越強」
✅ 正確版本 「p 值越小(< α),拒絕 H₀ 的依據越強」

影響:假設檢定解釋題常考此邏輯方向

知識點地圖(依評鑑範圍)

L221 機率統計基礎(預估 12-15 題)

敘述性統計

  • • 集中趨勢:平均數 / 中位數 / 眾數
  • • 離散程度:標準差 / 變異數 / 四分位距
  • • 偏度(Skewness)與峰度(Kurtosis)

假設檢定(重點!)

  • • H₀(虛無假設)vs H₁(對立假設)
  • • p 值 < α → 拒絕 H₀(顯著)
  • • Type I Error = 拒絕真實 H₀(= α)
  • • Type II Error = 接受假 H₀(= β)

L222 大數據處理技術(預估 10-12 題)

ETL vs ELT

  • • ETL:Extract → Transform → Load(傳統倉儲)
  • • ELT:Extract → Load → Transform(現代資料湖)
  • • 批次處理(Batch)vs 串流處理(Streaming)

儲存架構

  • • Data Warehouse vs Data Lake vs Data Lakehouse
  • • OLTP(交易)vs OLAP(分析)
  • • Kafka:事件串流(Producer → Topic → Consumer)

L223 大數據分析方法(預估 12-15 題)

資料不平衡處理

  • • SMOTE:合成少數類別樣本(過採樣)
  • • 欠採樣(Undersampling)
  • • 加權損失函數

程式碼閱讀重點

  • • groupby().agg():分組 + 聚合
  • • merge() how 參數:left/right/inner/outer
  • • pivot_table:多維交叉分析

常見陷阱

⚠️

groupby().agg() 的執行順序:先分組,再對每組套用聚合函數

⚠️

join type 語意:left join 保留左表所有列;inner join 只保留兩表都有的列

⚠️

Type I/II Error(同 L11 勘誤):Type I = 拒絕真 H₀;Type II = 接受假 H₀

⚠️

p 值判斷:p < α 時拒絕 H₀(顯著);p > α 時無法拒絕 H₀

備考計畫

7 天速成建議

  1. Day 1-2:L221 統計基礎(假設檢定、p 值判斷)
  2. Day 3:L222 ETL vs ELT + 資料架構
  3. Day 4:Python/pandas 程式碼閱讀練習(groupby/merge)
  4. Day 5:L223 資料不平衡 + 視覺化
  5. Day 6-7:做題 + 錯題複習

策略:程式碼閱讀題不需背語法,要能看懂「這段程式在做什麼」和「執行結果是什麼」;pandas/PySpark 的 groupby、merge、pivot 是重點