半監督學習是什麼？

Semi-supervised Learning — 半監督學習的完整解釋

半監督學習是一種機器學習方法，它結合了少量標記資料和大量未標記資料進行模型訓練，旨在利用未標記資料提升模型效能，降低標記成本。

監督式學習 監督式學習像老師手把手教每個細節，半監督學習像老師只點撥幾個重點，剩下讓學生自己從大量資料中領悟。

最關鍵的區別：先看它是在比意思、比結構，還是在做任務輸出。

有少量標籤，再加大量沒標籤一起學，就是半監督學習。

醫療影像只有少數病例有醫師標註，模型可以先學已標註資料，再拿未標註影像做自訓練。公司客服分類只有一小部分人工分類過，其餘工單很多，半監督方法能補足訓練資料。

常見方法包括 pseudo-label、自訓練、consistency regularization 和 label propagation。重點是讓未標記資料提供分布資訊，但不能把錯誤標籤一路放大。

Q1（直覺題）： 如果你只有 100 筆標註資料和 10,000 筆未標註資料，這適合半監督嗎？

→ 很適合。這正是半監督學習最常見的場景。

Q2（判斷題）： 如果未標註資料和真實資料分布差很多，還能硬用嗎？

→ 不建議。看情況，分布差太多時，未標註資料反而會把模型帶歪。

常見問題

監督學習使用完全標記的資料進行訓練，非監督學習使用完全未標記的資料，而半監督學習則結合了少量標記資料和大量未標記資料。半監督學習試圖利用未標記資料的資訊來提升模型的效能，同時降低對大量標記資料的依賴。

平滑性假設是指如果兩個樣本在輸入空間中很接近，那麼它們的輸出也應該很接近，也就是說，相似的輸入應該產生相似的輸出。這個假設是許多半監督學習算法的基礎，例如標籤傳播。

如果未標記資料的分布與標記資料的分布差異很大，或者未標記資料包含大量的噪聲，那麼半監督學習可能會降低模型的效能。在這種情況下，可能需要更多的標記資料，或者使用其他的機器學習方法。