什麼是上下文學習（In-context Learning）？

上下文學習 (In-context Learning) 指的是大型語言模型無需額外訓練，僅通過輸入範例即可學習新任務的能力。

核心概念

上下文學習 (In-context Learning, ICL) 是一種新興的機器學習範式，尤其在大型語言模型 (LLM) 領域中備受關注。其核心概念圍繞著以下幾個關鍵點：

零樣本學習 (Zero-shot Learning): ICL 可以被視為一種零樣本學習的延伸。在傳統的零樣本學習中，模型需要在沒有任何訓練樣本的情況下完成任務。而 ICL 則允許模型利用少量的範例作為上下文信息，來指導其完成任務。
少樣本學習 (Few-shot Learning): ICL 也可以被視為一種少樣本學習的變體。在少樣本學習中，模型需要在少量訓練樣本上進行微調。而 ICL 則避免了微調的步驟，直接利用範例作為上下文信息。
提示工程 (Prompt Engineering): ICL 的成功很大程度上取決於提示工程的質量。提示工程是指設計有效的提示，以引導模型完成任務。一個好的提示應該包含清晰的指令和相關的範例。
上下文窗口 (Context Window): LLM 具有有限的上下文窗口，即模型可以處理的輸入序列的最大長度。ICL 的範例必須包含在上下文窗口內。因此，如何有效地利用有限的上下文窗口，是 ICL 的一個重要挑戰。
模型規模 (Model Scale): ICL 的性能通常與模型規模呈正相關。更大的模型通常具有更強的泛化能力，能夠更好地利用上下文信息。

上下文學習的運作原理可以概括為以下幾個步驟：

構建提示 (Prompt Construction): 首先，需要構建一個包含指令和範例的提示。指令描述了需要完成的任務，範例則展示了如何完成任務。範例通常以輸入-輸出對的形式呈現。
輸入模型 (Input to Model): 將構建好的提示輸入到 LLM 中。提示作為模型的輸入序列，模型會根據提示中的上下文信息，生成輸出序列。
生成輸出 (Output Generation): 模型根據提示中的上下文信息，生成輸出序列。輸出序列應該是模型根據指令和範例完成任務的結果。
評估輸出 (Output Evaluation): 評估模型生成的輸出是否符合預期。如果輸出不符合預期，可以調整提示，例如修改指令或添加更多的範例。

更詳細地說，LLM 在接收到包含範例的提示時，會利用其內部的知識和推理能力，來學習範例中的模式和關係。模型會將範例中的輸入和輸出之間的映射關係，應用於新的輸入，從而生成相應的輸出。這個過程不需要任何額外的訓練或微調，模型完全是根據提示中的上下文信息來學習的。

上下文學習在許多實際應用中都展現出了巨大的潛力，包括：

在使用和理解上下文學習時，存在一些常見的誤區：

誤區一：ICL 是一種萬能的解決方案。 雖然 ICL 在許多任務中表現出色，但它並非萬能的解決方案。對於某些複雜的任務，ICL 可能無法達到令人滿意的性能。在這種情況下，可能需要使用其他的機器學習技術，例如微調或遷移學習。
誤區二：ICL 不需要任何訓練資料。 雖然 ICL 不需要額外的訓練資料，但它仍然依賴於 LLM 的預訓練資料。LLM 在預訓練階段學習了大量的語言知識和模式，這些知識和模式是 ICL 的基礎。
誤區三：ICL 的性能與提示的數量成正比。 雖然更多的範例通常可以提高 ICL 的性能，但並非總是如此。過多的範例可能會導致模型混淆，反而降低性能。因此，需要仔細選擇和組織提示中的範例。
誤區四：ICL 易於使用。 雖然 ICL 的概念很簡單，但實際應用中需要進行大量的實驗和調整，才能找到最佳的提示。提示工程是一項需要技巧和經驗的工作。
誤區五：ICL 可以完全取代微調。 雖然 ICL 在某些情況下可以達到與微調相當的性能，但它不能完全取代微調。微調可以讓模型更好地適應特定的任務，從而達到更高的性能。在資源允許的情況下，微調仍然是一種重要的機器學習技術。

總之，上下文學習是一種有前景的機器學習範式，具有廣泛的應用前景。然而，在使用 ICL 時，需要理解其核心概念、運作原理、實際應用和常見誤區，才能充分利用其潛力，並避免潛在的風險。

延伸學習

想看上下文學習的完整影片教學？前往美第奇 AI 學院