次詞單元化（Subword Tokenization）｜AI 術語定義

核心概念

次詞單元化（Subword Tokenization）的核心概念在於，它試圖在單詞級別和字符級別之間找到一個平衡點。傳統的單詞級別分詞方法會導致詞彙量過大，尤其是在處理具有豐富詞形變化的語言時。而字符級別的分詞方法雖然可以處理任意單詞，但會導致序列過長，增加模型的計算複雜度，並且可能丟失單詞的語義信息。

次詞單元化通過將單詞分解為更小的子單元，例如詞根、詞綴等，來有效地控制詞彙量，同時保留單詞的部分語義信息。這樣，模型可以更好地處理未登錄詞（OOV），並提高泛化能力。

常見的次詞單元化算法包括：

字節對編碼（Byte Pair Encoding, BPE）： 一種貪心算法，通過迭代地合併最頻繁出現的字節對來構建詞彙表。
WordPiece： 與BPE類似，但使用基於概率的模型來選擇合併的子單元。
Unigram Language Model： 使用Unigram語言模型來評估每個子單元的概率，並選擇概率最高的子單元。
SentencePiece： 一種獨立於語言的分詞器，可以直接處理原始文本，無需預先進行分詞。

運作原理

次詞單元化的運作原理可以概括為以下幾個步驟：

構建詞彙表： 首先，需要從訓練數據中構建一個詞彙表。這個詞彙表包含所有可能的次詞單元。
初始化： 不同的算法有不同的初始化方式。例如，BPE通常從字符級別開始，而WordPiece和Unigram Language Model則可能從單詞級別開始。
迭代合併/選擇： 算法會迭代地合併或選擇次詞單元，直到詞彙表達到預定的大小。BPE通過合併最頻繁出現的字節對來擴展詞彙表，而WordPiece和Unigram Language Model則使用基於概率的模型來選擇合併或保留的子單元。
分詞： 一旦詞彙表構建完成，就可以使用它來對文本進行分詞。分詞的過程通常是貪心的，即從最長的次詞單元開始匹配，直到整個單詞都被分解為次詞單元。

以BPE為例，假設我們有以下訓練數據：

low low low lower lower new new new new newer newer wide wide wider

初始化： 詞彙表包含所有字符：{l, o, w, e, r, n, w, i, d}
迭代合併：
- 最頻繁出現的字節對是 (l, o)，合併為 lo
- 最頻繁出現的字節對是 (n, e)，合併為 ne
- 最頻繁出現的字節對是 (ne, w)，合併為 new
- 以此類推，直到詞彙表達到預定大小。
分詞： 對於單詞 lower，可以分解為 lo 和 wer。

實際應用

次詞單元化在自然語言處理領域有廣泛的應用，尤其是在機器翻譯、文本生成和語言模型等任務中。

機器翻譯： 次詞單元化可以有效地處理未登錄詞，提高翻譯的準確性和流暢性。例如，在翻譯包含罕見詞或專有名詞的文本時，次詞單元化可以將這些詞分解為常見的次詞，使模型能夠更好地理解和生成翻譯。
文本生成： 次詞單元化可以提高生成文本的多樣性和創造性。通過使用次詞單元，模型可以生成新的單詞和表達方式，避免生成重複或單調的文本。
語言模型： 次詞單元化可以有效地控制詞彙量，提高語言模型的訓練效率和泛化能力。通過將單詞分解為次詞單元，模型可以更好地學習單詞之間的關係，並預測文本序列的概率。

具體的應用場景包括：

Google的BERT模型： BERT使用WordPiece算法進行次詞單元化。
OpenAI的GPT模型： GPT系列模型使用BPE算法進行次詞單元化。
多語言模型： 次詞單元化可以有效地處理多語言文本，提高模型的跨語言能力。例如，SentencePiece可以直接處理Unicode文本，無需預先進行分詞，因此非常適合用於多語言模型。

常見誤區

誤區一：次詞單元化會丟失語義信息。 雖然次詞單元化會將單詞分解為更小的子單元，但它通常會保留單詞的部分語義信息。例如，將 unbreakable 分解為 un, break, able，仍然可以保留單詞的否定和可破壞的含義。
誤區二：次詞單元化會增加模型的計算複雜度。 雖然次詞單元化會增加序列的長度，但它可以有效地控制詞彙量，減少模型的參數數量，從而降低計算複雜度。此外，一些次詞單元化算法，例如SentencePiece，可以直接處理原始文本，無需預先進行分詞，從而簡化了模型的預處理流程。
誤區三：次詞單元化適用於所有語言。 雖然次詞單元化在處理具有豐富詞形變化的語言時非常有效，但在處理一些詞形變化較少的語言時，可能效果不明顯。在選擇次詞單元化算法時，需要考慮語言的特性和任務的需求。
誤區四：SentencePiece 只是另一種分詞器。 SentencePiece 不僅僅是一個分詞器，它更像是一個文本預處理工具。它可以直接處理原始文本，包括空格和標點符號，並將它們作為普通的字符進行處理。這使得 SentencePiece 非常適合用於多語言模型和需要處理特殊字符的任務。

總之，次詞單元化是一種有效的自然語言處理技術，可以解決詞彙量過大和未登錄詞的問題，提高模型的泛化能力。在實際應用中，需要根據語言的特性和任務的需求選擇合適的次詞單元化算法。

次詞單元化（Subword Tokenization）

完整說明

核心概念

運作原理

實際應用

常見誤區

相關術語

相關術語

常見問題

延伸學習