詞形還原是什麼？

Lemmatization — 詞形還原的完整解釋

詞形還原是自然語言處理中將單詞還原為其基本形式（詞元）的過程，考慮了單詞的語法和上下文。

詞形還原 vs 詞幹提取 詞形還原會查字典，詞幹提取只把尾巴砍掉。一個重視正確詞形，一個重視速度。

詞形還原 vs 分詞 分詞是把句子切成詞，詞形還原是把詞變回基本形式。一個在切開文字，一個在整理文字。

最關鍵的區別： 切詞和還原不是同一件事。

先看懂詞，再把詞變回字典型。

英文搜尋引擎 使用者搜 running 時，也能找到 run、runs、ran 相關文件，召回率通常會更好。

客服意圖分類 把 likes、liked、liking 都整理到同一語義底下，分類器比較不容易被詞形干擾。

詞形還原通常需要詞典或語言規則，處理英文時會搭配詞性標註一起看。它比詞幹提取準確，但速度較慢，也比較依賴語言工具品質。對英文 NLP 很重要，對其他語言則要看詞形變化有多複雜。

Q1（直覺題）：如果你要做英文搜尋，想把不同詞形一起查到，該先考慮什麼？

→ 詞形還原，因為它能把不同變化收回同一詞元。

Q2（判斷題）：所有語言都適合用同一套詞形還原工具嗎？

→ 不一定，不同語言的詞形規則差很多，工具要跟語言配套。

常見問題

不一定。詞形還原更準，但更慢；如果只是快速索引，詞幹提取也可能夠用。

如果詞典或詞性標註不準，確實可能還原錯，所以工具品質很重要。

英文搜尋、文本分類、資訊檢索這類需要合併詞形的任務最常見。