將連續文本轉換為詞彙單位的方法稱為?

iPAS 考題解析

將連續文本轉換為詞彙單位的方法稱為?

  • A. 詞形還原 (Lemmatization)
  • B. 停用詞移除 (Stop Words Removal)
  • C. 斷詞 (Tokenization) ✓ 正確答案
  • D. TF-IDF

詳細解析

Tokenization(斷詞/分詞)是 NLP 的第一步,把一整段文字切成一個個的詞或子詞單位,讓電腦能逐一處理。

難度:★★★