在文本資料處理過程中,通常會需要「將接續的文本轉換為詞彙單位」,以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法?

iPAS 考題解析

在文本資料處理過程中,通常會需要「將接續的文本轉換為詞彙單位」,以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法?

  • A. 詞形還原(Lemmatization)
  • B. 停用詞移除(Stopword Removal)
  • C. 斷詞(Tokenization) ✓ 正確答案
  • D. 詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)

詳細解析

斷詞(Tokenization)是將連續文本拆分為最小詞彙單位(token)的過程,是 NLP 管線的第一步。詞形還原是將詞彙還原到原形;停用詞移除是過濾無意義詞彙;TF-IDF 是特徵加權方法。

出題年份:114 難度:★★☆