在文本資料處理過程中,通常會需要「將接續的文本轉換為詞彙單位」,以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法?
iPAS 考題解析
在文本資料處理過程中,通常會需要「將接續的文本轉換為詞彙單位」,以便後續的處理。請問上述所指的是文本資料處理中的哪一個方法?
- A. 詞形還原(Lemmatization)
- B. 停用詞移除(Stopword Removal)
- C. 斷詞(Tokenization) ✓ 正確答案
- D. 詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)
詳細解析
斷詞(Tokenization)是將連續文本拆分為最小詞彙單位(token)的過程,是 NLP 管線的第一步。詞形還原是將詞彙還原到原形;停用詞移除是過濾無意義詞彙;TF-IDF 是特徵加權方法。
出題年份:114 難度:★★☆