RS（ROUGE評分）是什麼？完整定義與解說

自然語言處理模型評估

術語快查

搜尋意圖： 如果你在找「ROUGE評分是什麼」或「ROUGE評分和相近概念差在哪」，先看這頁的短定義、完整說明與延伸比較。

TL;DR： ROUGE評分是一種用於評估自動文本摘要或機器翻譯品質的指標，通過比較生成文本與參考文本的n-gram重疊程度來衡量。

實用情境： 適合用在閱讀 AI 文章、產品文件或和同事討論時，先用一頁快速對齊概念。

下一步： 先讀完定義，再往下看延伸比較與對應工具，把概念轉成實際應用。

你有沒有看過 AI 寫的摘要很順，但重點卻漏了一大半？

你可以把 ROUGE 想成拿 AI 的摘要去對照標準答案，看它有沒有把該講的內容抓到。

它重要是因為摘要、翻譯和生成任務常需要一個自動化指標，來快速比較不同模型。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

ROUGE vs BLEU

ROUGE 看重內容覆蓋 BLEU 看重和參考答案的字詞相符度最關鍵的區別是看漏沒漏重點，還是像不像標準答案。

ROUGE vs 準確率

ROUGE 是內容重疊評分準確率是分類或判斷是否答對的指標最關鍵的區別是文字生成評估還是分類評估。

記住這句就好

摘要有沒有漏重點，ROUGE 很適合先看。

實際案例

新聞摘要評測 兩個摘要模型都能把長文縮短，但只有 ROUGE 高的那個，通常真的把重要句子抓得比較完整。

醫療文件整理 當醫療摘要需要快速篩模型時，ROUGE 可以先當第一層自動評分。

算法與應用

ROUGE-1 看單字詞重疊，ROUGE-2 看二元詞組重疊，ROUGE-L 看最長公共子序列。它偏向召回，意思是比較在意該講的內容有沒有被說到。它不能取代人工評估，因為流暢度和事實正確性不在它的評分範圍。

情境判斷

Q1（直覺題）： 如果摘要模型 ROUGE 分數更高，通常代表什麼？

通常代表它跟參考摘要的重疊更多，內容覆蓋比較完整。

Q2（判斷題）： ROUGE 高就代表摘要一定好嗎？

不一定。它不看語氣、流暢度和事實正確性，所以還要搭配人工判讀。

常見問題

ROUGE-N 的 N 是什麼意思？

A：N 代表 n-gram 的長度，像 ROUGE-1 是單字詞，ROUGE-2 是兩個詞連在一起。

ROUGE-L 和 ROUGE-N 差在哪？

A：ROUGE-L 看整體序列相似度，ROUGE-N 看固定長度的詞組重疊。

ROUGE 適合用在哪些任務？

A：很適合摘要、翻譯和有參考答案的生成任務。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

延伸學習

看常見比較

找對應工具

資料來源與參考依據