語音合成技術是什麼？

Speech Synthesis — 語音合成技術的完整解釋

語音合成技術是一種將文字轉換成人類語音的技術，也稱為文字轉語音（TTS）。它廣泛應用於語音助理、導航系統和輔助科技等領域。

語音合成 vs 語音辨識

語音合成：把文字變成聲音，讓機器會說話。

語音辨識：把聲音變成文字，讓機器聽懂人說了什麼。

最關鍵的區別：一個是輸出聲音，一個是輸入聲音。

看文字要變成自然聲音，就想到語音合成。

你在圖書館用手機開啟朗讀功能，長文章就能直接聽，不必一直盯著螢幕。

導航 App 在你開車時播報前方轉彎，這也是語音合成在工作。

它通常會先把文字轉成音素、韻律和停頓資訊，再由聲學模型與聲碼器產生語音。

現代方法多用深度學習來提升自然度，重點會放在音色、重音、停頓和情緒表現。

Q1（直覺題）： 你想讓電子書自己唸出來，這是語音合成嗎？

→ 是，因為輸入是文字，輸出是聲音。

Q2（判斷題）： 如果聲音很像機器人、語氣很平，問題通常只在文字內容嗎？

→ 不只。看情況，常見原因是韻律建模或聲碼器不夠自然。

常見問題

是，TTS 就是 text-to-speech，中文常說文字轉語音。

不一定，重點是要清楚、自然、符合場景，像語音助理和無障礙朗讀就很看用途。

可以，但通常要處理不同語言的發音規則、韻律和音素對應。