---
title: "RNA次級結構預測（RNA Secondary Structure Prediction）"
slug: rna-secondary-structure-prediction
language: zh-TW
source: https://aiterms.tw/learning/what-is-rna-secondary-structure-prediction
updated_at: 2026-07-04
tags: [機器學習, 深度學習, AI應用, 統計方法, source:arxiv]
ipas_term: false
type: deep-dive
---

# RNA次級結構預測 是什麼？

> 利用計算方法預測RNA分子單鏈內鹼基配對形成的二級結構，對於理解RNA功能至關重要。

## 核心概念
RNA（核糖核酸）是生物體內關鍵的生物大分子，其多樣功能如基因調控、催化等，皆與其精確三維結構密切相關。RNA結構分為一級、次級、三級和四級。一級結構為核苷酸線性序列；次級結構則描述單條RNA鏈內部，透過鹼基配對（主要為華生-克里克A-U、G-C，及G-U搖擺配對）形成的局部雙螺旋區和單鏈環狀區。這些次級結構模體，如髮夾環、莖環、膨脹環、內環和多分支環，是構建複雜三級結構的基礎。RNA次級結構的穩定性對其功能至關重要，許多非編碼RNA（ncRNA）的功能直接由特定次級結構決定。因此，準確預測RNA次級結構是理解RNA功能、設計RNA分子及開發相關藥物的關鍵。預測最穩定的次級結構（即自由能最低構象）是目前最普遍且有效的策略。

## 運作原理
RNA次級結構預測主要分為基於物理模型（熱力學模型）和基於機器學習模型兩大類。

### 基於物理模型（熱力學模型）
這類方法的核心是尋找具有最低自由能（Minimum Free Energy, MFE）的次級結構。RNA分子傾向於形成最穩定的構象。
1.  **自由能參數化**: 透過實驗數據（如NMR）測量不同次級結構模體（如莖、環）的熱力學參數，轉換為自由能增量，儲存於參數集（如Turner參數集）。
2.  **動態規劃演算法**: 透過動態規劃高效搜尋所有可能次級結構並計算總自由能。Zuker演算法（Mfold/RNAfold）是代表，它遞歸計算子序列最佳結構自由能，考慮各種環狀結構能量貢獻，能在多項式時間內（O(N^3)或O(N^4)）找到MFE結構。其局限性在於依賴實驗測量參數，且通常不考慮共轉錄摺疊或蛋白質相互作用。

### 基於機器學習/深度學習模型
隨著數據累積和計算能力提升，機器學習，特別是深度學習，成為新興方向。
1.  **特徵工程**: 傳統機器學習需從RNA序列提取特徵，如鹼基組成、保守性、配對潛力等。
2.  **監督學習**: 透過實驗驗證的RNA次級結構數據集（如RNA STRAND）訓練模型。神經網路如卷積神經網路（CNN）捕捉局部模式；遞歸神經網路（RNN）/長短期記憶網路（LSTM）處理序列數據；圖神經網路（GNN）將RNA序列建模為圖，直接學習圖結構特徵。注意力機制允許模型關注序列重要區域。端到端深度學習模型類似AlphaFold，直接從RNA序列預測鹼基配對矩陣，結合多層網路與動態規劃約束。
機器學習方法能從數據中學習複雜模式，潛在克服熱力學模型參數局限性，並整合多種信息源。但高度依賴大規模、高質量的訓練數據。

### 混合方法
結合熱力學模型和機器學習模型優勢。例如，先用熱力學模型生成一系列可能次級結構，再用機器學習模型對這些結構進行排序或精修。或機器學習模型預測熱力學模型難以參數化的部分，如多分支環的能量貢獻。

## 實際應用
RNA次級結構預測在生物醫學和生物工程領域應用廣泛：
1.  **非編碼RNA（ncRNA）功能分析**: 許多ncRNA功能與特定次級結構密切相關，預測其結構有助於理解其在基因調控、疾病中的作用。
2.  **藥物靶點識別與藥物設計**: RNA分子可作為藥物靶點。預測靶點RNA次級結構有助於設計特異性結合並干擾其功能的核酸藥物或小分子藥物。
3.  **疫苗開發**: 許多病毒基因組為RNA。理解病毒RNA次級結構對開發基於RNA的疫苗（如mRNA疫苗）和抗病毒藥物至關重要，影響mRNA疫苗穩定性和翻譯效率。
4.  **合成生物學與RNA工程**: 設計人工RNA分子、核酶、適配體或CRISPR引導RNA時，準確的次級結構預測是實現預期功能的基礎。
5.  **疾病診斷標誌物**: 某些疾病狀態下，RNA次級結構變化可用作疾病診斷或預後標誌物。

## 常見誤區
應用RNA次級結構預測技術時，需注意以下常見誤區：
1.  **次級結構非三級結構**: 預測結果是二維鹼基配對圖，非真實三維空間構象。它無法完全捕捉RNA分子在空間中的摺疊方式，如假結等複雜三級相互作用通常難以被標準演算法完全考慮。
2.  **靜態平衡假設**: 大多數模型假設RNA在靜態、熱力學平衡狀態下形成最穩定結構。然而，細胞內RNA摺疊是動態過程，受共轉錄摺疊、蛋白質伴侶、離子環境等影響，可能存在多種亞穩態結構。
3.  **參數限制與數據偏差**: 熱力學模型高度依賴實驗測量的自由能參數，可能不適用於所有序列或條件。機器學習模型則受限於訓練數據規模和質量，數據偏差或不足會影響泛化能力。
4.  **忽略非標準配對與修飾**: 標準演算法主要考慮華生-克里克和G-U搖擺配對。RNA中多種非標準配對及核苷酸修飾可能影響次級結構，但通常未被模型充分考慮。
5.  **假結處理困難**: 假結是重要RNA結構模體，涉及非嵌套鹼基配對。標準動態規劃演算法因遞歸性質，難以高效預測包含假結的結構，通常需更複雜演算法或近似方法。

## 與相關技術的比較
1.  **與RNA一級結構分析比較**: RNA一級結構分析僅涉及核苷酸線性序列。次級結構預測則在此基礎上，揭示分子內部鹼基配對形成的二維模式。一級結構提供遺傳信息，次級結構開始揭示功能相關摺疊模式。
2.  **與RNA三級結構預測比較**: RNA三級結構預測旨在推斷RNA分子在三維空間中的精確原子坐標，是更具挑戰性的任務。次級結構是三級結構的骨架，但三級結構還包括次級結構元素間的長距離相互作用、假結及與離子、蛋白質的相互作用。目前三級結構預測準確性遠低於次級結構預測，計算成本更高。次級結構預測可作為三級結構預測的初步步驟或約束條件。
3.  **與蛋白質結構預測比較**: 兩者都屬生物大分子結構預測。蛋白質摺疊涉及20種胺基酸的複雜相互作用，主要由疏水效應和氫鍵驅動。RNA摺疊主要由鹼基配對、堆疊相互作用和離子效應驅動，骨架更柔性，配對規則相對明確。蛋白質結構預測近年來取得突破，但RNA結構預測仍面臨數據量、柔性和假結等挑戰。
4.  **與RNA功能預測比較**: RNA功能預測是最終目標，次級結構預測是重要中間步驟。許多RNA功能直接或間接依賴於特定次級結構。因此，準確次級結構預測為功能預測提供結構基礎，但功能預測還需整合更多信息，如序列保守性、表達模式、相互作用夥伴等。

## 常見問題

### 為什麼RNA次級結構預測如此重要？

RNA次級結構預測至關重要，因為它直接影響RNA分子的生物功能。RNA的功能，無論是作為基因信息的載體、調控基因表達、還是執行催化活性，都與其在三維空間中的特定摺疊模式緊密相關。次級結構是這些複雜三維結構的基礎骨架，準確預測它能幫助科學家理解RNA如何與其他分子相互作用，識別潛在的藥物靶點，並設計具有特定功能的人工RNA分子，對於基礎生物學研究和應用開發都具有不可替代的價值。

### 熱力學模型和機器學習模型在RNA次級結構預測上有何主要區別？

熱力學模型主要基於物理學原理，透過最小化自由能來預測最穩定的結構，依賴於實驗測量的熱力學參數和動態規劃演算法。其優點是理論基礎明確，但可能忽略非平衡態或蛋白質相互作用。機器學習模型則從大量已知結構數據中學習模式，能夠捕捉更複雜的序列-結構關係，潛在克服熱力學參數的局限性。然而，機器學習模型高度依賴訓練數據的質量和數量，且其「黑箱」性質可能使其解釋性較差。兩者各有優勢，常結合使用以提高預測準確性。

### RNA次級結構預測的準確性受哪些因素影響？

RNA次級結構預測的準確性受多方面因素影響。首先是RNA序列本身的長度和複雜性，長序列和包含假結等複雜結構的序列更難準確預測。其次，熱力學模型的準確性受限於實驗測量的自由能參數的精確度及適用性。對於機器學習模型，訓練數據的規模、多樣性和質量是關鍵，數據不足或有偏差會導致模型泛化能力差。此外，細胞內的動態環境、共轉錄摺疊、蛋白質或小分子相互作用、以及核苷酸修飾等因素，都可能影響RNA的實際摺疊，而這些因素往往未被當前模型充分考慮。

---

深度解說頁：https://aiterms.tw/learning/what-is-rna-secondary-structure-prediction
快查頁：https://aiterms.tw/terms/rna-secondary-structure-prediction
最後更新：2026/07/04