---
title: "分子圖（Molecular Graphs）"
slug: molecular-graphs
language: zh-TW
source: https://aiterms.tw/learning/what-is-molecular-graphs
updated_at: 2026-07-04
tags: [神經網路, 機器學習, 特徵工程, AI應用, source:arxiv]
ipas_term: false
type: deep-dive
---

# 分子圖 是什麼？

> 分子圖將化學分子抽象為圖形，以節點代表原子、邊緣代表化學鍵，是機器學習處理分子結構的核心格式。

## 核心概念

在計算生物學與人工智慧的交叉領域中，分子圖提供了一種將複雜化學結構轉換為演算法可以理解和處理的數學抽象模型。圖論本身是離散數學的一個重要分支，專門探討節點與連接節點的邊緣之間的關係。當這個概念應用於化學與生物學時，我們將微觀的化學分子自然地映射為圖的結構。在這種表示法中，分子圖的每一個節點代表著分子中的一個原子，而連接兩個節點的邊緣則代表著原子之間的化學鍵。這種將物理與化學實體抽象化的過程，為機器學習模型的介入建立了基礎。

為了讓電腦能夠從這些圖形中學習，節點和邊緣都需要被賦予豐富的特徵向量。對於代表原子的節點而言，其特徵通常包含原子序數、原子的種類、電荷狀態、混成軌域類型、同位素質量以及隱式氫原子的數量。這些特徵在多維度的空間中為每個原子建立了數位化身。同樣地，代表化學鍵的邊緣同樣帶有特徵資訊，例如化學鍵的類型是單鍵、雙鍵、三鍵或芳香鍵，以及鍵的立體化學方向和是否處於共軛系統中。

早期的化學資訊學高度依賴線性字串來表示分子，這類系統將複雜的拓撲結構強制展平為一維的字元序列。雖然這種表示法在資料庫檢索中十分便利，但它卻破壞了分子內在的空間鄰近性與真實的網路連結狀態。分子圖的出現正是為了解決這個限制。透過保持原本的拓撲結構，分子圖確保了在分子中物理上相鄰的原子，在資料結構中也同樣保持相鄰的關係。這種對空間關係的保留，使得模型在學習分子特性時，不再需要額外耗費計算資源去重新建構遺失的拓撲連結。

分子圖的概念也建立在圖的同構性之上。同一個分子無論在圖形的繪製上如何旋轉或是重新排列節點的編號，其底層的分子圖結構在數學上是等價的。這種特性對於機器學習模型來說相當重要，因為它使得演算法能夠專注於學習分子內部的實質化學環境，而不會被資料輸入時的人為排序所干擾。

## 運作原理

分子圖作為一種資料結構，其價值在於配合現代的圖神經網路進行運算。圖神經網路的運作原理核心在於訊息傳遞機制。在一個分子圖輸入到模型之後，每一個代表原子的節點會先被初始化為一個特徵向量。接著，在模型的每一個隱藏層中，節點會向其相鄰的節點發送訊息，同時也會接收來自周遭鄰居節點的訊息。這個過程模擬了化學中局部環境對單一原子的影響，就如同電子雲的分佈會受到相鄰原子與化學鍵的牽引一樣。

在訊息傳遞的具體實作上，節點會將收集到的鄰居特徵與邊緣特徵進行聚合運算。這個聚合函數必須具有排列不變性，例如將所有的訊息相加、取平均值或是取最大值，以確保模型不會因為鄰居節點輸入順序的不同而產生差異。聚合完成後，節點會結合自身原本的特徵狀態與新收集到的鄰居訊息，透過非線性轉換函數更新自己的狀態向量。隨著模型層數的增加，訊息傳遞的範圍也會逐漸擴大。在第一層，一個原子只能感知到直接相連的鄰居；到了第二層，它就能感知到距離兩步遠的原子；層層疊加之後，每一個節點的最終特徵向量都將包含整個分子結構的廣域上下文資訊。

當所有的節點都完成了狀態更新後，模型會進入讀出階段。如果任務是要預測整個分子的總體屬性，例如該分子是否有毒性，模型會透過全局池化操作將圖中所有節點的向量聚合起來，形成一個代表整個分子圖的單一固定長度向量。這個全局向量隨後會被送入全連接層，以輸出最終的預測數值或分類機率。如果任務是節點層級的預測，例如判斷分子中哪一個原子容易發生化學反應，模型則會直接使用更新後的各個節點特徵進行局部的預測。

隨著技術的演進，運作原理也從純粹的二維拓撲圖擴展到了三維分子圖。在三維分子圖中，節點的特徵不再只包含原子的化學屬性，還加入了原子在三維空間中的座標。這使得邊緣的概念可以進一步擴充，不再僅限於共價鍵的連接，甚至可以包含空間中非共價鍵的相互作用。

## 實際應用

分子圖在計算生物與化學相關的許多實際應用中扮演著基礎角色，其中重要的領域便是現代的藥物發現流程。在虛擬篩選的過程中，研究人員需要從包含數以千萬計化合物的資料庫中，找出可能與特定疾病靶點蛋白質結合的候選藥物。傳統方法依賴複雜且耗時的物理模擬，而基於分子圖的深度學習模型則能夠以較高的計算效率預測分子的結合親和力。透過將化合物轉換為分子圖，並將靶點蛋白質也視為圖結構，模型能夠學習兩者之間的相互作用模式，縮短藥物研發早期的探索時間。

除了預測與靶點的結合能力，藥物進入人體後的吸收、分佈、代謝、排泄與毒性屬性預測也是一個挑戰。利用分子圖訓練的神經網路模型，可以從過往的實驗數據中學習化學結構與這些生物體內屬性之間的潛在關聯。由於分子圖能夠捕捉局部功能基團的特徵，模型可以識別出可能導致肝毒性或心臟副作用的特定子結構，在分子真正被合成出來之前就將其淘汰。

生成式人工智慧與分子圖的結合則開創了分子設計的發展方向。相較於從現有資料庫中尋找分子，生成模型旨在直接創造出具有期望屬性的化學結構。透過圖變分自編碼器或擴散模型，演算法可以在分子圖的潛在空間中進行採樣與優化。這些模型學會了如何添加節點與邊緣，最終建構出符合化學價鍵規則的分子。這種應用在針對那些傳統藥物難以成藥的疾病靶點時具有潛力。

在材料科學領域，分子圖同樣展現了應用價值。除了小分子藥物，聚合物或電池中的固態電解質晶體結構都可以被抽象化為圖形。透過分子圖模型，科學家可以預測材料的導電性、熱穩定性或機械強度。這使得材料設計從傳統的試錯法轉變為資料驅動的理性設計，加速了綠色能源材料的發展步伐。

## 常見誤區

在研究與應用分子圖的過程中，從業人員經常會陷入幾個具有代表性的觀念誤區。常見的一個誤區是認為二維分子圖包含了理解分子行為所需的所有結構資訊。雖然二維拓撲圖定義了哪些原子互相連接，但它忽略了化學分子在真實世界中是處於不斷振動與旋轉的三維動態實體。許多生物學上的相互作用依賴於分子的特定三維構象，同一個二維分子圖可能對應著多個在能量上合理的低能構象。如果僅依賴二維圖形，模型可能會錯失那些需要特定空間折疊才能發生的結合機制，導致預測結果在面對立體異構物時出現偏差。

另一個技術層面的誤解是相信在分子圖上堆疊越深層的神經網路結構，就自然會得到更好的預測效能。在某些領域，擴大模型規模通常能帶來穩定的效益。然而，在處理分子圖時，過深的模型往往會遭遇過度平滑的問題。由於一般的化學分子規模相對較小，圖的直徑也很短。當進行多次的訊息傳遞時，每個節點都會接收到來自整個分子的混合訊息，最終導致圖中所有節點的特徵向量趨於一致，失去了區分局部化學環境的能力。因此，針對分子圖的模型設計更需要注重訊息傳遞的精準度與架構的特殊化。

第三個常見的誤區是將分子圖等同於一般社群網路，並直接套用為這些巨型網路設計的演算法。分子圖具有非常特殊的領域屬性。首先，化學價規則嚴格限制了每個原子節點的連接數量，這表示分子圖的節點度數通常非常小且有明確的上限，這與社群網路中常見的無標度網路特徵截然不同。其次，分子圖的邊緣特徵與節點特徵同樣重要，化學鍵的類型往往決定了分子的物理化學性質。如果直接使用那些只看重節點連結而忽略邊緣屬性的通用圖論演算法，將會遺失大量的關鍵化學資訊。

最後一個誤區是以為在所有情境下，分子圖的表示法在計算上都會優於傳統的一維字串表示法。雖然圖形保留了完整的拓撲結構，但圖神經網路在計算圖的鄰接矩陣與訊息傳遞時，其記憶體消耗與運算時間往往高於序列模型。在某些只需預測總體簡單屬性的任務中，使用一維字串搭配語言模型，有時也能達到良好的表現，同時具有更高的推論速度。表示法的選擇應該基於具體任務的需求與計算資源的限制來做評估。

## 與相關技術的比較

在計算化學與人工智慧領域，除了分子圖之外，還有多種表示分子的方法，了解分子圖與這些技術的差異是選擇合適工具的關鍵。首先常被拿來比較的便是以一維字元序列表示分子的格式，例如 SMILES。這類字串表示法將分子結構編碼為一連串的字母與符號，讓分子可以被視為一種特殊的語言。字串格式的優勢在於可以直接接入各種成熟的自然語言處理架構。然而，字串格式將具有高度分支與環狀結構的分子強制展平，這使得空間上相鄰的原子在字串中可能相距甚遠。模型需要學習解碼這些字串中的括號與數字來重建拓撲關係，而分子圖則直接地提供了這些拓撲關係，省去了模型猜測結構的負擔，使其在結構推理任務上表現更加直覺。

另一種常見的表示方式是傳統的分子指紋。指紋技術透過預先定義好的演算法，掃描分子中所有的子結構、環系或是特定路徑，然後將這些特徵映射到一個固定長度的向量中。分子指紋的計算速度極快，且向量格式可以直接輸入給隨機森林等傳統的機器學習模型使用，在早期的虛擬篩選中常見。然而，指紋的特徵提取過程是人為設計且固定的，它無法針對特定的預測任務進行動態調整。相反地，基於分子圖的神經網路是一種資料驅動的學習過程。模型會根據最終的預測目標，自動決定應該關注分子圖中的哪些局部結構或特徵模式。這種特徵提取能力，使得分子圖模型在複雜的屬性預測上通常能表現出更高的適應性。

在三維結構的表示上，有些研究會使用體素化的網格來表示分子。這種方法將分子置於一個三維空間網格中，並在有原子的網格點上填入數值。體素化表示法可以利用三維卷積神經網路進行處理，但它的缺點是非常稀疏且計算效率較低，因為大部分的網格空間都是空白的。此外，體素網格不具備旋轉不變性，為了讓模型學會同一個分子在不同角度下是相同的，通常需要進行資料擴增。相較之下，現代的三維分子圖演算法可以透過設計特殊的等變網路架構，在不依賴資料擴增的情況下，原生地處理原子的相對距離與角度，同時保持圖結構的稀疏計算優勢，這使得三維分子圖在預測蛋白質配體對接任務中，成為更具效率的技術選項。

## 常見問題

### 分子圖與傳統的 SMILES 字串表示法相比，主要的優勢在哪裡？

傳統字串表示法會將複雜的分支與環狀結構展平為一維序列，導致在化學連接上相鄰的原子，在字串中可能相距甚遠。模型因此必須耗費額外資源去學習字串語法並重新建構空間關係。分子圖的主要優勢在於它原生地保留了完整的拓撲結構，將原子間的連接關係具象化為邊緣。這使得圖神經網路能透過局部訊息傳遞，直接且精確地捕捉化學環境與原子互動，在結構推理和屬性預測的任務中，可避免空間資訊的遺失，提供更具邏輯性的特徵表示。

### 在訓練處理分子圖的機器學習模型時，常常遇到的「過度平滑」問題是什麼？

過度平滑是圖神經網路在處理分子圖時面臨的一項挑戰。模型特徵提取依賴節點間不斷傳遞與聚合訊息，但由於化學分子的規模通常較小且圖的直徑偏短，若網路層數設計過深，經過多次訊息傳遞後，每個節點都會反覆接收整個分子的廣域資訊。這會導致所有節點的特徵向量變得高度同質化，難以區分彼此。一旦節點失去獨特的局部環境特徵，模型便無法準確辨識特定的化學功能基團，進而導致整體屬性預測的準確度明顯下降。

### 分子圖能夠完整表示分子在真實三維空間中的所有化學與物理狀態嗎？

二維分子圖無法完整呈現分子在真實世界的物理狀態。它僅提供拓撲連接資訊，說明原子如何藉由化學鍵相連，卻忽略了在三維空間中的立體構象。真實的分子是動態實體，相同拓撲結構會因化學鍵旋轉而產生多種空間狀態。許多生物活性，如藥物與靶點的結合，都高度依賴特定的三維幾何形狀。若僅使用二維分子圖，模型將難以捕捉關鍵的立體化學特徵，因此計算生物學近年來開始積極發展結合空間座標的三維分子圖應用。

---

深度解說頁：https://aiterms.tw/learning/what-is-molecular-graphs
快查頁：https://aiterms.tw/terms/molecular-graphs
最後更新：2026/07/04