---
title: "藥物靶點預測（Drug-Target Interaction Prediction）"
slug: drug-target-interaction-prediction
language: zh-TW
source: https://aiterms.tw/learning/what-is-drug-target-interaction-prediction
updated_at: 2026-07-04
tags: [機器學習, 深度學習, AI應用, 神經網路, source:arxiv]
ipas_term: false
type: deep-dive
---

# 藥物靶點預測 是什麼？

> 藥物靶點預測是利用機器學習預測候選藥物分子與生物靶點蛋白質之間的結合力，加速新藥研發並降低實驗成本。

## 核心概念

藥物靶點預測的核心目標在於釐清並量化潛在藥物分子與生物體內特定蛋白質靶點之間的相互作用關係。在現代藥物開發的脈絡下，新藥研發的過程往往伴隨著龐大的資金投入與極長的開發週期，通常需要耗費數年至十數年，並花費高昂預算才能將一款新藥推向市場。其中，從成千上萬甚至數以百萬計的化學小分子庫中尋找能夠與特定疾病相關蛋白質結合的活性化合物，是整個開發流程中最為耗時且成本高昂的初期階段。透過人工智慧與機器學習技術引入藥物靶點預測，研究人員能夠在進行實體化學合成與生物學實驗之前，利用電腦運算進行虛擬篩選，大幅縮減潛在藥物候選者的數量。

藥物分子通常是小分子化合物，它們的結構決定了其物理化學性質以及在生物體內的行為。而靶點則多為生物體內的大分子，最常見的是蛋白質，例如受體、酶或離子通道。這些蛋白質在細胞的生理與病理過程中扮演著關鍵的角色。當藥物分子與特定的蛋白質靶點結合時，能夠改變該蛋白質的功能，進而達到治療疾病的效果。例如，抑制某種致病酶的活性，或者阻斷某個導致異常訊號傳遞的受體。因此，精確地預測哪種藥物分子能夠與哪種靶點蛋白質發生結合，以及結合的強度，是計算機輔助藥物設計領域的首要任務。

在傳統的計算生物學中，這項任務主要依賴於分子對接技術，這需要蛋白質靶點的高解析度三維結構數據。然而，許多重要的蛋白質結構難以透過結晶學等實驗方法獲得，這極大地限制了基於結構的預測方法的應用範圍。近年來，隨著大數據技術與深度學習演算法的飛速發展，基於數據驅動的機器學習模型逐漸成為藥物靶點預測的主流。這些模型能夠學習已知藥物與靶點之間相互作用的歷史數據，從中提取複雜的隱含特徵與非線性關係，進而對未知的藥物靶點對進行交互作用預測，即使在缺乏蛋白質三維結構資訊的情況下，也能展現出高度的預測準確性與廣泛的適用性。

## 運作原理

藥物靶點預測的運作原理建立在將化學與生物學資訊轉換為電腦可理解的數學表示，並利用機器學習演算法建立預測模型的基礎之上。整個流程通常包含數據收集、特徵表示學習、模型訓練與預測輸出等幾個關鍵步驟。

首先是數據收集階段。研究人員需要從公開的化學與生物學資料庫中獲取大量的已知數據。這些資料庫包含了數以萬計的藥物分子化學結構資訊、蛋白質的胺基酸序列資訊，以及透過實驗驗證過的藥物與靶點之間的相互作用數據。這些相互作用數據可以是二元的，即有相互作用或無相互作用；也可以是連續的數值，例如結合親和力的測量值，這反映了藥物與靶點結合的緊密程度。高質量的訓練數據是建立精準預測模型的先決條件。

其次是特徵表示學習。這是預測模型成功的關鍵所在。對於藥物小分子，傳統方法使用分子指紋來表示其結構特徵，這是一串記錄了特定化學子結構存在與否的二進位向量。近年來，圖神經網路的應用成為主流，因為小分子可以自然地被視為由原子節點和化學鍵邊構成的圖結構。圖神經網路能夠直接從分子的圖結構中學習到更為豐富的拓撲與幾何特徵，將每個分子映射為一個低維度的密集向量表示。對於蛋白質靶點，傳統方法使用基於胺基酸組成的理化性質特徵。而隨著自然語言處理技術的發展，研究人員開始將蛋白質的胺基酸序列視為一種特殊的文本，並利用類似於變換器架構的深度學習模型，從大量的序列數據中學習蛋白質的語義特徵，捕捉胺基酸之間的長距離依賴關係，進而生成蛋白質的向量表示。

當獲得了藥物與靶點的高質量特徵表示後，接下來便是模型訓練與預測輸出。預測模型會接收一對藥物和靶點的特徵向量作為輸入。在多數架構中，這兩個向量會被合併或透過特定機制進行資訊融合，例如使用注意力機制來讓模型關注藥物與靶點特徵中最為相關的部分。融合後的特徵會被送入全連接神經網路或其他類型的分類器或回歸器中。如果任務是預測是否發生相互作用，模型會輸出一個介於零與一之間的機率值；如果任務是預測結合親和力，模型則會輸出一個具體的數值。在訓練過程中，模型會不斷調整內部的權重參數，以最小化其預測結果與真實實驗數據之間的誤差，最終學會如何根據輸入特徵做出準確的預測。

## 實際應用

藥物靶點預測技術在現代生物醫藥產業中具有廣泛且深遠的應用價值，貫穿了藥物研發的多個生命週期。

首要應用在於虛擬高通量篩選與新藥發現。面對一個新發現的疾病相關靶點蛋白質，傳統的高通量篩選需要在實驗室中對數十萬種化合物進行逐一測試，過程繁瑣且昂貴。利用預測模型，研究人員可以在計算機上對擁有數百萬甚至數十億個化合物的巨大化學空間進行快速的虛擬掃描。模型可以快速評估每個化合物與目標蛋白質結合的可能性，並篩選出最有潛力的一小批候選分子。這種方法將後續需要進行實體實驗驗證的化合物數量縮減了數個數量級，大幅提升了新藥發現的效率並節省了實驗室資源。這在應對突發性傳染病或針對罕見疾病開發孤兒藥時，展現出了極高的時間價值。

另一項重要應用是舊藥新用。舊藥新用是指為已經獲得批准上市或已在臨床試驗階段驗證了安全性的現有藥物，尋找新的治療適應症。與全新藥物開發相比，舊藥新用的風險較低，因為這些藥物的藥代動力學特性與人體安全性已經有了充分的數據支持。透過藥物靶點預測模型，研究人員可以系統性地分析所有現有藥物庫與大量不同疾病相關靶點之間的潛在交互作用。如果模型預測某個現有藥物可能與另一個意料之外的疾病靶點產生強烈結合，這就為該藥物開闢了新的治療方向。這種策略能夠顯著縮短將治療方案帶給患者的時間。

此外，藥物靶點預測在預測藥物副作用與毒性方面也發揮著關鍵作用。藥物在人體內往往具有多效性，也就是除了與預期的主要治療靶點結合外，還可能與其他非預期的蛋白質產生相互作用。這種非預期相互作用也就是所謂的脫靶效應，往往是導致藥物副作用甚至嚴重毒性的主要原因。預測模型可以在藥物開發的早期階段，掃描候選藥物與人體內大量蛋白質的交互作用圖譜，預警潛在的脫靶風險。這使得研究人員能夠及早剔除高風險的化合物，或者對藥物結構進行優化以提高其靶向選擇性，從而提升最終藥物產品的安全特徵。

在個體化醫療與精準醫學領域，這項技術同樣具有應用潛力。雖然目前的藥物靶點預測主要集中在群體層面的蛋白質靶點上，但隨著基因體學數據的累積，未來的預測模型可以整合患者個體的基因突變資訊。這意味著模型將能夠預測特定藥物與患者體內發生變異的特定蛋白質靶點之間的結合效果。透過這種方式，醫生可以根據患者的個體基因圖譜，選擇最有可能產生療效且副作用最小的標靶藥物，實現真正意義上的個人化用藥。

## 常見誤區

儘管藥物靶點預測技術取得了顯著進展，但在實際應用與理解上仍存在許多常見的誤區需要釐清。

許多人誤以為預測模型的輸出結果可以直接等同於生物學實驗結果。這是一個嚴重的認知偏差。計算機模型預測出高結合親和力，並不保證該化合物在真實的細胞或動物體內一定能夠產生預期的生物學活性與治療效果。預測模型主要考慮的是分子層面的靜態物理化學匹配程度，而忽略了生物體內複雜的動態環境。藥物在體內需要經歷吸收、分佈、代謝和排泄等複雜過程，並且面臨細胞膜通透性、藥物代謝酶降解等多重挑戰。因此，預測結果只能作為一種計算機輔助決策的假設，必須經過嚴格的體外實驗與體內動物模型實驗驗證，才能確認其價值。

另一個常見的誤區是過度依賴單一模型的預測分數。不同的機器學習演算法與特徵表示方法具有各自的優勢與局限性，在不同的資料集或針對特定類別的蛋白質靶點時，表現可能差異很大。有些模型可能對特定類型的化學結構過度擬合，而導致在面對結構新穎的化合物時泛化能力下降。因此，在實際的藥物研發流程中，通常建議採用整合學習或結合多種不同原理的計算機輔助設計工具，透過交叉驗證來降低單一模型帶來的假陽性率。單獨依賴某一個特定分數往往會導致錯失潛在的優質候選藥物或浪費資源在無效的分子上。

此外，忽視訓練數據的質量與偏差也是一個普遍問題。機器學習模型的效果完全取決於其訓練數據。目前公開資料庫中的藥物靶點相互作用數據存在著明顯的不平衡與偏差。例如，某些熱門研究領域的蛋白質靶點擁有大量的相互作用數據，而一些新發現或冷門的靶點則數據稀缺。如果模型主要在這些熱門靶點數據上進行訓練，它在預測冷門靶點的相互作用時性能會大幅下降。同時，實驗測量的數據本身也包含不可避免的誤差與雜訊。如果不對數據進行嚴格的清洗與品質控管，模型可能會學習到錯誤的模式，導致預測結果不可靠。

最後，將藥物靶點預測等同於解決了所有新藥開發難題的想法過於簡化。藥物開發是一個涉及化學、生物學、藥理學、毒理學以及臨床醫學的極度複雜的系統工程。靶點預測只是在藥物發現的極早期階段提供了一個有力的工具，幫助縮小搜索範圍。後續的藥物化學優化、藥物動力學測試、安全性評估以及漫長而嚴格的臨床試驗，每一個環節都充滿挑戰且不可或缺。預測技術可以加速發現過程，但無法替代後續將化合物轉化為真正安全有效藥物所需的大量基礎與臨床研究工作。

## 與相關技術的比較

藥物靶點預測通常與其他幾項在計算機輔助藥物設計領域的重要技術相提並論，了解它們之間的差異與互補性有助於更全面地把握整個領域的發展輪廓。

與傳統的分子對接技術相比，機器學習驅動的藥物靶點預測展現出不同的特性。分子對接依賴於物理化學原理，嘗試將小分子配體在三維空間中放入蛋白質受體的結合口袋，計算其形狀與能量的匹配程度。這需要已知蛋白質靶點的高解析度三維結構數據，且計算過程極度耗時。相比之下，基於機器學習的預測方法不需要靶點的三維結構，通常只需要蛋白質的胺基酸序列以及小分子的二維結構資訊，這使得其應用範圍更廣泛，尤其適用於那些結構尚未被解析的膜蛋白等重要靶點。同時，機器學習模型的預測速度通常遠快於分子對接，更適合處理超大規模化合物庫的虛擬篩選。然而，分子對接能夠提供具體的結合構象與相互作用細節，這對於後續的藥物結構優化具有指導意義，而這往往是將預測過程視為黑盒子的傳統機器學習模型所缺乏的。

與基於配體的藥物設計技術相比，藥物靶點預測涵蓋了更廣的資訊層面。基於配體的方法，例如傳統的定量構效關係建模，主要依賴於分析已知對某個特定靶點有活性的化合物群體，尋找它們之間的共同結構特徵，並以此來預測新化合物的活性。這種方法不需要靶點資訊，但其局限性在於只能在已知活性化合物相似的化學空間內進行預測，難以發現結構全新穎的藥物分子。藥物靶點預測則將藥物特徵與靶點特徵同時納入考量，能夠學習到更為複雜的藥物與靶點交互作用模式，具有更好的泛化潛力，並能在一定程度上跨越不同靶點或不同化學骨架進行預測。

此外，藥物靶點預測與生成式分子設計技術雖然目標不同，但越來越多地結合使用。生成式人工智慧模型，如變分自編碼器或生成對抗網路，能夠從頭開始生成具有特定物理化學性質的全新分子結構。然而，這些生成的分子是否能夠與特定的疾病靶點結合仍是未知數。將藥物靶點預測模型與生成式模型結合，可以在分子生成的過程中引入靶點約束條件。預測模型可以作為一個評估器，即時評估生成模型所產生的候選分子與目標靶點的結合潛力，並將反饋信號傳遞給生成模型，引導其朝著產生高親和力化合物的方向進行優化。這種結合代表了計算機輔助藥物設計向高度自動化與智能化發展的重要趨勢。

總結來說，藥物靶點預測並不是要取代分子對接或傳統的構效關係分析，而是與它們形成互補。在一個完整的計算機輔助藥物研發流水線中，這些技術通常被整合在一起。例如，首先利用快速的機器學習預測模型對超大化合物庫進行初步篩選，剔除大部分無效分子；然後對篩選出的候選者進行更為精確但耗時的分子對接，以評估結合構象；最後結合實驗數據不斷反饋優化預測模型。這種多層次的策略能夠最大化地發揮各種計算技術的優勢，提升新藥開發的整體成功率。

## 常見問題

### 藥物靶點預測需要輸入什麼樣的資料？

進行藥物靶點預測主要需要兩大類的輸入數據。第一類是化合物的資訊，通常是小分子藥物的化學結構，這可以透過二維的簡化分子線性輸入規範或三維的分子圖來表示。第二類是生物靶點的資訊，通常是蛋白質的胺基酸序列。先進的深度學習模型能夠將這些一維的文字序列或二維的圖形結構轉化為高維度的數學向量。部分模型也會額外整合蛋白質的三維結構數據、基因表現資料或是已知藥物的副作用網路，以提供更豐富的背景知識，進而提升模型預測交互作用或結合親和力的準確度。

### 這項技術可以完全取代實驗室裡的生物實驗嗎？

藥物靶點預測技術無法完全取代傳統的實驗室生物實驗。這項技術的核心價值在於其作為一個高效的虛擬篩選工具，能夠在實際進行昂貴且耗時的物理合成與生物學測試之前，從數以百萬計的化合物庫中挑選出最具潛力的候選分子。雖然人工智慧模型能大幅縮減需要測試的化合物數量，並提高實驗的命中率，但模型預測的結果仍屬於計算機模擬的範疇。藥物在活體細胞或人體複雜生理環境中的實際表現、毒性反應以及代謝過程，最終都必須依賴嚴格的體外細胞實驗、動物模型實驗以及後續的臨床試驗來進行確認與驗證。

### 目前的預測模型主要面臨哪些挑戰與限制？

目前藥物靶點預測領域面臨著幾項關鍵的挑戰。首先是數據的稀疏性與偏差問題，許多新發現的疾病靶點缺乏足夠的已知相互作用數據來訓練模型，導致模型在預測這些罕見或新穎靶點時表現不佳。其次是模型的可解釋性不足，特別是基於深度神經網路的模型，往往難以清晰解釋為何判斷某個分子會與特定靶點結合，這限制了化學家根據預測結果優化分子結構的能力。此外，多數模型僅考慮靜態的結構特徵，忽略了蛋白質在生理環境中動態的構象變化與溶劑效應，這也是未來提升預測精準度需要克服的重要技術瓶頸。

---

深度解說頁：https://aiterms.tw/learning/what-is-drug-target-interaction-prediction
快查頁：https://aiterms.tw/terms/drug-target-interaction-prediction
最後更新：2026/07/04