首先和大家分享下藥物發現的相關背景。
藥物發現領域近幾年非常火熱,特別是藉助AI 來輔助藥廠的藥物發現工作,包括藥物研發。藥物研發過程的週期非常長,通常某類臨床疾病的首創藥的研發過程需要消耗數十億的經費以及十多年的時間。主要分為以下階段:
(1)研究疾病靶點,疾病核心蛋白的確認。
(2)在臨床試驗前驗證藥物的有效性:包括藥物毒性、有效性、服用方式等方面的研究。
(3)臨床試驗。
(4)FDA 核准認證。
所以傳統藥物研發流程週期非常長。此外,從初識的 10,000 多種藥物,到 5 種藥物進入臨床試驗階段,最後到只用 1 種藥物批准上市。在這個背景下,如何輔助藥廠更快的從候選藥物中篩選出有效藥物,且能在臨床測試階段更快的預研藥物可能帶來的影響、作用、有效性等成為了比較熱門的研究領域,其中AI 特別是深度神經網路技術能大幅加速藥物研發流程。
今天分享的內容不涉及藥物篩選,主要集中在候選藥物的副作用和療效,主要研究目的是降低藥物毒性,提高藥物有效性。
如上圖所示,DDI(Drug-Drug Interaction)是指藥物與藥物間的相互作用。將研究藥物與已有藥物進行交叉分析,發現研究藥物的副作用,如對身體的影響等,透過試驗提前進行發現歸類。簡單舉例,“是藥三分毒”,藥物的毒性主要體現在哪裡?很多情況是因為藥物與其他藥物併用產生的,兩種或多種藥物間產生了化學作用。右下角圖中展示了3 種藥物,其中伊曲康唑(Itraconazole)是治療腫瘤相關藥物,如果將它和阿貝西利(abemaciclib)混合服用將會引起很嚴重的副作用,如肝衰竭,肝腎功能不全的患者使用這兩種藥物將會造成嚴重後果。如果將阿貝西利和達拉非尼(Dabrafenib)混用,將會導致血清濃度下降進而引發其他疾病。故在研發新藥的過程中需要進行大量的試驗,但不可能用真人進行試驗,只能用小白鼠或其他動物進行試驗。
今天分享的內容即是,透過多模態神經網路基於現有的(包括正在研發和已知的)藥物成分、過敏情況等,對藥物 DDI 進行提前預測。
如上圖所示,可以將藥物交互作用歸納為DDI 矩陣,矩陣中描述了藥物交互作用的結果,如藥物d1(阿貝西利)和d2(達拉非尼)會導致y1(血清濃度下降)。本研究中納入了 37264 項 DDI 數據,其中涉及了 572 種藥物(d)及 65 種反應結果(y,如血清濃度下降等)。並基於此數據建立了藥物知識圖譜(DKG,Drug Knowledge Graph):其中節點是藥物,邊是藥物間的關係。 DKG 三元組是 {D:藥物, R:藥物間關係, T:尾實體}。
除了上述數據,多模態模型還融合了藥物的異構特徵(HF,Heterogeneous Features):{Target:作用靶點,substructure:組成成分/化學結構, enzyme:酶},每個特徵的維度不同,如靶點訊息是一種蛋白。最後將 DDI 矩陣,DKG 和 HF 融合在同一個機率分佈上進行建模。
#接下來將介紹異構多模態 MDNN 模型的架構。
本模型簡稱MDNN,基礎資料主要分為DDI 矩陣與異質資料兩部分,模型架構主要由下列三個部分組成:
(1)基於DKG 部分:主要是透過建構藥物知識圖譜來表達藥物本身的成分(有效成分、毒性成分)、藥物間關係等的資訊。
(2)基於HF 部分:透過整合標靶、酵素、分子結構等異構特徵資料來描述藥物本身的基礎特徵資訊。
(3)多模態融合神經網路:將DKG 和HF 兩部分特徵資料進行有效融合,對融合資料進行統一建模。
#以下將介紹基於 DKG 的建置流程。
#上圖展示了藥物知識圖譜的主要內容,左圖是DDI 矩陣,矩陣中包含了接近600 種藥物,這些藥物的成分和作用資訊都儲存在資料庫(DrugBank,即「藥物銀行」)中。右圖舉例展示了「藥物銀行」中的藥物訊息,如酶、載體、靶點等異構基礎特徵,其中有4 種特徵是比較重要的,以藥物DB05812 為例,除靶點(target)、酵素(enzyme)、分子結構以外,還有載體(carrier)和轉運體(transporter),但這兩種數據相對比較稀疏,沒有其他特徵那麼多的維度,在目前數據集上的區分度不大,故暫時未採用這兩種數據。主要使用數據為標靶、酵素、分子結構。
如上圖所示,知識圖譜主要由節點和邊組成,其中節點為藥物和成分,邊為關係。例子中三元組展示的關係為毒性成分關係,即節點藥物 “DB05812” 與節點成分 “P02768” 間存在毒性成分關係。基於「藥物銀行」中所獲得的藥物成分關係三元組構成了DKG 知識圖譜,其中包含572 種藥物,三元組的邊(關係)稱為語義關係(semantic relation),共有157 種關係類型,成分尾實體節點有1043 種。每次 DKG 可根據任務需求從「藥物銀行」中抽取相應的資訊進行構建,故 DKG 相當於是「藥物銀行」知識圖譜中的子圖。
#基於DKG,總結了兩個訊息,上圖展示了語意關係資訊模型的構建。基於毒性成分,首先計算上一層藥物(d)和關係(r)的內積,透過當前層權重(W1)進行求和得到π 函數,即藥物的邊和節點資訊透過π 函數求和到一起,再將π 函數和上一層成分(t)進行加權求和得到e,即獲得了邊的資訊。
#類似的,上圖展示了圖的拓撲結構資訊模型的建構。除了毒性成分外,藥物還可能包含其他多種成分關係,可以將同一藥物的多種關係(邊,即 e)及其對應的權重 W2 連接起來,最終得到每個藥物對應的 E。透過上述方式將 DKG 邊和拓樸結構資訊進行了有效的融合表示。
#如下圖,除上述提到的邊資訊和DDI 資訊外,藥物也存在著非常豐富的多模態訊息:同一種藥物可以對多個標靶起作用;各種藥物也有各自不同的分子結構,代表了其對應的分子特性;藥物在不同酵素的作用下會和不同的標靶結合。將這三種資訊進行向量化表示,然後透過簡單的 Jaccard 相似度來度量藥物間的相似度,得到對應的相似度矩陣。
##最後融合三種相似度矩陣得到每種藥物對應的E',即獲得了藥物基於異構特徵的資訊。本特徵向量的維度也不大,包含了 1162 種靶點,583 種結構和 202 種酵素的資訊。
4、多模型融合層
如上圖所示,最終透過融合層對每個藥物的DKG 結果E 和HF 結果E' 進行拼接融合得到:
再透過softmax 函數得到輸出層:
###################### ##整個模型框架如上圖,框架結構並不複雜,但對藥物資訊進行了相對有效的結合。
#接下來跟大家分享一下模型效果。
#上圖展示了與目前應用較為普遍的演算法的對比結果,MDNN 演算法在Acc、AUC、F1、AUPR、Precision、Recall 等評價指標上均取得了State of the Art 的結果。 (以上演算法未納入GNN 演算法。)
上圖展示了MDNN 融合DKG、 HK 和不融合的效果間差異。很容易看出,融合後的結果比單獨使用某一種方法的效果更好。
#關於多模態調參,即參數敏感度的分析如上圖,分別展示了神經網路層數l,節點數 Ns等參數變化時,個別評估指標對應的波動情況。
#此外還進行了多任務分析,任務A 預測模型透過訓練集構建,來預測訓練集藥物和測試集藥物間的DDI;任務B 的預測模型也透過訓練集構建,但預測測試集藥物間的DDI。即將訓練集和測試集藥物嚴格分開的話,模型預測效果有顯著下降。
在藥物研發領域還有許多亟待解決的問題:如何有效的發現/篩選藥物,而不是局限於研究 DDI。
#最後總結本次分享的內容,MDNN 演算法本身不算複雜,最重要的工作是利用了多模態資料和結構資訊:
(1)基於藥物效果建構了藥物知識圖譜,基於藥物本身特性(靶點、分子結構、酵素)建構了多模態資料特徵,最終融合這兩部分特徵建構了MDNN 模型。
(2)對DDI 的預測問題進行了改進;
(3)與已有方法對比,MDNN 在資料集上的效果最好。
但在實際應用上,MDNN 模型還存在許多需要進一步優化和改進的地方,例如更好的方法論或更好的數據。
A1:本研究知識圖譜資料集是公開的,原始資料集「藥物銀行」也是公開資料集。但根據每個研究領域的藥物的不同,所建構的知識圖譜資料集也會有差異,沒有一個統一通用的知識圖譜。
#A2:除生物製藥外,在電商領域的應用非常多。如User-Item 類別的資料集,User 有許多多模態資訊,如職業、年齡、購物標籤等,Item 商品也有很多資訊,它們間的關係也有非常多,如購物、評價、收藏夾、點擊等行為。領域數據如果符合異質形態,都可以嘗試使用這些方法進行分析,困難在於建構特定領域的知識圖譜。
#以上是多模態 DNN 模型在藥物交互作用預測任務的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!