memperkenalkan MolE, model berasaskan pengubah untuk pembelajaran graf molekul. MolE berfungsi secara langsung dengan graf molekul dengan menyediakan pengecam atom dan ketersambungan graf sebagai token input. Pengecam atom dikira dengan mencincang sifat atom yang berbeza ke dalam integer tunggal, dan ketersambungan graf diberikan sebagai matriks jarak topologi. MolE menggunakan Transformer sebagai seni bina asasnya, yang juga telah digunakan pada graf sebelum ini. Prestasi transformer boleh dikaitkan sebahagian besarnya kepada penggunaan meluas mekanisme perhatian diri. Dalam transformer standard, token input dibenamkan ke dalam pertanyaan, kunci dan nilai (Q,K,Vin {R}^{Ntimes d}), yang digunakan untuk mengira perhatian diri sebagai:
MolE ialah model pengubah yang direka khusus untuk graf molekul. Ia berfungsi secara langsung dengan graf dengan menyediakan pengecam atom dan ketersambungan graf sebagai token input dan maklumat kedudukan relatif, masing-masing. Pengecam atom dikira dengan mencirikan sifat atom yang berbeza ke dalam satu integer. Khususnya, cincang ini mengandungi maklumat berikut:
- bilangan atom berat jiran,
- bilangan atom hidrogen bersebelahan,
- valens tolak bilangan hidrogen yang melekat,
- cas atom,
- jisim atom,
- jenis bon yang dilampirkan,
- dan keahlian cincin.
Pengecam atom (juga dikenali sebagai persekitaran atom jejari 0) telah dikira menggunakan algoritma Morgan seperti yang dilaksanakan dalam RDKit.
Selain token, MolE juga mengambil maklumat ketersambungan graf sebagai input yang merupakan bias induktif yang penting kerana ia mengekod kedudukan relatif atom dalam graf molekul. Dalam kes ini, ketersambungan graf diberikan sebagai matriks jarak topologi d di mana dij sepadan dengan panjang laluan terpendek di atas ikatan yang memisahkan atom i daripada atom j.
MolE menggunakan Transformer sebagai seni bina asasnya, yang juga telah digunakan pada graf sebelum ini. Prestasi transformer boleh dikaitkan sebahagian besarnya kepada penggunaan meluas mekanisme perhatian diri. Dalam transformer standard, token input dibenamkan ke dalam pertanyaan, kunci dan nilai (Q,K,Vin {R}^{Ntimes d}), yang digunakan untuk mengira perhatian diri sebagai:
di mana ({H}_{0}dalam {R}^{Ntimes d}) ialah output vektor tersembunyi selepas perhatian kendiri dan (d) ialah dimensi ruang tersembunyi.
Untuk membawa maklumat kedudukan secara eksplisit melalui setiap lapisan pengubah, MolE menggunakan perhatian diri yang terurai daripada DeBERTa:
di mana ({Q}^{c},{K}^{c},{V}^{c}dalam {R}^{Ntimes d}) ialah pertanyaan konteks, kunci dan nilai yang mengandungi maklumat token ( digunakan dalam perhatian kendiri standard), dan ({Q}_{i,j}^{p},{K}_{i,j}^{p}dalam {R}^{Ntimes d}) ialah kedudukan pertanyaan dan kunci yang mengekod kedudukan relatif atom (i{{{rm{th}}}}) berkenaan dengan atom (j{{{rm{th}}}}). Penggunaan perhatian terurai menjadikan MolE invarian berkenaan dengan susunan atom input.
Seperti yang dinyatakan sebelum ini, pralatihan diselia sendiri boleh memindahkan maklumat daripada set data besar tidak berlabel kepada set data yang lebih kecil dengan label. Di sini kami membentangkan strategi pralatihan dua langkah. Langkah pertama ialah pendekatan penyeliaan sendiri untuk mempelajari perwakilan struktur kimia. Untuk ini, kami menggunakan pendekatan seperti BERT di mana setiap atom bertopeng secara rawak dengan kebarangkalian 15%, daripada mana 80% daripada token yang dipilih digantikan dengan token topeng, 10% digantikan dengan token rawak daripada perbendaharaan kata, dan 10% tidak berubah. Berbeza dengan BERT, tugas ramalan bukan untuk meramalkan identiti token bertopeng, tetapi untuk meramalkan persekitaran atom yang sepadan (atau persekitaran atom berfungsi) jejari 2, bermakna semua atom yang dipisahkan daripada atom bertopeng oleh dua atau kurang ikatan . Adalah penting untuk diingat bahawa kami menggunakan strategi tokenisasi yang berbeza untuk input (jejari 0) dan label (jejari 2) dan token input tidak mengandungi data bertindih atom jiran untuk mengelakkan kebocoran maklumat. Ini memberi insentif kepada model untuk mengagregat maklumat daripada atom jiran sambil mempelajari ciri molekul tempatan. MolE belajar melalui tugas pengelasan di mana setiap persekitaran atom jejari 2 mempunyai label yang dipratentukan, bertentangan dengan pendekatan Ramalan Konteks di mana tugasnya adalah untuk memadankan pembenaman persekitaran atom jejari 4 dengan pembenaman atom konteks (iaitu, atom sekeliling di luar jejari 4) melalui persampelan negatif. Langkah kedua menggunakan pralatihan seliaan peringkat graf dengan set data berlabel besar. Seperti yang dicadangkan oleh Hu et al., menggabungkan pralatihan peringkat nod dan graf membantu mempelajari ciri tempatan dan global yang meningkatkan prestasi ramalan akhir. Butiran lanjut mengenai langkah pralatihan boleh didapati di bahagian Kaedah.
MolE telah dipralatih menggunakan pangkalan data ultra-besar ~842 juta molekul daripada ZINC dan ExCAPE-DB, menggunakan skim penyeliaan sendiri (dengan kerugian tambahan) diikuti dengan pralatihan diselia dengan ~456K molekul (lihat bahagian Kaedah untuk butiran lanjut). Kami menilai kualiti pembenaman molekul dengan memperhalusi MolE pada satu set tugas hiliran. Dalam kes ini, kami menggunakan set 22 tugasan ADMET yang disertakan dalam penanda aras Therapeutic Data Commons (TDC) Penanda aras ini terdiri daripada 9 regresi dan 13 tugas klasifikasi binari pada set data yang berjulat daripada ratusan (cth, DILI dengan 475 sebatian) hingga beribu-ribu. sebatian (seperti tugas perencatan CYP dengan ~13,000 sebatian). Kelebihan menggunakan penanda aras ini ialah
Atas ialah kandungan terperinci MolE: Model Transformer untuk Pembelajaran Graf Molekul. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!