Heim >Technologie-Peripheriegeräte >KI >Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

PHPz
PHPzOriginal
2024-08-05 20:33:31992Durchsuche

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Herausgeber |. Radish Skin

Mit den Fortschritten im Deep Learning schreiten Proteindesign und -technik in beispiellosem Tempo voran. Aktuelle Modelle können jedoch nicht auf natürliche Weise Nicht-Protein-Entitäten während des Designprozesses berücksichtigen.

Hier schlugen Forscher der Ecole Polytechnique Fédérale de Lausanne (EPFL) in der Schweiz eine Deep-Learning-Methode vor, die vollständig auf geometrischen Transformatoren von Atomkoordinaten und Elementnamen basiert und Gerüste basierend auf den durch verschiedene molekulare Umgebungen auferlegten Einschränkungen vorhersagen kann Sequenzen.

Mit dieser Methode können Forscher Enzyme mit hoher thermischer Stabilität und katalytischer Aktivität mit hoher Erfolgsquote herstellen. Es wird erwartet, dass dies die Vielseitigkeit von Proteindesign-Pipelines zur Erreichung gewünschter Funktionen erhöht.

Die Forschung trug den Titel „Kontextbewusstes geometrisches Deep Learning für Proteinsequenzdesign“ und wurde am 25. Juli 2024 in „Nature Communications“ veröffentlicht.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Das Design von Proteinen zur Erfüllung funktionaler Aufgaben ist eine Herausforderung mit großen biologischen, medizinischen, biotechnologischen und materialwissenschaftlichen Auswirkungen. Ein wichtiger Anwendungsbereich ist die Entwicklung von Proteintherapeutika, bei denen die gezielte Anpassung von Proteinen an bestimmte Krankheiten konkurrenzfähiger sein kann als niedermolekulare Medikamente. Dieser Ansatz könnte die Behandlung vieler Gesundheitsprobleme, von Autoimmunerkrankungen bis hin zu Krebs, revolutionieren und wirksamere und personalisiertere Behandlungen ermöglichen.

Darüber hinaus ist die Gestaltung von Enzymfunktionen eine weitere wichtige Herausforderung beim Proteindesign. Enzyme dienen als natürliche Katalysatoren und spielen eine Schlüsselrolle in biologischen Prozessen. Durch die Entwicklung neuer Enzyme oder die Modifizierung bestehender Enzyme ist es möglich, Katalysatoren zu schaffen, die Reaktionen fördern, die selten sind oder in der Natur nicht vorkommen. Dies hat weitreichende Auswirkungen auf zahlreiche Branchen, darunter die Pharma- und Umwelttechnologiebranche, etwa die Synthese komplexer Arzneimittelmoleküle oder den Abbau von Schadstoffen und Kunststoffen.

Deep-Learning-Methoden beschleunigen die Erfolgsquote und Vielfalt des Proteindesigns erheblich. Während aktuelle Proteindesignmodelle mit mehreren Proteinketten umgehen können, sind sie bei der Verarbeitung von Nicht-Protein-Entitäten jedoch leistungsschwach, was ihren Anwendungsbereich einschränkt.

Um dieses Problem zu lösen, hat das Forschungsteam der EPFL einmal ein Deep-Learning-Modell eingeführt – den Protein Structure Transformer (PeSTo), eine geometrische Transformatorarchitektur, die auf atomare Punktwolken einwirkt.

PeSTo beinhaltet einen transformatorischen Aufmerksamkeitsmechanismus, der Skalar- und Vektorzustände zur Darstellung von Atomen nutzt und Wechselwirkungen an praktisch jeder Molekül-Protein-Schnittstelle vorhersagen kann, einschließlich Proteinen, Nukleinsäuren, Lipiden, Ionen, kleinen Liganden, Cofaktoren oder Kohlenhydraten.

In der neuesten Arbeit nutzte das Team die einzigartigen Fähigkeiten dieses Modells und stellte das PeSTo-basierte Proteinsequenzgeneratormodell CARBonAra (Context-aware Amino Acid Recovery from Backbone Atoms and heteroatoms) vor.

CARBonAra ist in einzigartiger Weise auf die in der PDB verfügbaren Strukturdaten trainiert, um die Aminosäurekonfidenz für alle Positionen eines bestimmten Rückgratgerüsts vorherzusagen, die allein oder mit jeder Art und Anzahl von Werkzeugen bereitgestellt werden können, die das Sequenzdesign molekularer Komplexe vorantreiben.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Abbildung: Architektur von CARBonAra und Vergleich mit SOTA-Methoden. (Quelle: Paper)

Zusammensetzung und Leistung von CARBonAra

CARBonAra verwendet ein Deep-Learning-Modell, das aus geometrischen Transformatoren besteht, um die Wahrscheinlichkeit vorherzusagen, eine bestimmte Aminosäure an jeder Position in einer Proteinsequenz aus einem Eingabegerüst zu finden. CARBonAra verwendet als Eingabe die Koordinaten und Elemente der Grundgerüstatome (Cα, C, N, O) und fügt virtuelle Cβ-Atome unter Verwendung idealer Bindungswinkel und Bindungslängen hinzu. Die Geometrie wird anhand des Abstands zwischen jedem Atom und dem normalisierten relativen Verschiebungsvektor beschrieben.

Geometrische Transformatoroperationen kodieren die Wechselwirkungen aller benachbarten Atome und verwenden Transformatoren, um Skalar- und Vektorinformationen zu verarbeiten und den Zustand jedes Atoms zu aktualisieren. Schließlich trainierten die Forscher das Modell durch die Aggregation atomarer Zustände von der Atomebene bis zur Restebene, um die Aminosäurekonfidenz für jede Position in der Proteinsequenz in Form einer positionspezifischen Bewertungsmatrix vorherzusagen.

Tatsächlich können diese Konfidenzen als Wahrscheinlichkeiten interpretiert und abgebildet werden, indem die Wahrscheinlichkeit einer korrekten Vorhersage anhand der Vorhersagekonfidenz für jeden Aminosäuretyp charakterisiert wird.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Abbildung: Vorhersagekonfidenzanalyse. (Quelle: Paper)

Wie andere Modelle unterstützt CARBonAra autoregressive Vorhersagen durch One-Hot-Codierung, um frühere Sequenzinformationen für bestimmte Aminosäuren in die Rückgratatome einzuprägen.

Am wichtigsten ist, dass CARBonAra die Fähigkeit von PeSTo übernimmt, nur Elementnamen und Atomkoordinaten ohne umfangreiche Parametrisierung zu verwenden, was die Anpassung an verschiedene Szenarien erleichtert.

Oleh itu, CARBonAra boleh menghuraikan dan memproses mana-mana entiti molekul di sekitar tulang belakang protein yang sedang direka, termasuk pelbagai input seperti protein lain, molekul kecil, asid nukleik, lipid, ion dan molekul air.

Datasets

Mengambil kesempatan daripada fleksibiliti yang wujud pada CARBonnAra, penyelidik dapat menggabungkan semua himpunan biologi dalam RCSB PDB ke dalam set data latihan mereka.

Ini termasuk protein yang dikomplekskan dengan entiti molekul lain seperti ion, ligan, asid nukleik, dsb. Set data latihan terdiri daripada kira-kira 370,000 subunit, dan 100,000 subunit lagi digunakan dalam set data pengesahan, yang kesemuanya diperoleh daripada perhimpunan biologi PDB RCSB dan diberi penjelasan sebaik mungkin.

Mengikuti protokol yang lebih ketat sedikit berbanding kaedah yang ditetapkan sebelum ini, set data ujian terdiri daripada kira-kira 70,000 subunit, berbeza daripada set latihan tanpa domain CATH dikongsi, dan dilakukan pada penapis identiti jujukan kurang daripada 30%.

Kriteria pemilihan ini memastikan keteguhan ujian kerana ia tidak termasuk lipatan dan jujukan serupa yang terdapat dalam set data latihan.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Ilustrasi: analisis masa jalan pada GPU. (Sumber: Kertas)

Untuk reka bentuk jujukan yang memisahkan protein atau kompleks protein daripada struktur tulang belakang yang tidak mengandungi molekul bukan protein, CARBonAra berprestasi setanding dengan kaedah ramalan jujukan terkini seperti ProteinMPNN dan ESM-IF1 pada kos pengiraan Kompetitif (kira-kira 3 kali lebih pantas daripada ProteinMPNN pada GPU dan 10 kali lebih pantas daripada ESM-IF1).

Membina semula jujukan protein daripada struktur rantai utama

Apabila kaedah ini membina semula jujukan protein daripada struktur rantai utama, kadar pemulihan jujukan median bagi reka bentuk monomer protein ialah 51.3%, dan kadar pemulihan jujukan median bagi reka bentuk dimer ialah 51.3%. 56.0%. Walaupun kadar pemulihan yang sama, identiti jujukan median antara jujukan terbaik daripada tiga kaedah berbeza dari 54% hingga 58%.

Selain itu, penyelidik memerhatikan bahawa CARBonnAra boleh menjana jujukan berkualiti tinggi yang dilipat seperti yang dijangkakan dengan skor TM melebihi 0.9 apabila diramalkan menggunakan AlphaFold dalam mod jujukan tunggal.

CARBonAra mempelajari pembungkusan asid amino yang lebih ketat pada teras protein, menghasilkan pemulihan yang lebih tinggi dan mencerminkan toleransi yang lebih rendah untuk penggantian asid amino terkubur biasa sambil membenarkan kebolehubahan yang lebih tinggi pada permukaan protein melainkan Menyediakan kekangan fungsi atau struktur tambahan.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Ilustrasi: Analisis asid amino yang tertimbus di permukaan. (Sumber: Kertas)

Kaedah untuk ramalan jujukan daripada perancah tulang belakang dilatih terutamanya pada data eksperimen dengan geometri tulang belakang yang ideal, yang mengakibatkan penurunan prestasi apabila digunakan pada tulang belakang yang dijana. Menambah bunyi pada geometri semasa latihan boleh mengurangkan masalah ini.

Para penyelidik mencirikan keteguhan kaedah dengan menggunakan CARBonnAra pada trajektori struktur daripada simulasi dinamik molekul (MD). Kadar pemulihan jujukan (53 ± 10%) tidak menurun dengan ketara daripada ramalan konsensus (54 ± 7%) disebabkan oleh perubahan konformasi tulang belakang dan peningkatan dalam kes yang sebelum ini menunjukkan kadar pemulihan yang rendah.

Pada masa yang sama, para penyelidik memerhatikan penurunan umum dalam bilangan kemungkinan asid amino yang diramalkan bagi setiap kedudukan, menunjukkan bahawa penerokaan ruang konformasi mengekang ruang jujukan, membolehkan reka bentuk konformasi struktur yang disasarkan.

Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer

Ilustrasi: Kesan konformasi rantaian utama pada ramalan. (Sumber: Kertas)

Mempunyai implikasi di luar reka bentuk protein itu sendiri

Para penyelidik menjalankan eksperimen ke atas sistem tenaga kerja, TEM-1 serine beta-laktamase, untuk menunjukkan bagaimana CARBonAra menangani cabaran kejuruteraan enzim, mereka bentuk protein sebenar yang lipat pada suhu tinggi dan mengekalkan aktiviti pemangkin. Selain itu, penyelidik meneroka strategi tertumpu untuk mengambil sampel ruang jujukan protein daripada keluaran CARBonnAra.

Memandangkan tidak dapat ditentukan sama ada jujukan protein yang terhasil daripada asid amino pemarkahan tertinggi berfungsi, strategi pensampelan diperlukan untuk menjana protein yang stabil dan berfungsi yang boleh diekspresikan semula secara in vitro.

Ini belum diuji secara menyeluruh setakat ini. Pasukan menunjukkan di sini bahawa strategi pensampelan yang sesuai bukan sahaja boleh menjana maklumat yang kaya untuk menjana protein berfungsi, tetapi juga menjana pelbagai jujukan sintetik yang mencerminkan variasi semula jadi yang diperhatikan dalam jujukan semula jadi atau sampel secara eksperimen melalui mutagenesis dan Perbandingan pemilihan.

Ini mempunyai implikasi di luar reka bentuk protein semata-mata, dan khususnya membuka tetingkap bagaimana protein berkembang dalam rangka model evolusi protein yang konsisten secara biofizikal.

Secara asasnya, meningkatkan kadar kejayaan reka bentuk pengiraan adalah penting untuk benar-benar menguasai bidang ini, dan lebih praktikal, untuk mengurangkan kos apabila mencuba ekspresi dan penulenan sebenar di makmal.

Kadar kejayaan yang sangat tinggi

Sekarang kaedah berasaskan AI mula stabil, ini menjadi titik perbincangan yang penting. Kaedah dan laporan yang berbeza menunjukkan kadar kejayaan yang berbeza-beza, tetapi selalunya tidak jelas cara menilai setiap kaedah.

Chroma membuat penilaian yang sangat konservatif, menetapkan kadar kejayaannya sekitar 3%, manakala kertas RoseTTAFold/ProteinMPNN melaporkan kadar kejayaan purata 15% untuk beberapa protein.

Menggunakan reka bentuk beta-laktamase TEM-1 yang dilaporkan dalam kajian ini, kadar kejayaan sebanyak 40% telah dicapai. Begitu juga, kadar kejayaan lipat TIM dan NTF2 setinggi 40-55%, jauh melebihi purata sebelumnya iaitu 15%.

Sesuai untuk meningkatkan kestabilan terma protein

Selain aplikasi langsung dalam mereka bentuk protein baharu dan menyelaraskan fungsi protein, CARBonAra nampaknya sangat sesuai untuk meningkatkan kestabilan terma, kerana kaedah reka bentuk protein lain juga menghasilkan teguh, Sangat stabil dari segi haba. protein.

Aspek menarik yang didedahkan oleh pemerhatian ini berkaitan dengan hak harta intelek urutan enzim yang direka bentuk yang digunakan untuk menstabilkan proses pembuatan dan perindustrian: Biasanya, enzim yang direka dilindungi dengan cara yang meliputi julat persamaan jujukan Protect yang lebih kecil tetapi agak besar .

Secara sejarah, ini sudah cukup komprehensif; walau bagaimanapun, kaedah reka bentuk protein moden, termasuk CARBonnAra, boleh mereka bentuk protein yang kurang serupa yang mengekalkan fungsi dan sangat stabil.

Kesimpulan

Melihat ke hadapan, CARBonAra mempunyai beberapa kelebihan berbanding kaedah reka bentuk protein lain, terutamanya berkaitan dengan kerja dalamannya hanya berdasarkan nama dan koordinat elemen, tanpa memerlukan sebarang parameterisasi atau pengiraan perantaraan lanjut.

Oleh itu, CARBonAra kelihatan lebih fleksibel berbanding alternatif lain. Kerana ia boleh menyelesaikan pada dasarnya apa-apa jenis sistem molekul, ia boleh dilatih mengenai jenis biomolekul lain (seperti asid nukleik, molekul kecil, ion, dan juga air) atau molekul yang tidak terdapat dalam himpunan biologi (seperti bahan dan permukaan). Premisnya ialah terdapat data yang mencukupi.

Ringkasnya, CARBonAra adalah unik berdasarkan data struktur dan merupakan pendekatan konsep yang berbeza untuk ramalan dan reka bentuk jujukan protein, dengan fleksibiliti tambahan yang diperlukan untuk menangani cabaran masa depan dalam reka bentuk molekul dan biologi sintetik.

Pautan kertas:https://www.nature.com/articles/s41467-024-50571-y

Das obige ist der detaillierte Inhalt vonNature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn