Heim > Artikel > Technologie-Peripheriegeräte > Weltneuheit: Der neue Open-Source-KI-Algorithmus von Molecular Heart zur Überwindung der Probleme der Proteinseitenkettenvorhersage und des Sequenzdesigns
Die Bildung der Proteinstruktur und -funktion hängt weitgehend von der Wechselwirkung zwischen Seitenkettenatomen ab. Daher ist die genaue Proteinseitenkettenvorhersage (PSCP) ein Schlüsselelement bei der Lösung der Probleme der Proteinstrukturvorhersage und des Proteindesigns. Frühere Proteinstrukturvorhersagen konzentrierten sich jedoch hauptsächlich auf die Hauptkettenstruktur, und die Vorhersage der Seitenkettenstruktur war schon immer ein schwieriges Problem, das nicht vollständig gelöst wurde.
Kürzlich hat das Team von Molecular Heart Ein KI-Algorithmus, der gleichzeitig eine Proteinseitenkettenvorhersage und ein Sequenzdesign durchführen kann.
Das Papier wurde in den Proceedings of the National Academy of Sciences (PNAS) veröffentlicht und das vorab trainierte Modell, der Quellcode und die Inferenzskripte wurden als Open Source auf Github bereitgestellt. ?? Quelllink:https:/ / github.com/MattMcPartlon/AttnPacker
Hintergrund
Konkret führt AttnPacker eine Tiefenkartenkonverterarchitektur ein, die die geometrischen und relationalen Aspekte von PSCP nutzt. Inspiriert von AlphaFold2 schlägt Molecular Heart positionsbewusste Dreiecksaktualisierungen vor, um paarweise Merkmale mithilfe eines graphbasierten Frameworks zur Berechnung der Dreiecksaufmerksamkeit und multiplikativer Aktualisierungen zu optimieren. Mit diesem Ansatz verfügt AttnPacker über deutlich weniger Speicher und ein Modell mit höherer Kapazität. Darüber hinaus untersucht Molecular Heart mehrere SE (3) äquivariante Aufmerksamkeitsmechanismen und schlägt eine äquivariante Transformatorarchitektur für das Lernen aus 3D-Punkten vor.
AttnPacker führt den Prozess aus. Die Koordinaten und die Sequenz des Proteinrückgrats werden als Eingabe verwendet, und die räumliche Merkmalskarte und die Äquivariablenbasis werden basierend auf den Koordinateninformationen abgeleitet. Die Feature-Map wird vom invarianten Graph-Transformer-Modul verarbeitet und dann an einen äquivarianten TFN-Transformer übergeben, der vorhergesagte Seitenkettenkoordinaten, Konfidenzwerte für jeden Rest und optionale Designsequenzen ausgibt. Die vorhergesagten Koordinaten werden nachbearbeitet, um alle räumlichen Konflikte zu beseitigen und eine idealisierte Geometrie sicherzustellen. In Bezug auf die Vorhersageleistung zeigt AttnPacker Verbesserungen in der Genauigkeit und Effizienz sowohl für natürliche als auch für nicht-natürliche Backbone-Strukturen. Gleichzeitig ist die physikalische Machbarkeit gewährleistet, Abweichungen von idealen Bindungslängen und -winkeln sind vernachlässigbar und es entsteht nur eine minimale atomare sterische Hinderung. Molecular Heart führt Vergleichstests mit AttnPacker und den aktuellen hochmodernen Methoden – SCWRL4, FASPR, RosettaPacker und DLPacker – an den natürlichen und nicht-nativen Protein-Backbone-Datensätzen CASP13 und CASP14 durch. Die Ergebnisse zeigen, dass AttnPacker herkömmliche Methoden zur Vorhersage von Proteinseitenketten auf nativen CASP13- und CASP14-Backbones deutlich übertrifft, wobei die durchschnittlichen Rekonstruktions-RMSDs bei jedem Testsatz um mehr als 18 % niedriger sind als bei der suboptimalen Methode. AttnPacker übertrifft auch die Deep-Learning-Methode DLPacker, indem es den durchschnittlichen RMSD um mehr als 11 % reduziert und gleichzeitig die Genauigkeit der Sidechain-Dieder deutlich verbessert. Zusätzlich zur Genauigkeit weist AttnPacker deutlich weniger Atomkollisionen auf als andere Methoden.
Die Ergebnisse der Vorhersage der Seitenkettenstruktur jedes Algorithmus für die CASP13- und CASP14-Zielproteine, wenn die natürliche Hauptkettenstruktur angegeben ist. Sternchen zeigen an, dass die durchschnittlichen Konfliktwerte niedriger sind als die native Struktur – 56,0, 5,9 und 0,4 für CASP13 und 80,4, 7,9 und 2,5 für CASP14. Auf nicht-nativen CASP13- und CASP14-Backbones ist AttnPacker auch deutlich besser als andere Methoden, und die atomaren Kollisionen sind auch deutlich geringer als bei anderen Methoden.
Die Ergebnisse der Vorhersage der Seitenkettenstruktur jedes Algorithmus für die CASP13- und CASP14-Zielproteine, wenn die nicht-natürliche Grundgerüststruktur angegeben ist. Sternchen zeigen an, dass die durchschnittlichen Konfliktwerte niedriger sind als die entsprechenden nativen Strukturen – 34,6, 2,2, 0,5 für CASP13 und 40,0, 2,7, 0,7 für CASP14. Innovativer Verzicht auf diskrete Rotamer-Bibliotheken und rechenintensive Konformationssuch- und Probenahmeschritte und direkte Kombination der 3D-Geometrie der Hauptkette, um alle Seitenkettenkoordinaten parallel zu berechnen. Im Vergleich zu der auf Deep Learning basierenden Methode DLPacker und der auf traditionellen Computermethoden basierenden RosettaPacker hat AttnPacker die Recheneffizienz deutlich verbessert und die Inferenzzeit um mehr als das Hundertfache verkürzt. Zeitvergleich verschiedener PSCP-Methoden. Rekonstruktion der relativen Zeiten der Seitenkettenatome für alle 83 CASP13-Zielproteine. AttnPacker schneidet beim Proteindesign ebenso gut ab. Molecular Heart hat eine AttnPacker-Variante für das Co-Design trainiert, die native Sequenzwiederherstellungsraten erreicht, die mit aktuellen Methoden auf dem neuesten Stand der Technik vergleichbar sind, und gleichzeitig hochpräzise Baugruppen produziert. Die Validierung der Rosetta-Simulation zeigt, dass von AttnPacker entworfene Strukturen im Allgemeinen subnative (niedrigere) Rosetta-Energien erzeugen.
Vergleich von nativen Proteinsequenzen und von AttnPacker generierten Sequenzen unter Verwendung der ESMFold scTM- und plDDT-Metriken zur Bewertung der Qualität der AttnPacker-Generierung. Die Ergebnisse zeigten eine starke Korrelation. Zusätzlich zu seiner erstaunlichen Effektivität und Effizienz hat AttnPaker auch einen sehr praktischen Wert – es ist sehr einfach zu bedienen. Für die Ausführung von AttnPaker ist lediglich eine Proteinstrukturdatei erforderlich. Im Gegensatz dazu erfordert OPUS-Rota4 (28) eine Voxeldarstellung der atomaren Umgebung von DLPacker, Logik, Sekundärstruktur von trRosetta100 und Einschränkungsdateien von der OPUS-CM-Ausgabe. Da AttnPacker außerdem Seitenkettenkoordinaten direkt vorhersagt, ist die Ausgabe vollständig differenzierbar, was nachgelagerte Vorhersageaufgaben wie Optimierung oder Protein-Protein-Wechselwirkungen erleichtert. „Die Vorteile des guten Vorhersageeffekts, der hohen Effizienz und der Benutzerfreundlichkeit begünstigen den weit verbreiteten Einsatz von AttnPacker in Forschungs- und Industriebereichen“, sagte Professor Xu Jinbo. 1. AttnPacker ist ein SE (3)-Äquivariantenmodell, das zur direkten Vorhersage der Proteinseitenkettenstruktur und des Proteinsequenzdesigns verwendet werden kann arbeiten. 2. Die Genauigkeit von AttnPacker ist besser als bei anderen Methoden, die Effizienz ist erheblich verbessert und die Verwendung ist äußerst einfach. Effekt
Zusammenfassung
Das obige ist der detaillierte Inhalt vonWeltneuheit: Der neue Open-Source-KI-Algorithmus von Molecular Heart zur Überwindung der Probleme der Proteinseitenkettenvorhersage und des Sequenzdesigns. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!