Heim >Technologie-Peripheriegeräte >KI >Weltneuheit: Der neue Open-Source-KI-Algorithmus von Molecular Heart zur Überwindung der Probleme der Proteinseitenkettenvorhersage und des Sequenzdesigns

Weltneuheit: Der neue Open-Source-KI-Algorithmus von Molecular Heart zur Überwindung der Probleme der Proteinseitenkettenvorhersage und des Sequenzdesigns

WBOY
WBOYnach vorne
2023-06-05 18:10:271200Durchsuche

Die Bildung der Proteinstruktur und -funktion hängt weitgehend von der Wechselwirkung zwischen Seitenkettenatomen ab. Daher ist die genaue Proteinseitenkettenvorhersage (PSCP) ein Schlüsselelement bei der Lösung der Probleme der Proteinstrukturvorhersage und des Proteindesigns. Frühere Proteinstrukturvorhersagen konzentrierten sich jedoch hauptsächlich auf die Hauptkettenstruktur, und die Vorhersage der Seitenkettenstruktur war schon immer ein schwieriges Problem, das nicht vollständig gelöst wurde.

Kürzlich hat das Team von Molecular Heart Ein KI-Algorithmus, der gleichzeitig eine Proteinseitenkettenvorhersage und ein Sequenzdesign durchführen kann.

Das Papier wurde in den Proceedings of the National Academy of Sciences (PNAS) veröffentlicht und das vorab trainierte Modell, der Quellcode und die Inferenzskripte wurden als Open Source auf Github bereitgestellt. ?? Quelllink:https:/ / github.com/MattMcPartlon/AttnPacker

Hintergrund全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

Proteine ​​werden aus mehreren Aminosäuren gefaltet und ihre Strukturen sind in Hauptketten und Seitenketten unterteilt. Unterschiede in den Seitenketten haben einen großen Einfluss auf die Struktur und Funktion von Proteinen, insbesondere auf die biologische Aktivität. Basierend auf einem klaren Verständnis der Seitenkettenstruktur können Wissenschaftler die dreidimensionale Struktur von Proteinen genauer bestimmen, Protein-Protein-Wechselwirkungen analysieren und rationales Proteindesign durchführen. Bei der Anwendung auf dem Gebiet des Arzneimitteldesigns können Wissenschaftler schnell und genauer geeignete Bindungsstellen für Arzneimittel und Rezeptoren finden und bei Bedarf sogar Bindungsstellen optimieren oder entwerfen. Im Bereich der Enzymoptimierung können Wissenschaftler Sequenzen optimieren, die mehrere Seitenketten ermöglichen an katalytischen Reaktionen teilzunehmen, um effizientere und spezifischere katalytische Effekte zu erzielen.

  • Die meisten aktuellen Algorithmen zur Vorhersage der Proteinstruktur konzentrieren sich hauptsächlich auf die Strukturanalyse der Hauptkette, aber die Vorhersage der Proteinseitenkettenstruktur ist immer noch ein Problem, das nicht vollständig gelöst wurde. Unabhängig davon, ob es sich um beliebte Algorithmen zur Vorhersage der Proteinstruktur wie AlphaFold2 oder um Algorithmen mit Fokus auf die Vorhersage der Seitenkettenstruktur wie DLPacker und RosettaPacker handelt, sind weder die Genauigkeit noch die Geschwindigkeit zufriedenstellend. Dies bringt auch Einschränkungen für das Proteindesign mit sich.
  • Traditionelle Methoden wie RosettaPacker verwenden hauptsächlich Methoden zur Energieoptimierung, bei denen zunächst die Verteilung der Seitenkettenatome gruppiert wird und dann die Gruppierung der Seitenketten nach einer bestimmten Aminosäure durchsucht wird, um die Kombination mit der kleinsten Energie zu finden. Diese Methoden unterscheiden sich in erster Linie von der Auswahl der Rotamer-Bibliotheken, Energiefunktionen und Energieminimierungsverfahren durch den Forscher, wobei die Genauigkeit durch die Verwendung von Suchheuristiken und diskreten Stichprobenverfahren begrenzt ist. In der Branche gibt es auch Side-Chain-Vorhersagemethoden, die auf Deep Learning basieren, beispielsweise DLPacker, das PSCP als Bild-zu-Bild-Konvertierungsproblem formuliert und eine U-Net-Modellstruktur übernimmt. Allerdings sind die Vorhersagegenauigkeit und -geschwindigkeit noch nicht optimal.
  • Methode
  • AttnPacker ist eine End-to-End-Deep-Learning-Methode zur Vorhersage von Proteinseitenkettenkoordinaten. Es simuliert gemeinsam Seitenkettenwechselwirkungen mit direkt vorhergesagten Seitenkettenstrukturen, die physikalisch besser realisierbar sind, mit weniger Atomkollisionen und idealeren Bindungslängen und -winkeln.

Konkret führt AttnPacker eine Tiefenkartenkonverterarchitektur ein, die die geometrischen und relationalen Aspekte von PSCP nutzt. Inspiriert von AlphaFold2 schlägt Molecular Heart positionsbewusste Dreiecksaktualisierungen vor, um paarweise Merkmale mithilfe eines graphbasierten Frameworks zur Berechnung der Dreiecksaufmerksamkeit und multiplikativer Aktualisierungen zu optimieren. Mit diesem Ansatz verfügt AttnPacker über deutlich weniger Speicher und ein Modell mit höherer Kapazität. Darüber hinaus untersucht Molecular Heart mehrere SE (3) äquivariante Aufmerksamkeitsmechanismen und schlägt eine äquivariante Transformatorarchitektur für das Lernen aus 3D-Punkten vor.

AttnPacker führt den Prozess aus. Die Koordinaten und die Sequenz des Proteinrückgrats werden als Eingabe verwendet, und die räumliche Merkmalskarte und die Äquivariablenbasis werden basierend auf den Koordinateninformationen abgeleitet. Die Feature-Map wird vom invarianten Graph-Transformer-Modul verarbeitet und dann an einen äquivarianten TFN-Transformer übergeben, der vorhergesagte Seitenkettenkoordinaten, Konfidenzwerte für jeden Rest und optionale Designsequenzen ausgibt. Die vorhergesagten Koordinaten werden nachbearbeitet, um alle räumlichen Konflikte zu beseitigen und eine idealisierte Geometrie sicherzustellen.

Effekt

In Bezug auf die Vorhersageleistung zeigt AttnPacker Verbesserungen in der Genauigkeit und Effizienz sowohl für natürliche als auch für nicht-natürliche Backbone-Strukturen. Gleichzeitig ist die physikalische Machbarkeit gewährleistet, Abweichungen von idealen Bindungslängen und -winkeln sind vernachlässigbar und es entsteht nur eine minimale atomare sterische Hinderung.

Molecular Heart führt Vergleichstests mit AttnPacker und den aktuellen hochmodernen Methoden – SCWRL4, FASPR, RosettaPacker und DLPacker – an den natürlichen und nicht-nativen Protein-Backbone-Datensätzen CASP13 und CASP14 durch. Die Ergebnisse zeigen, dass AttnPacker herkömmliche Methoden zur Vorhersage von Proteinseitenketten auf nativen CASP13- und CASP14-Backbones deutlich übertrifft, wobei die durchschnittlichen Rekonstruktions-RMSDs bei jedem Testsatz um mehr als 18 % niedriger sind als bei der suboptimalen Methode. AttnPacker übertrifft auch die Deep-Learning-Methode DLPacker, indem es den durchschnittlichen RMSD um mehr als 11 % reduziert und gleichzeitig die Genauigkeit der Sidechain-Dieder deutlich verbessert. Zusätzlich zur Genauigkeit weist AttnPacker deutlich weniger Atomkollisionen auf als andere Methoden.

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

Die Ergebnisse der Vorhersage der Seitenkettenstruktur jedes Algorithmus für die CASP13- und CASP14-Zielproteine, wenn die natürliche Hauptkettenstruktur angegeben ist. Sternchen zeigen an, dass die durchschnittlichen Konfliktwerte niedriger sind als die native Struktur – 56,0, 5,9 und 0,4 für CASP13 und 80,4, 7,9 und 2,5 für CASP14.

Auf nicht-nativen CASP13- und CASP14-Backbones ist AttnPacker auch deutlich besser als andere Methoden, und die atomaren Kollisionen sind auch deutlich geringer als bei anderen Methoden.

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

Die Ergebnisse der Vorhersage der Seitenkettenstruktur jedes Algorithmus für die CASP13- und CASP14-Zielproteine, wenn die nicht-natürliche Grundgerüststruktur angegeben ist. Sternchen zeigen an, dass die durchschnittlichen Konfliktwerte niedriger sind als die entsprechenden nativen Strukturen – 34,6, 2,2, 0,5 für CASP13 und 40,0, 2,7, 0,7 für CASP14.

Innovativer Verzicht auf diskrete Rotamer-Bibliotheken und rechenintensive Konformationssuch- und Probenahmeschritte und direkte Kombination der 3D-Geometrie der Hauptkette, um alle Seitenkettenkoordinaten parallel zu berechnen. Im Vergleich zu der auf Deep Learning basierenden Methode DLPacker und der auf traditionellen Computermethoden basierenden RosettaPacker hat AttnPacker die Recheneffizienz deutlich verbessert und die Inferenzzeit um mehr als das Hundertfache verkürzt.

Zeitvergleich verschiedener PSCP-Methoden. Rekonstruktion der relativen Zeiten der Seitenkettenatome für alle 83 CASP13-Zielproteine.

AttnPacker schneidet beim Proteindesign ebenso gut ab. Molecular Heart hat eine AttnPacker-Variante für das Co-Design trainiert, die native Sequenzwiederherstellungsraten erreicht, die mit aktuellen Methoden auf dem neuesten Stand der Technik vergleichbar sind, und gleichzeitig hochpräzise Baugruppen produziert. Die Validierung der Rosetta-Simulation zeigt, dass von AttnPacker entworfene Strukturen im Allgemeinen subnative (niedrigere) Rosetta-Energien erzeugen.

全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题

Vergleich von nativen Proteinsequenzen und von AttnPacker generierten Sequenzen unter Verwendung der ESMFold scTM- und plDDT-Metriken zur Bewertung der Qualität der AttnPacker-Generierung. Die Ergebnisse zeigten eine starke Korrelation.

Zusätzlich zu seiner erstaunlichen Effektivität und Effizienz hat AttnPaker auch einen sehr praktischen Wert – es ist sehr einfach zu bedienen. Für die Ausführung von AttnPaker ist lediglich eine Proteinstrukturdatei erforderlich. Im Gegensatz dazu erfordert OPUS-Rota4 (28) eine Voxeldarstellung der atomaren Umgebung von DLPacker, Logik, Sekundärstruktur von trRosetta100 und Einschränkungsdateien von der OPUS-CM-Ausgabe. Da AttnPacker außerdem Seitenkettenkoordinaten direkt vorhersagt, ist die Ausgabe vollständig differenzierbar, was nachgelagerte Vorhersageaufgaben wie Optimierung oder Protein-Protein-Wechselwirkungen erleichtert. „Die Vorteile des guten Vorhersageeffekts, der hohen Effizienz und der Benutzerfreundlichkeit begünstigen den weit verbreiteten Einsatz von AttnPacker in Forschungs- und Industriebereichen“, sagte Professor Xu Jinbo.

Zusammenfassung

1. AttnPacker ist ein SE (3)-Äquivariantenmodell, das zur direkten Vorhersage der Proteinseitenkettenstruktur und des Proteinsequenzdesigns verwendet werden kann arbeiten.

2. Die Genauigkeit von AttnPacker ist besser als bei anderen Methoden, die Effizienz ist erheblich verbessert und die Verwendung ist äußerst einfach.

Das obige ist der detaillierte Inhalt vonWeltneuheit: Der neue Open-Source-KI-Algorithmus von Molecular Heart zur Überwindung der Probleme der Proteinseitenkettenvorhersage und des Sequenzdesigns. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen