Rumah >Peranti teknologi >AI >Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

王林
王林asal
2024-08-08 21:22:30590semak imbas

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

Editor |. KX

Sehingga hari ini, perincian struktur dan ketepatan yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen.

Para penyelidik di Universiti Copenhagen, Denmark, telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menjana peta ketumpatan elektron yang tepat. .

Penyelidikan menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Ab initio tradisional kaedah biasanya memerlukan resolusi atom.

Penyelidikan berkaitan bertajuk "PhAI: Pendekatan pembelajaran mendalam untuk menyelesaikan masalah fasa kristalografi" dan diterbitkan dalam "Sains" pada 1 Ogos.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

Pautan kertas: https://www.science.org/doi/10.1126/science.adn2777

Krystallografi ialah salah satu teknik analisis teras dalam sains semula jadi. Penghabluran sinar-X memberikan pandangan unik ke dalam struktur tiga dimensi kristal.

Untuk membina semula peta ketumpatan elektron, faktor struktur kompleks yang cukup $F$ bagi pantulan difraksi mesti diketahui. Dalam eksperimen tradisional, hanya amplitud $|F|$ diperolehi, manakala fasa $phi$ hilang. Ini adalah masalah fasa kristalografi.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

Ilustrasi: Carta alir penentuan struktur kristal standard. (Sumber: Kertas)

Satu kejayaan besar berlaku pada tahun 1950-an dan 1960-an, apabila Karle dan Hauptmann** membangunkan kaedah langsung yang dipanggil untuk menyelesaikan masalah fasa. Tetapi kaedah langsung memerlukan data pembelauan resolusi atom. Walau bagaimanapun, keperluan resolusi atom adalah pemerhatian empirikal.

Dalam beberapa tahun kebelakangan ini, kaedah langsung tradisional telah ditambah dengan kaedah dwi ruang. Kaedah ab initio yang tersedia pada masa ini nampaknya telah mencapai hadnya. Penyelesaian umum kepada masalah fasa masih tidak diketahui.

Secara matematik, sebarang gabungan amplitud dan fasa faktor struktur boleh tertakluk kepada transformasi Fourier songsang. Walau bagaimanapun, keperluan fizikal dan kimia (seperti mempunyai taburan ketumpatan elektron seperti atom) mengenakan peraturan ke atas kemungkinan gabungan fasa yang konsisten dengan set amplitud. Kemajuan dalam pembelajaran mendalam membolehkan seseorang meneroka hubungan ini, mungkin dengan lebih mendalam daripada kaedah ab initio semasa.

Di sini, penyelidik dari Universiti Copenhagen mengambil pendekatan dipacu data, menggunakan berjuta-juta struktur kristal buatan dan data pembelauannya yang sepadan, bertujuan untuk menyelesaikan masalah fasa dalam kristalografi.

Kajian menunjukkan kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh dilakukan pada resolusi hanya jarak satah kekisi minimum (dmin) = 2.0 Å menggunakan hanya data yang diperlukan oleh kaedah langsung 10% hingga 20% .

Reka bentuk dan Latihan Rangkaian Neural

Rangkaian saraf tiruan yang dibina dipanggil PhAI, yang menerima amplitud faktor struktur |F| dan mengeluarkan nilai fasa yang sepadan ϕ Seni bina PhAI ditunjukkan dalam rajah di bawah.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam SainsIlustrasi: Kaedah rangkaian neural PhAI menyelesaikan masalah fasa. (Sumber: Kertas) Bilangan faktor struktur dalam struktur kristal bergantung pada saiz sel unit. Bergantung pada sumber pengkomputeran, had diletakkan pada saiz data input. Amplitud faktor struktur input dipilih berdasarkan indeks Miller (h, k, l) yang mematuhi

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains1.

Iaitu, struktur terhad kepada dimensi sel unit kira-kira 10 Å pada resolusi atom. Tambahan pula, kumpulan ruang centrosymmetric yang paling biasa P21/c telah dipilih. Simetri pusat mengehadkan nilai fasa yang mungkin kepada sifar atau π rad.
  1. Forschung zum Training neuronaler Netze mithilfe künstlicher Kristallstrukturen, die hauptsächlich organische Moleküle enthalten. Es entstanden etwa 49.000.000 Strukturen, davon waren 94,29 % organische Kristallstrukturen, 5,66 % metallorganische Kristallstrukturen und 0,05 % anorganische Kristallstrukturen.
  2. Die Eingabe in das neuronale Netzwerk besteht aus Amplitude und Phase, die von einem Faltungseingabeblock verarbeitet, addiert und in eine Reihe von Faltungsblöcken (Conv3D) eingespeist werden, gefolgt von einer Reihe von Multilayer-Perceptron-Blöcken (MLP). Die vom linearen Klassifikator (Phasenklassifikator) vorhergesagte Phase durchläuft das Netzwerk Nc-mal. Trainingsdaten wurden durch Einfügen von Metallatomen und organischen Molekülen aus der GDB-13-Datenbank in Elementarzellen generiert. Die resultierenden Strukturen werden in Trainingsdaten organisiert, aus denen die wahren Phasen- und Strukturfaktoramplituden bei abgetasteten Temperaturfaktoren, Auflösung und Integrität berechnet werden können.
    Lösen Sie echte Strukturprobleme
  3. Trainierte neuronale Netze laufen auf Standardcomputern mit moderatem Rechenaufwand. Als Eingabe akzeptiert es eine Liste von HKL-Indizes und entsprechenden Strukturfaktoramplituden. Es sind keine weiteren Eingabeinformationen erforderlich, nicht einmal die Elementarzellenparameter der Struktur. Dies unterscheidet sich grundlegend von allen anderen modernen Ab-initio-Methoden. Das Netzwerk kann Phasenwerte im laufenden Betrieb vorhersagen und ausgeben.
  4. Die Forscher testeten die Leistung des neuronalen Netzwerks anhand berechneter Beugungsdaten realer Kristallstrukturen. Insgesamt wurden 2387 Testfälle erhalten. Für alle gesammelten Strukturen wurden mehrere Datenauflösungswerte im Bereich von 1,0 bis 2,0 Å berücksichtigt. Zum Vergleich wurde auch eine Ladungsumkehrmethode verwendet, um Phaseninformationen abzurufen.

    Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains

    Abbildung: Histogramm des Korrelationskoeffizienten r zwischen der Phase und der wahren Elektronendichtekarte.
    (Quelle: Paper)

Das trainierte neuronale Netzwerk leistet gut; Es kann alle getesteten Strukturen (N = 2387) lösen, wenn die entsprechenden Beugungsdaten eine gute Auflösung haben, und ist besser in der Lage, Strukturen aus Daten mit niedriger Auflösung zu lösen Hervorragende Leistung. Obwohl ein neuronales Netzwerk selten auf anorganische Strukturen trainiert wird, kann es solche Strukturen perfekt lösen.

Die Charge-Flip-Methode funktioniert bei der Verarbeitung hochauflösender Daten gut, ihre Fähigkeit, einigermaßen korrekte Lösungen zu erzeugen, nimmt jedoch mit abnehmender Datenauflösung allmählich ab. Sie löst jedoch immer noch etwa 32 Pixel bei einer Auflösung von 1,6 Å % Struktur. Die Anzahl der durch Ladungsumkehr identifizierten Strukturen kann durch weitere Experimente und die Änderung von Eingabeparametern wie Umdrehungsschwellenwerten verbessert werden.

Beim PhAI-Ansatz wird diese Metaoptimierung während des Trainings durchgeführt und muss nicht vom Benutzer durchgeführt werden. Diese Ergebnisse legen nahe, dass die in der Kristallographie verbreitete Vorstellung, dass Daten zur atomaren Auflösung erforderlich sind, um Phasen von Anfang an zu berechnen, möglicherweise widerlegt wird. PhAI erfordert nur Daten mit einer atomaren Auflösung von 10 bis 20 %.

Dieses Ergebnis zeigt deutlich, dass eine atomare Auflösung für Ab-initio-Methoden nicht erforderlich ist und eröffnet neue Wege für die Deep-Learning-basierte Strukturbestimmung.

Die Herausforderung dieses Deep-Learning-Ansatzes besteht darin, das neuronale Netzwerk zu skalieren, d. h. Beugungsdaten für größere Elementarzellen erfordern eine große Menge an Eingabe- und Ausgabedaten sowie Rechenaufwand während des Trainings. Zukünftig sind weitere Untersuchungen erforderlich, um diese Methode auf den allgemeinen Fall auszuweiten.

Atas ialah kandungan terperinci Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn