Maison >Périphériques technologiques >IA >Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;
Si vous êtes dans la bioinformatique et l'analyse des données pour la biologie, vous trouverez cet article assez inspirant tout de suite.
Plus largement pour les scientifiques de l'IA, ils trouveront ici des moyens de sonder un LLM en le poussant à halluciner, puis à trouver des moyens de surmonter cette limitation.
La Banque de données protéiques (PDB) sert de référentiel complet pour les données structurelles tridimensionnelles des macromolécules biologiques, fournissant des informations inestimables sur les fondements moléculaires des processus biologiques. Sa simple existence est ce qui a permis à des modèles d'IA comme Alphafold d'être développés!
Voici tous mes articles évalués par des pairs et les blogs sur la modélisation des protéines, CASP et Alphafold 2
"Sparks de l'intuition chimique" - et limitations brutes! - Dans Alphafold 3
La navigation efficace et la recherche d'entrées dans le PDB est essentielle pour les travaux modernes en biologie; Cependant, malgré un moteur de recherche assez complet, plusieurs questions sont difficiles à poser. Mais il s'avère que, comme je l'ai trouvé et le rapport ici, nous pouvons maintenant interroger le PDB avec des demandes de langage naturel parce que, comme vous l'avez vu dans l'article de ce titre, GPT-4O connaît la Banque de données Protein!
À partir de certains tests que j'ai fait par curiosité, j'ai découvert qu'Openai a clairement inclus du contenu PDB (ou du contenu qui inclut les informations PDB, j'en discuterai plus tard) dans la formation de certains de ses modèles de langues grands (LLMS ), au moins dans la formation de GPT-4O. Après avoir découvert cela, je me suis mis à jouer avec cela, puis j'ai associé quelques idées qui sont venues de mes chats avec GPT-4O avec des tests de détermination de la structure en utilisant Alphafold 3.
Ce que j'imagine en fonction de mes résultats, c'est qu'avec les progrès de l'intelligence artificielle, en particulier dans les modèles de traitement du langage naturel, les chercheurs peuvent désormais rechercher plus facilement et ainsi utiliser des informations structurelles pertinentes du PDB. La capacité d'interroger le PDB avec des demandes de langage naturel est assez puissante comme vous le verrez dans les nombreux exemples que je présente, permettant une exploration approfondie des structures biomoléculaires, des complexes et des assemblages, y compris non seulement des protéines pliées mais aussi des acides nucléiques, désordonnés Protéines et petites molécules, toutes avec des liens directs vers des données structurelles validées expérimentalement sous la forme d'entrées PDB associées.
Plus précisément, à travers de nombreux exemples, je vais démontrer comment GPT-4O peut servir à identifier les entrées PDB pertinentes associées à un terme de recherche complexe qui pourrait ne pas fonctionner bien si vous le saisissez simplement dans la zone de recherche régulière disponible sur les sites PDB. Mes exemples couvrent certaines interactions assez pertinentes pour la biologie et la pharmacie, comme GLIVEC (Imatinib, un médicament anticancéreux) lié à diverses cibles kinases, les régions intrinsèquement désordonnées (IDR) engageant avec des partenaires de liaison et les modifications post-traductionnelles (PTM) influençant les interactions. Dans certains exemples, j'explore davantage le potentiel d'utiliser Alphafold 3 pour modéliser ces interactions dans l'espace, fournissant efficacement un pont entre la récupération PDB basée sur LLM et la visualisation 3D.
Dans ce qui suit, j'explique mon enquête en tant que questions posées à GPT-4O, suivies de ses réponses brutes et dans certains cas des images que j'ai préparées à illustrer certaines analyses en aval que j'ai faites sur des exemples sélectionnés.
J'ai demandé à Chatgpt-4o "Connaissez-vous les codes PDB pour un exemple de glivec (imatinib) lié à une kinase?" Et…
Chatgpt a dit:
Oui, GLIVEC (Imatinib) est un inhibiteur bien connu de la tyrosine kinase, et plusieurs structures du PDB le montrent lié à ses kinases cibles. Voici quelques exemples clés:
- Abl Kinase lié à l'imatinib
Code PDB: 1iep
Description: C'est l'une des premières structures montrant l'imatinib lié à la kinase ABL, la cible dans la leucémie myélogène chronique (CML). L'imatinib se lie à la conformation inactive de l'ABL, la stabilisant et empêchant l'activation de la kinase.
Voici mon chèque - je l'ai fait pour tous les exemples fournis par ChatGPT-4O, mais je n'en montre que quelques-uns. Vous voyez ici que PDB 1IEP est un domaine kinase complexé avec Sti-571, qui correspond à l'imatinib dans la spécification du ligand de PDB:
Chatgpt-4o a ensuite poursuivi avec plus d'exemples:
- kinase C-kit lié à l'imatinib
CODE PDB: 1T46
Description: L'imatinib se lie également à la tyrosine kinase du récepteur C-Kit, qui est hyperactive dans certains cancers, y compris les tumeurs stromales gastro-intestinales (GIST). Cette structure montre l'imatinib lié au site de liaison à l'ATP de C-kit, inhibant son activité kinase.
- pdgfr kinase lié à l'imatinib
Code PDB: 1xbb
Description: L'imatinib se lie à la kinase du récepteur du facteur de croissance dérivé des plaquettes (PDGFR), une autre kinase impliquée dans divers cancers. Cette structure montre comment l'imatinib inhibe PDGFR en se liant à sa conformation inactive.
- ABL kinase mutant (T315i) lié à l'imatinib
CODE PDB: 3GVU
Description: Cette structure montre la kinase ABL avec une mutation T315I, qui est associée à une résistance à l'imatinib chez certains patients cancéreux. Cette mutation modifie le site de liaison, réduisant l'efficacité de l'imatinib et met en évidence les mécanismes de résistance aux médicaments.
Ces structures illustrent comment l'imatinib stabilise sélectivement les formes inactives de kinases comme ABL, C-KIT et PDGFR, aidant à contrôler la prolifération cellulaire anormale dans divers cancers.
Cette fois, je l'ai demandé "Connaissez-vous les codes PDB pour un exemple de région intrinsèquement désordonnée liée à une autre protéine?". Et là, il est allé:
Chatgpt a dit:
Oui, il existe plusieurs structures bien caractérisées dans le PDB où une région intrinsèquement désordonnée (IDR) d'une protéine se lie à une autre protéine. Ces IDR adoptent généralement une structure définie lors de la liaison, qui est essentielle pour leurs fonctions de régulation ou de signalisation. Voici quelques exemples bien connus:
- P53 Domaine de transactivation lié à mdm2
Code PDB: 1YCR
Description: Le domaine de transactivation N-terminal de p53, qui est intrinsèquement désordonné, se lie à l'oncoprotéine MDM2. Cette interaction régule la stabilité et la fonction p53.
- e1a de l'adénovirus lié à rb
Code PDB: 1lxe
Description: La protéine E1A intrinsèquement désordonnée de l'adénovirus se lie à la protéine du rétinoblastome (RB), inhibant la fonction de RB dans le contrôle du cycle cellulaire.
- C-Myc Transactivation Domaine lié à TAZ1 de CBP
CODE PDB: 1SB0
Description: Le domaine de transactivation désordonné de C-Myc adopte une structure alpha-hélicoïdale lorsqu'elle se lie au domaine TAZ1 de CBP, un co-activateur transcriptionnel.
- p27kip1 lié à la cycline a / cdk2
CODE PDB: 1JSU
Description: Le P27KIP1 intrinsèquement désordonné se lie et inhibe le complexe cycline A / CDK2 en enroulant autour des sous-unités cycline et CDK. Cette interaction joue un rôle clé dans la régulation du cycle cellulaire.
- ASH1 Région intrinsèquement désordonnée liée au chromodomaine du polycomb
CODE PDB: 2L3J
Description: La région intrinsèquement désordonnée de ASH1 interagit avec le chromodomaine du polycomb (PC), un régulateur du silence transcriptionnel, en adoptant une forme structurée lors de la liaison.
- pkid de CREB lié au domaine Kix de CBP
Code PDB: 1kdx
Description: Le domaine inductible par la kinase phosphorylée (PKID) du CREB, qui est intrinsèquement désordonné, se lie au domaine Kix de CBP. La phosphorylation induit une formation d'hélice alpha dans PKID, stabilisant l'interaction.
- Facteur de transcription ETS1 lié à l'ADN
CODE PDB: 2NNY
Description: La région réglementaire désordonnée de ETS1 est partiellement ordonnée lors de l'ADN de liaison, un exemple de région désordonnée qui adopte la structure lors de l'interaction avec un partenaire non protéique.
- Domaine de dégradation dépendante de l'oxygène HIF-1α lié à VHL
CODE PDB: 1LQB
Description: Le domaine de dégradation dépendant de l'oxygène de HIF-1α, qui est intrinsèquement désordonné, se lie à la protéine Von Hippel-Lindau (VHL). Cette interaction marque HIF-1α pour la dégradation dans des conditions normoxiques.
- protéine tau liée aux microtubules
Code PDB: 5SYF
Description: Tau est une protéine intrinsèquement désordonnée qui interagit avec les microtubules. Lors de la liaison, les régions spécifiques de tau adoptent des conformations structurées, aidant à stabiliser l'assemblage des microtubules.
- HISTONE H1 DÉSEMBLAGE LIGNE À ADN ou HISTONE CHAPERONS
Code PDB: 2lxd
Description: La queue C-terminale désordonnée de l'histone H1 lie l'ADN et les chaperons d'histone, adoptant une structure partielle lors de la liaison. Cette interaction joue un rôle dans le compactage de la chromatine.
Ces structures présentent la propriété "pliage de liaison" de nombreux IDR, où ils adoptent des structures secondaires ou tertiaires spécifiques en présence de leurs partenaires de liaison, facilitant souvent des processus cellulaires critiques comme la signalisation, la régulation et l'expression des gènes.
Je me suis ensuite mis à regarder certains de ces exemples pratiques. PDB 1YCR (première réponse fournie ici par ChatGPT-4O) est une structure de p53, une protéine liée au cancer de diverses manières et qui contient plusieurs résidus désordonnés qui se lient à d'autres protéines. Ici, dans ce fichier PDB, il a été surpris en interaction avec MDM2. Vous voyez cela clair dans la structure expérimentale en haut à gauche de la figure, où un segment court de MDM2 se lie à P53 comme une hélice. Et vous voyez également cela dans la prédiction d'Alphafold 3 pour le complexe complet, ce qui suggère quelques interactions supplémentaires.
Chatgpt a dit:
certainement! Voici plusieurs entrées PDB avec des protéines impliquées dans des interactions médiées par des modifications post-traductionnelles (PTM). Ces structures fournissent un aperçu de la façon dont les PTM comme la phosphorylation, la méthylation et l'acétylation influencent les interactions protéine-protéine.
- Reconnaissance de phosphorylation
14–3–3 protéine lié au peptide phosphorylé
CODE PDB: 1QJA
Description: La structure montre la protéine 14–3–3 liée à un peptide phosphorylé, illustrant comment 14–3–3 reconnaît et se lie aux résidus de phosphosérine.
Domaine BRCT lié au peptide phosphorylé
Code PDB: 1T29
Description: Cette structure présente le domaine BRCA1 BRCT lié à un peptide phosphorylé de Bach1, démontrant comment la phosphorylation est reconnue par les domaines BRCT.
- Reconnaissance de l'ubiquitine
Domaine de liaison à l'ubiquitine de p62 lié à l'ubiquitine
CODE PDB: 3B0F
Description: La structure décrit le domaine UBA (ubiquitine-associé) de p62 lié à l'ubiquitine, soulignant comment p62 reconnaît et lie les substrats polyubiquitinés pour l'autophagie.
- Reconnaissance de méthylation
Le chromodomaine de HP1 lié à l'histone méthylée
CODE PDB: 3C1A
Description: Le chromodomaine HP1 interagit avec un peptide histone triméthylé H3K9, présentant comment la méthylation sur les histones est reconnue et contribue à la régulation transcriptionnelle.
- Reconnaissance d'acétylation
L'histone acétylée H4 liée au bromodomaine
CODE PDB: 3MXF
Description: Cette structure présente le bromodomaine de la protéine BET BRD4 lié à une queue d'histone H4 acétylée, illustrant comment l'acétylation des histones est reconnue et intervient sur les interactions de la chromatine.
- NEDDYLATION RECONDITION
Cullin-Ring E3 ligase lié à Nedd8
CODE PDB: 2ZVJ
Description: La structure montre l'interaction entre une ligase E3 Cullin-Ring et la modification NEDD8, mettant en évidence le rôle de la néddylation dans le système ubiquitine-protéasome.
- phosphorylation de p27kip1 et de liaison cycline-cdk
CDK2-cycline Un complexe lié au p27kip1
phosphorylé p27kip1CODE PDB:
1JSUDescription: Cette structure montre le complexe cycline A / CDK2 interagissant avec la forme phosphorylée de p27kip1, démontrant comment la phosphorylation module la liaison et l'inhibition des kinases dépendant de la cycline.
- glycosylation
Domaine de lectine de la concanavaline A lié à la glycoprotéine mannosylée
Code PDB: 3fqz
Description: Cette structure présente la concanavaline A, une lectine végétale, liée à une glycoprotéine mannosylée, illustrant comment la glycosylation peut médier les interactions protéine-protéine.
- phosphorylation du facteur de transcription ETS1
ets1 lié à l'ADN
Code PDB: 2nny
DESCRIPTION: La région régulatrice désordonnée de ETS1 est partiellement commandée lors de la liaison de l'ADN, montrant comment la phosphorylation affecte sa capacité à interagir avec les séquences cibles.
- acétylation de p53
p53 acétylé lié à mdm2
Code PDB: 1YCR
Description: L'interaction entre p53 acétylé et MDM2 illustre comment l'acétylation peut affecter la stabilité et la régulation de p53, un suppresseur de tumeur critique.
- sumoylation
sumo-1 lié à un motif d'interaction à sumo
CODE PDB: 4C0N
Description: Cette structure montre une protéine contenant un motif d'interaction au sumo lié à SUMO-1, soulignant comment la sumoylation régule diverses interactions protéiques.
PDB 1QJA (première réponse fournie par ChatGPT-4O) est une structure de la protéine appelée 14–3–3 liée à un peptide avec une phosphorylation (atome de P entouré de 4 atomes O). Dans l'image ci-dessous, les structures 3D correspondent au complexe observé entre la protéine et le peptide phosphorylé (gauche: vue complète, à droite: zoomer sur le phosphate). Vous pouvez voir comment le groupe de phosphate établit plusieurs contacts (lignes pointillées). Les graphiques 2D verts ci-dessous sont des parcelles PAE d'Alphafold 3, montrant de meilleures statistiques (plus vertes) pour le peptide interagissant avec la protéine lorsque le groupe phosphate est présent (à droite).
Étant donné qu'Openai n'a pas répondu à cela lorsque j'ai demandé par e-mail, je viens de demander à Chatgpt-4o lui-même. Et la réponse est… un peu, mais pas tout à fait!
Ce que j'ai obtenu de Chatgpt, c'est qu'il était pas explicitement formé avec des entrées PDB (ce qui aurait été bien, car ils contiennent des résumés de papier et des tonnes d'autres données pour chaque entrée PDB). Cependant, Chatgpt a expliqué que son matériel de formation comprenait des articles, des préparations, des résumés et des documents éducatifs qui faisaient référence à ces entrées PDB; Et c'est comme ça que cela a appris sur un grand nombre d'entrées PDB.
Si ce qui précède est correct, c'est-à-dire si GPT-4O n'a pas été formé avec le PDB lui-même, mais avec des papiers et autres documents se référant à certaines structures PDB, alors il pourrait parfaitement arriver qu'il ne sache pas sur de nombreuses structures, Surtout ceux qui ne sont liés à aucun article. Suivant cette idée, je me suis mis à interroger Chatgpt-4o un peu plus profondément et à essayer de l'exposer.
Il m'a fallu un certain temps pour le casser, mais finalement j'ai réussi. Sur ma première question comme "Connaissez-vous PDB ID 1ci0?" (que le PDB montre non lié à aucun article), j'ai obtenu une réponse en toute confiance, mais à tort que cette entrée "décrit un cytochrome C553 de Desulfovibrio vulgaris ". L'entrée PDB explique cependant qu'il s'agit d'une autre protéine qui n'est ni un cytochrome C ni n'appartient à DESULFOVIBRIO VULGARIS .
Maintenant, c'est mauvais, très mauvais comme avec toutes les hallucinations. Mais encourageant, si je demande à Chatgpt-4o de faire une recherche en ligne (notez que le PDB est totalement ouvert), il distille les informations correctes:
L'ID PDB 1CI0 fait référence à la structure cristalline de pyridoxine-5′-phosphate (PNP) oxydase de Saccharomyces cerevisiae (levure du brasseur). Cette enzyme est classée comme une oxydoréductase et joue un rôle clé dans la voie métabolique de la vitamine B6. Il facilite la conversion de la pyridoxine-5′-phosphate en pyridoxal-5′-phosphate, une forme active de vitamine B6.
La structure a été déterminée en utilisant la diffraction des rayons X à une résolution de 2,7 Å, l'assemblage biologique étant un homo-dimère. L'expérience a été réalisée en utilisant des cristaux dérivés d'une protéine recombinante exprimée dans Escherichia coli . La structure comprend deux chaînes de protéines et est liée au mononucléotide Flavin Cofacteur (FMN), qui est crucial pour son activité enzymatique.
Cette entrée a été déposée en 1999 par Shi et al. et est souvent utilisé pour étudier les mécanismes de biosynthèse de la vitamine B6 et les applications potentielles en biotechnologie ou médecine 【7 】【 8 】【 10】.
… qui reflète essentiellement toutes les informations disponibles pour cette entrée au PDB et elle est en fait plus agréable que car elle explique l'acronyme et les noms courts comme "PNP" et nettoie toutes les données - comparez simplement avec le PDB Entrée:
Ma conclusion avec cette dernière expérience est qu'en dépit d'être parfaitement sujette à l'hallucination, la vérification croisée en forçant le chatppt à la recherche des entrées en ligne pourrait probablement surmonter ses problèmes d'hallucination.
Comme avec tous ces outils d'IA, nous avons besoin de prudence, mais l'approche de recherche est probablement fiable - mais avant de tirer des conclusions très spécifiques, vous feriez mieux de recouper la sortie du LLM vous-même.
Grâce à cette exploration, je visais à illustrer comment la biologie structurelle expérimentale, la modélisation moléculaire avec des outils comme Alphafold 3 et des LLM comme GPT-4O, peuvent converger, permettant aux chercheurs de rechercher et d'analyser les structures moléculaires de manière nouvelle, tous grâce à OpenAI y compris le contenu sur le PDB dans son ensemble de données de formation. D'après les problèmes d'hallucination que nous avons vus dans la dernière section, je propose que l'inclusion d'informations pour les entrées PDB explicitement sur la formation LLM puisse porter tout cela à un nouveau niveau, fonctionnant mieux et plus précisément. Pourtant, avec l'approche de recherche testée ci-dessus, on peut probablement travailler en sécurité que le LLM ne sera pas gaillé dans de fausses informations.
Je pense qu'en tirant parti de ces ressources combinées, les scientifiques peuvent beaucoup plus rapidement et mieux se familiariser avec la gamme de structures disponibles en relation avec un sujet donné; Probablement le plus utile lors du passage dans un nouveau sous-domaine spécifique de la biologie.
Je pense également que ces ressources jettent les bases de plus grâce à la façon dont les LLM et Alphafold 3 (ou des modèles similaires qui émergent maintenant) pourraient être couplés non seulement pour naviguer, mais aussi comprendre les biomolécules et leurs complexes de nouvelles façons. Peut-être même des graphiques moléculaires et des outils de modélisation qui bénéficient de la connaissance d'un LLMS sur le PDB pourraient également être créés qui permettent d'effectuer une manipulation et des analyses complexes des structures biomoléculaires à travers des commandes naturelles.
www.lucianoabriata.com J'écris sur tout ce qui réside dans ma vaste sphère d'intérêts: nature, science, technologie, programmation, etc. Abonnez-vous à recevoir mes nouvelles histoires par e-mail. Pour consulter les petits travaux, consultez ma page de services ici. Vous pouvez me contacter ici. Vous pouvez me donner un pourboire ici.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!