Maison >Périphériques technologiques >IA >Capable de compréhension interdisciplinaire et de modélisation multi-échelle, le MIT LAMM publie un grand modèle de langage affiné MechGPT
Éditeur | Radis Skin
Au cours des derniers siècles, les chercheurs ont cherché des moyens de relier différents domaines de connaissances. Avec l'avènement de l'intelligence artificielle, nous avons désormais la possibilité d'explorer les relations entre domaines (comme la mécanique et la biologie) ou entre différents domaines (comme la mécanique des défaillances et l'art)
Pour atteindre cet objectif, le Massachusetts Institute of Technology (MIT ) Des chercheurs du Laboratoire de mécanique atomique et moléculaire (LAMM) ont utilisé un grand modèle de langage (LLM) affiné pour obtenir un sous-ensemble pertinent de connaissances sur la défaillance des matériaux à plusieurs échelles
Les étapes de cette approche consistent d'abord à utiliser une approche générale -Purpose LLM extrait les paires question-réponse de la source d'origine, puis affine le LLM. Une série d'expériences informatiques ont été menées à l'aide de ce modèle de base MechGPT LLM affiné pour explorer ses capacités en matière de récupération de connaissances, de diverses tâches linguistiques, de génération d'hypothèses et de connexion des connaissances dans différents domaines.
Bien que le modèle ait une certaine capacité à rappeler les connaissances de formation dans le domaine, mais les chercheurs ont découvert que le LLM est plus utile pour extraire des informations structurelles via des graphiques de connaissances d'ontologie. Ces structures graphiques interprétables fournissent des informations interprétatives, des cadres pour de nouvelles questions de recherche et des représentations visuelles des connaissances qui peuvent également être utilisées pour une génération améliorée par la récupération.
La recherche s'intitule « MechGPT, a Language-Based Strategy for Mechanics and Materials Modeling That Connects Knowledge Across Scales, Disciplines and Modalities » et a été publiée dans « Applied Mechanics Reviews » le 19 octobre 2023.
La modélisation de concepts physiques, biologiques et métaphysiques a été une préoccupation des chercheurs dans de nombreuses disciplines. Les premiers scientifiques et ingénieurs étaient souvent profondément enracinés dans des domaines allant de la science à la philosophie, de la physique aux mathématiques et aux arts (par exemple, Galileo Galilei, Leonardo da Vinci, Johann Wolfgang von ·Goethe), mais avec le développement de la science, la spécialisation est devenue dominante aujourd'hui. Cela s’explique en partie par le fait qu’une grande quantité de connaissances a été accumulée dans tous les domaines, ce qui oblige les humains à consacrer beaucoup d’énergie à la recherche et à la pratique.
De nos jours, l'émergence des grands modèles de langage (LLM) remet en question le paradigme de la recherche scientifique. Il apporte non seulement de nouvelles stratégies de modélisation basées sur l'intelligence artificielle/l'apprentissage automatique, mais offre également des opportunités de connecter les connaissances, les idées et les concepts entre les domaines. Ces modèles peuvent compléter la modélisation multi-échelle traditionnelle pour l'analyse et la conception de matériaux en couches et de nombreuses autres applications en mécanique
Figure : Flux de travail schématique. (Source : article)
Ici, les chercheurs du LAMM ont développé un LLM général basé sur OpenOrca-Platypus2-13B basé sur Llama-2, basé sur l'utilisation récemment proposée du LLM dans la recherche et le développement en mécanique et en matériaux. Un modèle MechGPT affiné et ciblé. sur la modélisation des défaillances matérielles, la modélisation multi-échelle et les disciplines connexes.
La raison du choix du modèle OpenOrca-Platypus2-13B est qu'il fonctionne bien sur des tâches clés telles que le raisonnement, la logique, les mathématiques/sciences et d'autres disciplines, et peut fournir des connaissances riches et multidisciplinaires avec une taille de modèle modérée. . Concepts généraux et capacités informatiques efficaces
LLM a des applications puissantes dans le domaine scientifique. En plus de pouvoir analyser de grandes quantités de données et des systèmes complexes, dans les domaines de la mécanique et de la science des matériaux, le LLM est utilisé pour simuler et prédire le comportement des matériaux dans différentes conditions, telles que les contraintes mécaniques, la température et les interactions chimiques. Comme le montrent des travaux antérieurs, en formant les LLM sur de vastes ensembles de données issues de simulations de dynamique moléculaire, les chercheurs peuvent développer des modèles capables de prédire le comportement des matériaux dans de nouvelles situations, accélérant ainsi le processus de découverte et réduisant le besoin de tests expérimentaux.
Ces modèles sont également très efficaces pour analyser des textes scientifiques tels que des livres et des publications, permettant aux chercheurs d'extraire rapidement des informations et des idées clés à partir de grandes quantités de données. Cela peut aider les scientifiques à identifier les tendances, les modèles et les relations entre différents concepts et idées, et à générer de nouvelles hypothèses et idées pour des recherches ultérieures.
Veuillez jeter un œil à la figure ci-dessous, qui est un aperçu de l'architecture du transformateur de décodeur autorégressif utilisée pour construire MechGPT. (Source : papier)
Ici, l'équipe se concentre sur le développement de ce dernier et explore l'utilisation de MechGPT, un outil d'intelligence artificielle générative de la famille LLM basée sur Transformer spécifiquement ciblé sur les défaillances matérielles et la formation aux méthodes multi-échelles associées pour évaluer le potentiel de ces stratégies. .
La stratégie proposée dans cette étude comprend plusieurs étapes. La première est l’étape de distillation, où les chercheurs utilisent LLM pour générer des paires question-réponse à partir de texte extrait de morceaux de données brutes (tels qu’un ou plusieurs fichiers PDF). Ensuite, utilisez ces données pour affiner le modèle dans la deuxième étape. Cette étude a également entraîné spécifiquement le modèle MechGPT initial, démontrant son utilité pour la récupération de connaissances, les tâches de langage général et la génération d'hypothèses dans le domaine de la modélisation atomistique de la défaillance matérielle
Figure : Modélisation utilisée Aperçu de la stratégie. (Source : article)
Cet article présente une stratégie de modélisation globale dans laquelle les chercheurs utilisent des stratégies de modélisation de langage spécifiques pour générer des ensembles de données afin d'extraire des connaissances à partir de sources et d'exploiter de nouveaux ensembles de données sur la mécanique et les matériaux pour le modèle est formé. Les chercheurs ont analysé et discuté trois versions de MechGPT avec des tailles de paramètres allant de 13 milliards à 70 milliards et des longueurs de contexte dépassant 10 000 jetons
Après quelques commentaires généraux sur les modèles, astuces et méthodes de formation, les chercheurs ont appliqué le modèle et testé ses performances. dans une variété de contextes, y compris l'utilisation de LLM pour la génération de graphiques d'ontologie et le développement d'informations sur des sujets complexes dans plusieurs disciplines, ainsi que la modélisation d'agents, où plusieurs LLM interagissent de manière collaborative ou contradictoire pour générer des informations plus approfondies sur un sujet ou une réponse à une question. une question.
Graphique : Développement d'une représentation de graphe de connaissances ontologiques pour relier l'hyperélasticité dans le contexte de la fracture supersonique et des mécanismes de déploiement des protéines. (Source : article)
Dans le même temps, l'équipe propose en outre une comparaison conceptuelle entre les modèles de langage et les systèmes multiparticules à différents niveaux d'abstraction, et explique comment le nouveau cadre peut être considéré comme un moyen d'extraire des relations universelles qui gouverner des systèmes complexes.
Contenu réécrit : L'image ci-dessus montre l'analogie conceptuelle entre le LLM et la simulation multiparticules. (Source : article)
Dans l'ensemble, les travaux présentés dans cette étude contribuent au développement de modèles d'intelligence artificielle plus puissants et plus généraux qui peuvent aider à faire progresser la recherche scientifique et à résoudre des problèmes complexes dans des domaines d'application spécifiques, permettant une évaluation approfondie des performances du modèle. . Comme tous les modèles, ils doivent être soigneusement validés, et leur utilité réside dans le contexte des questions posées, de leurs forces et faiblesses, ainsi que des outils plus larges qui aident les scientifiques à faire progresser la science et l’ingénierie.
De plus, les outils d’IA, en tant qu’outils de recherche scientifique, doivent être considérés comme un ensemble d’outils permettant de comprendre, de modéliser et de concevoir le monde qui nous entoure. Alors que les outils d’IA se développent rapidement, leur application dans des contextes scientifiques commence seulement à apporter de nouvelles opportunités
Lien papier : https://arxiv.org/ftp/arxiv/papers/2310/2310.10445.pdf
Rapports associés : https://twitter.com/llama_index/status/1723379654550245719
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!