Maison  >  Article  >  Périphériques technologiques  >  Régression neurosymbolique : extraire la science des données

Régression neurosymbolique : extraire la science des données

PHPz
PHPzavant
2023-04-12 17:46:061752parcourir


Régression neurosymbolique : extraire la science des données

Traducteur | Li Rui

Critique | Sun Shujuan

L'univers est bruyant et chaotique, si complexe qu'il devient difficile à prédire pour les gens. L'intelligence humaine et l'intuition contribuent à une compréhension de base de certaines activités du monde environnant et sont suffisantes pour avoir une certaine compréhension de base d'événements individuels à des échelles macroscopiques d'espace et de temps du point de vue limité des individus et des petits groupes.

Les philosophes naturels de la préhistoire humaine et des temps anciens se limitaient pour la plupart à la rationalisation du bon sens et aux tests de suppositions. Ces méthodes présentent des limites importantes, en particulier pour les choses trop vastes ou trop complexes, conduisant ainsi à la prédominance de pensées superstitieuses ou magiques.

Il ne s'agit pas de dénigrer la supposition et la vérification (qui sont la base de la méthode scientifique moderne), mais de voir que les changements dans la capacité humaine à enquêter et à comprendre sont déclenchés par le désir et les outils de distiller les phénomènes physiques en expressions mathématiques.

Cela était particulièrement évident après les Lumières dirigées par Newton et d’autres scientifiques, bien qu’il existe également des traces de réductionnisme analytique dans les temps anciens. La capacité de passer des observations aux équations mathématiques (et aux prédictions que font ces équations) fait partie intégrante de l’exploration et du progrès scientifiques.

L'apprentissage profond consiste aussi fondamentalement à apprendre des transformations liées aux observations entrées-sorties, tout comme les scientifiques humains tentent d'apprendre les relations fonctionnelles entre les entrées et les sorties sous la forme d'expressions mathématiques.

Bien sûr, la différence est que la relation entrée-sortie apprise par les réseaux de neurones profonds (résultat du théorème d'approximation universelle) consiste en une « boîte noire » ininterprétable de paramètres numériques, principalement des poids, des biais et les nœuds qu'ils connectent.

Le théorème d'approximation universelle stipule qu'un réseau de neurones qui répond à des critères très souples devrait être capable de se rapprocher de toute fonction qui se comporte bien. En pratique, un réseau de neurones est une abstraction fragile et fuyante qui représente les relations entrées-sorties résultant d’équations sous-jacentes simples mais précises.

À moins qu'une attention particulière ne soit accordée à l'entraînement du modèle (ou de l'ensemble de modèles) pour prédire l'incertitude, les réseaux de neurones ont tendance à avoir de très mauvais résultats lorsqu'ils effectuent des prédictions en dehors de la distribution pour laquelle ils ont été formés.

Les prédictions du deep learning ne parviennent pas non plus à faire des prédictions falsifiables, c'est-à-dire des hypothèses originales qui constituent la base de la méthode scientifique. Ainsi, même si l’apprentissage profond est un outil éprouvé pour ajuster les données, son utilité est limitée dans l’une des activités les plus importantes de l’humanité : l’exploration de l’univers qui nous entoure grâce à des méthodes scientifiques.

Bien que l'apprentissage profond présente diverses lacunes dans les efforts scientifiques humains, l'énorme capacité d'adaptation et les nombreux succès de l'apprentissage profond dans les disciplines scientifiques ne peuvent être ignorés.

La science moderne produit une énorme quantité de données, et les individus (ou même les équipes) ne peuvent pas observer le résultat de ces données, ni convertir intuitivement les données bruitées en équations mathématiques claires.

Pour cela, vous pouvez vous tourner vers la régression symbolique, une méthode automatisée ou semi-automatique de réduction des données en équations.

L'étalon-or actuel : méthodes évolutives

Avant de se lancer dans des recherches récentes passionnantes sur l'application de l'apprentissage profond moderne à la régression symbolique, il est important de d'abord comprendre l'état actuel des méthodes évolutives pour transformer des ensembles de données en équations. Le package de régression symbolique le plus souvent mentionné est Eureqa, basé sur des algorithmes génétiques.

Eureqa a été initialement développé comme un projet de recherche par l'équipe de Hod Lipson à l'Université Cornell et fourni en tant que logiciel propriétaire de Nutonian, qui a ensuite été acquis par DataRobot Corporation. Eureqa a été intégré à la plateforme Datarobot, dirigée par Michael Schmidt, co-auteur d'Eureqa et CTO de Datarobot.

Eureqa et des outils de régression symbolique similaires utilisent des algorithmes génétiques pour optimiser simultanément les systèmes d'équations pour plus de précision et de simplicité.

TuringBot est un package de régression symbolique alternatif basé sur le recuit simulé. Le recuit simulé est un algorithme d'optimisation similaire au recuit métallurgique utilisé pour modifier les propriétés physiques des métaux.

Dans le recuit simulé, la « température » est abaissée lors de la sélection de solutions candidates au problème d'optimisation, où des températures plus élevées correspondent à l'acceptation de solutions moins bonnes et sont utilisées pour promouvoir une exploration précoce, permettant la recherche de l'optimum global, et fournit de l'énergie à échapper aux optima locaux.

TuringBot est un autre package de régression symbolique basé sur le recuit simulé. Le recuit simulé est un algorithme d'optimisation similaire au recuit métallurgique utilisé pour modifier les propriétés physiques des métaux.

Dans le recuit simulé, la « température » est abaissée lors de la sélection de solutions candidates au problème d'optimisation, où des températures plus élevées correspondent à l'acceptation de solutions moins bonnes et sont utilisées pour promouvoir une exploration précoce, permettant la recherche de l'optimum global, et fournit de l'énergie à échapper aux optima locaux.

TuringBot est une version gratuite, mais présente des limitations importantes en termes de taille et de complexité des ensembles de données, et aucune modification de code n'est autorisée.

Bien que les logiciels commerciaux de régression symbolique (en particulier Eureqa) fournissent une base de comparaison importante lors du développement de nouveaux outils de régression symbolique, l'utilité des programmes fermés est limitée.

Une autre alternative open source appelée PySR est publiée sous la licence Apache 2.0 et est dirigée par Miles Cranmer, doctorant à l'Université de Princeton, et partage les objectifs d'optimisation de précision et de parcimonie (simplicité), une combinaison utilisée par la méthode Eureqa et TuringBot.

En plus de fournir une bibliothèque logicielle gratuite et librement modifiable pour effectuer une régression symbolique, PySR est également intéressant d'un point de vue logiciel : il est écrit en Python mais utilise le langage de programmation Julia comme backend rapide.

Alors que les algorithmes génétiques sont généralement considérés comme l'état de l'art actuel en matière de régression symbolique, les dernières années ont vu une explosion passionnante de nouvelles stratégies de régression symbolique.

Beaucoup de ces nouveaux développements exploitent des modèles modernes d'apprentissage profond, soit en tant que composants d'approximation de fonctions dans des processus en plusieurs étapes, soit de bout en bout basés sur des modèles Transformer à grande échelle, développés à l'origine pour le traitement du langage naturel, et quelque part. entre les deux.

Outre les nouveaux outils de régression symbolique basés sur le deep learning, on constate également une résurgence des méthodes probabilistes et statistiques, notamment les méthodes statistiques bayésiennes.

Combinée à la puissance de calcul moderne, la nouvelle génération de logiciels de régression symbolique constitue non seulement une étude intéressante en soi, mais offre également une réelle utilité et des contributions aux disciplines scientifiques, notamment de vastes ensembles de données et des expériences complètes.

Régression symbolique avec des réseaux de neurones profonds comme approximateurs de fonctions

En raison du théorème d'approximation universelle décrit et étudié par Cybenko et Hornik à la fin des années 1980 et au début des années 1990, on peut s'attendre à des réseaux de neurones avec au moins une couche cachée d'activation non linéaire capable d'approcher toute fonction mathématique bien élevée.

En pratique, les réseaux de neurones plus profonds ont tendance à être utilisés pour de meilleures performances sur des problèmes plus complexes. Cependant, en principe, une couche cachée est nécessaire pour approximer diverses fonctions.

L'algorithme AI Feynman, inspiré de la physique, utilise le théorème d'approximation universelle dans le cadre d'un puzzle plus complexe.

AI Feynman (et son successeur AI Feynman 2.0) a été développé par les physiciens Silviu-Marian Udrescu et Max Tegmark (et quelques collègues). AI Feynman tire parti des propriétés fonctionnelles trouvées dans de nombreuses équations physiques, telles que la douceur, la symétrie et la composition, entre autres propriétés.

Les réseaux de neurones fonctionnent comme des approximateurs de fonctions, apprenant les paires de transformations entrée-sortie représentées dans un ensemble de données et facilitant l'étude de ces propriétés en générant des données synthétiques sous les mêmes transformations fonctionnelles.

Les propriétés fonctionnelles qu'AI Feynman utilise pour résoudre des problèmes sont courantes dans les équations physiques, mais ne peuvent pas être appliquées arbitrairement à l'espace de toutes les fonctions mathématiques possibles. Cependant, il s’agit toujours d’hypothèses raisonnables à rechercher dans diverses fonctions correspondant au monde réel.

Comme l'algorithme génétique et les méthodes de recuit simulé décrits précédemment, AI Feynman adapte chaque nouvel ensemble de données à partir de zéro. Il n’y a aucune généralisation ni pré-formation impliquée, et les réseaux neuronaux profonds ne forment qu’une partie orchestrée d’un système plus vaste et physiquement riche en informations.

La régression symbolique AI Feynman fait un excellent travail en déchiffrant les 100 équations (ou énigmes) des cours de physique de Feynman, mais le manque de généralisation signifie que chaque nouvel ensemble de données (correspondant à une nouvelle équation) nécessite un budget de calcul important.

Un nouvel ensemble de stratégies d'apprentissage profond pour la régression symbolique exploite la famille très réussie de modèles Transformer, initialement introduits comme modèles de langage naturel par Vaswani et al. Ces nouvelles méthodes ne sont pas parfaites, mais l’utilisation de la pré-formation peut permettre d’économiser beaucoup de temps de calcul lors de l’inférence.

Régression symbolique de première génération basée sur des modèles de langage naturel

Compte tenu du très grand rôle du modèle Transformer basé sur l'attention dans la vision par ordinateur, l'audio, l'apprentissage par renforcement, les systèmes de recommandation et de nombreux autres domaines (en plus de leur rôle d'origine dans les modèles de langage naturel basés sur le texte) traitement du langage) Ayant obtenu un grand succès dans diverses tâches, il n'est pas surprenant que le modèle Transformer soit éventuellement également appliqué à la régression symbolique.

Bien que la conversion de paires d'entrées-sorties numériques en séquences symboliques nécessite une ingénierie minutieuse, la nature basée sur les séquences des expressions mathématiques se prête naturellement aux méthodes Transformer.

Surtout, l'utilisation de Transformers pour générer des expressions mathématiques leur permet de tirer parti d'une pré-formation sur la structure et la signification numérique de millions d'équations générées automatiquement.

Cela jette également les bases de l’amélioration du modèle grâce à sa mise à l’échelle. La mise à l'échelle est l'un des principaux avantages de l'apprentissage profond, dans lequel des modèles plus volumineux et davantage de données continuent d'améliorer les performances des modèles bien au-delà des limites classiques de l'apprentissage statistique liées au surajustement.

La mise à l'échelle est le principal avantage mentionné par Biggio et al dans leur article intitulé "Scalable Neural Symbolic Regression", appelé NSRTS. Le modèle NSRTS Transformer utilise un encodeur dédié pour transformer chaque paire entrée-sortie de l'ensemble de données en un espace latent. L'espace latent codé a une taille fixe indépendante de la taille d'entrée dans l'encodeur.

Le décodeur NSRTS construit une séquence de jetons pour représenter une équation, conditionnée par l'espace latent encodé et les symboles générés jusqu'à présent. Surtout, le décodeur ne génère que des espaces réservés pour les constantes numériques, mais utilise par ailleurs le même vocabulaire que l'ensemble de données d'équations pré-entraînées.

NSRTS utilise PyTorch et PyTorch Lightning et dispose d'une licence MIT open source permissive.

Après avoir généré des équations sans constante (appelées squelettes d'équations), NSRTS utilise la descente de gradient pour optimiser les constantes. Cette approche superpose un algorithme d'optimisation général à la génération de séquences, partagé par ce que l'on appelle « SymbolicGPT » développé simultanément par Valipour et al.

Valipour et al. n'ont pas utilisé d'encodeur basé sur l'attention comme dans la méthode NSRTS. Au lieu de cela, un modèle basé sur le modèle de nuage de points de Stanford, PointNet, est utilisé pour générer un ensemble de fonctionnalités à dimension fixe qui est utilisé par le décodeur Transformer pour générer des équations. Comme NSRT, Symbolic GPT utilise BFGS pour trouver les constantes numériques du squelette d'équation généré par le décodeur Transformer.

Régression symbolique de deuxième génération basée sur des modèles de langage naturel

Bien que certains articles récents décrivent l'utilisation de transformateurs de traitement du langage naturel (NLP) pour parvenir à la généralisation et à l'évolutivité de la régression symbolique, les modèles ci-dessus ne sont pas véritablement de bout en bout car ils n'évaluent pas les constantes numériques.

Cela peut être un sérieux défaut : imaginez un modèle qui génère des équations avec 1000 bases sinusoïdales de fréquences différentes. Utiliser BFGS pour optimiser les coefficients de chaque terme fonctionnera probablement bien pour la plupart des ensembles de données d'entrée, mais en réalité, il ne s'agit que d'une manière lente et détournée d'effectuer une analyse de Fourier.

Juste au printemps 2022, le modèle de régression symbolique basé sur Transformer de deuxième génération a été publié sur ArXiv par Vastl et al sur SymFormer, tandis qu'un autre Transformer de bout en bout a été publié par Kamienny et ses collègues.

La différence importante entre ces modèles et les précédents modèles de régression symbolique basés sur Transformer est qu'ils prédisent des constantes numériques ainsi que des séquences mathématiques symboliques.

SymFormer utilise un décodeur Transformer à deux têtes pour effectuer une régression symbolique de bout en bout. Une tête produit des symboles mathématiques et la seconde apprend la tâche de régression numérique, c'est-à-dire l'estimation des constantes numériques qui apparaissent dans les équations.

Les modèles de bout en bout de Kamienny et Vastl diffèrent dans des détails, tels que la précision des estimations numériques, mais les solutions des deux groupes reposent toujours sur des étapes d'optimisation ultérieures pour le raffinement.

Néanmoins, selon les auteurs, elles ont des temps d'inférence plus rapides et produisent des résultats plus précis que les méthodes précédentes, produisent de meilleurs squelettes d'équation et fournissent de bons points de départ et des constantes estimées pour l'étape d'optimisation.

L'ère de la régression symbolique approche

Pour l'essentiel, la régression symbolique a été une méthode d'apprentissage automatique élégante et gourmande en calcul qui a reçu beaucoup moins d'attention que d'habitude au cours de la dernière décennie.

Cela est en partie dû à l'approche « lancez-le et perdez-le » des méthodes génétiques ou probabilistes, où elles doivent repartir de zéro pour chaque nouvel ensemble de données, une caractéristique qui est incompatible avec les applications intermédiaires allant de l'apprentissage profond à la régression symbolique ( comme AI Feynman) sont les mêmes.

L'utilisation de Transformer comme composant intégral dans la régression symbolique permet aux modèles récents de tirer parti d'un pré-entraînement à grande échelle, réduisant ainsi les besoins en énergie, en temps et en matériel informatique au moment de l'inférence.

Cette tendance s'étend encore avec de nouveaux modèles qui estiment les constantes numériques et prédisent les symboles mathématiques, permettant une inférence plus rapide et une plus grande précision.

La tâche de générer des expressions symboliques peut à son tour être utilisée pour générer des hypothèses testables, ce qui est une tâche très humaine et est au cœur de la science. Les méthodes automatisées de régression symbolique ont continué à réaliser des progrès techniques intéressants au cours des deux dernières décennies, mais le véritable test est de savoir si elles sont utiles aux chercheurs qui font de la vraie science.

La régression symbolique commence à produire de plus en plus de résultats scientifiques publiables en dehors des démonstrations techniques. Une approche de régression symbolique bayésienne produit un nouveau modèle mathématique pour prédire la division cellulaire.

Une autre équipe de recherche a utilisé des modèles de régression clairsemés pour générer des équations raisonnables pour la turbulence océanique, ouvrant ainsi la voie à des modèles climatiques multi-échelles améliorés.

Un projet combinant réseaux de neurones graphiques et régression symbolique avec l'algorithme génétique d'Eureqa généralise les expressions décrivant la gravité à N corps et dérive une nouvelle équation décrivant la distribution de la matière noire à partir de simulateurs conventionnels.

Développement futur d'un algorithme de régression symbolique

La régression symbolique devient un outil puissant dans la boîte à outils du scientifique. La généralisation et l’évolutivité des méthodes basées sur Transformer sont encore des sujets d’actualité et n’ont pas encore pénétré la pratique scientifique générale. À mesure que de plus en plus de chercheurs adapteront et amélioreront le modèle, cela promet de faire progresser les découvertes scientifiques.

Beaucoup de ces projets sont menés sous licences open source, vous pouvez donc vous attendre à ce qu'ils aient un impact d'ici quelques années, et leur application pourrait être plus large que les logiciels propriétaires comme Eureqa et TuringBot.

La régression symbolique est un complément naturel aux résultats des modèles d'apprentissage profond, qui sont souvent mystérieux et difficiles à interpréter, tandis que les résultats plus compréhensibles en langage mathématique peuvent aider à générer de nouvelles hypothèses testables et à générer des sauts intuitifs.

Ces fonctionnalités et les capacités simples de la dernière génération d'algorithmes de régression symbolique promettent d'offrir de plus grandes opportunités pour des moments de découverte significative.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer