Maison >Périphériques technologiques >IA >Publiée dans la sous-revue Nature, l'équipe de l'Université de Waterloo commente le présent et l'avenir des « ordinateurs quantiques + grands modèles de langage »
L’un des principaux défis de la simulation des appareils informatiques quantiques d’aujourd’hui est la capacité à apprendre et à coder les corrélations complexes entre les qubits. Les technologies émergentes basées sur des modèles de langage d’apprentissage automatique ont démontré la capacité unique d’apprendre les états quantiques.
Récemment, des chercheurs de l'Université de Waterloo ont publié un article de perspective intitulé "Language models for quantum simulation" dans "Nature Computational Science", soulignant la contribution importante des modèles de langage dans la construction d'ordinateurs quantiques, et discutant de leur rôle potentiel à l'avenir. compétition pour la suprématie quantique. Cet article met en évidence la valeur unique des modèles de langage dans le domaine de l’informatique quantique, en soulignant qu’ils peuvent être utilisés pour répondre à la complexité et à la précision des systèmes quantiques. Les chercheurs pensent qu’en utilisant des modèles de langage, les performances des algorithmes quantiques peuvent être mieux comprises et optimisées, et que de nouvelles idées peuvent être proposées pour le développement d’ordinateurs quantiques. L'article souligne également le rôle potentiel des modèles linguistiques dans la compétition pour l'avantage quantique, estimant qu'ils peuvent contribuer à accélérer le développement des ordinateurs quantiques et devraient obtenir des résultats dans la résolution de problèmes pratiques
Lien papier : https : //www.nature .com/articles/s43588-023-00578-0
Les ordinateurs quantiques ont commencé à mûrir, et de nombreux appareils revendiquent récemment leur supériorité quantique. Le développement continu des capacités informatiques classiques, comme l’essor rapide des techniques d’apprentissage automatique, a donné naissance à de nombreux scénarios passionnants autour de l’interaction entre les stratégies quantiques et classiques. Alors que l’apprentissage automatique continue d’être rapidement intégré à la pile informatique quantique, la question se pose : pourrait-il transformer la technologie quantique de manière puissante à l’avenir ?
L'un des principaux défis auxquels sont actuellement confrontés les ordinateurs quantiques est l'apprentissage des états quantiques. Les modèles génératifs récemment apparus proposent deux stratégies communes pour résoudre le problème de l’apprentissage des états quantiques.
Illustration : Modèles génératifs pour le langage naturel et d'autres domaines. (Source : article)
Premièrement, les méthodes traditionnelles du maximum de vraisemblance peuvent être utilisées en effectuant un apprentissage basé sur les données à l'aide d'un ensemble de données qui représente la sortie d'un ordinateur quantique. Deuxièmement, nous pouvons utiliser une approche physique des états quantiques qui exploite la connaissance des interactions entre qubits pour définir des fonctions de perte de substitution.
Dans les deux cas, une augmentation du nombre de qubits N entraînera une croissance exponentielle de la taille de l'espace d'état quantique (espace de Hilbert), ce qu'on appelle la malédiction de la dimensionnalité. Par conséquent, le nombre de paramètres requis pour représenter les états quantiques dans des modèles étendus et l’efficacité des calculs pour trouver les valeurs optimales des paramètres présentent d’énormes défis. Pour pallier ce problème, les modèles de génération de réseaux de neurones artificiels constituent une solution très adaptée.
Les modèles linguistiques sont un modèle génératif particulièrement prometteur qui est devenu une architecture puissante pour résoudre des problèmes linguistiques de grande complexité. En raison de son évolutivité, il convient également aux problèmes d’informatique quantique. Aujourd’hui, alors que les modèles de langage industriel atteignent des milliards de paramètres, il est naturel de se demander ce que des modèles similaires à grande échelle peuvent réaliser en physique, que ce soit dans des applications telles que l’informatique quantique étendue, ou dans la matière quantique, les matériaux et la compréhension théorique de base des équipement.
Illustration : Problèmes de physique quantique et leurs formules variationnelles. (Source : article)
Les modèles linguistiques sont des modèles génératifs conçus pour déduire des distributions de probabilité à partir de données en langage naturel.
La tâche du modèle génératif est d'apprendre les relations probabilistes entre les mots apparaissant dans le corpus, permettant la génération de nouvelles phrases un jeton à la fois. La principale difficulté réside dans la modélisation de toutes les dépendances complexes entre les mots.
Des défis similaires s'appliquent également aux ordinateurs quantiques, où des corrélations non locales telles que l'intrication conduisent à des dépendances hautement non triviales entre les qubits. Par conséquent, une question intéressante est de savoir si les puissantes architectures autorégressives développées dans l’industrie peuvent également être appliquées pour résoudre des problèmes dans des systèmes quantiques fortement corrélés.
Illustration : Stratégies autorégressives pour les séquences de texte et de qubits. (Source : Papier)
RNN est tout réseau neuronal qui contient des connexions récurrentes, donc la sortie d'une unité RNN dépend de la sortie précédente. Depuis 2018, l’utilisation des RNN s’est rapidement étendue pour couvrir diverses tâches parmi les plus difficiles liées à la compréhension des systèmes quantiques.
Un avantage clé des RNN adaptés à ces tâches est leur capacité à apprendre et à coder des corrélations hautement significatives entre qubits, y compris l'intrication quantique intrinsèquement non locale.
Illustration : RNN pour séquence de qubits. (Source : article)
Les physiciens ont utilisé les RNN pour diverses utilisations innovantes liées à l'informatique quantique. Les RNN ont été utilisés pour reconstruire les états quantiques à partir de mesures de qubits. Les RNN peuvent également être utilisés pour simuler la dynamique des systèmes quantiques, ce qui est considéré comme l’une des applications les plus prometteuses de l’informatique quantique et donc une tâche clé dans la définition de l’avantage quantique. Les RNN ont été utilisés comme stratégie pour construire des décodeurs neuronaux de correction d’erreurs, un élément clé dans le développement d’ordinateurs quantiques tolérants aux pannes. De plus, les RNN sont capables de tirer parti d’optimisations basées sur les données et inspirées de la physique, permettant ainsi un nombre croissant d’utilisations innovantes dans les simulations quantiques.
La communauté des physiciens continue de développer activement les RNN, dans l'espoir de les utiliser pour accomplir les tâches informatiques de plus en plus complexes rencontrées à l'ère de l'avantage quantique. La compétitivité informatique des RNN avec les réseaux tensoriels dans de nombreuses tâches quantiques, associée à leur capacité naturelle à exploiter la valeur des données de mesure des qubits, suggère que les RNN continueront à jouer un rôle important dans la simulation de tâches complexes sur les ordinateurs quantiques à l'avenir.
Bien que les RNN aient connu un grand succès dans les tâches en langage naturel au fil des ans, ils ont récemment été éclipsés dans l'industrie par le mécanisme d'auto-attention de Transformer, l'un des grands modèles de langage (LLM) actuels. Un composant clé de l’architecture codeur-décodeur.
Le succès des Transformers et les questions importantes soulevées par les phénomènes d’émergence non triviaux qu’ils démontrent dans les tâches de langage fascinent depuis longtemps les physiciens, pour qui la mise à l’échelle est un objectif majeur de la recherche en informatique quantique.
Essentiellement, Transformer est un simple modèle autorégressif. Cependant, contrairement aux RNN, qui codent implicitement les corrélations via des vecteurs cachés, la distribution conditionnelle produite par un modèle Transformer dépend explicitement de toutes les autres variables de la séquence concernant les propriétés autorégressives. Ceci est accompli grâce au mécanisme d’auto-attention du blindage causal.
Illustration : Notez le texte et la séquence de qubits. (Source : article)
Comme pour les données linguistiques, dans les systèmes quantiques, l'attention est calculée en prenant des mesures de qubits et en les transformant via une série de fonctions paramétrées. En entraînant un certain nombre de ces fonctions paramétrées, le Transformer peut apprendre les dépendances entre les qubits. Avec le mécanisme d’attention, il n’est pas nécessaire de relier la géométrie des états cachés véhiculés (comme dans les RNN) à la disposition physique des qubits.
En tirant parti de cette architecture, des transformateurs avec des milliards ou des milliards de paramètres peuvent être formés.
L'optimisation hybride en deux étapes qui combine l'apprentissage basé sur les données et inspiré par la physique est très importante pour la génération actuelle d'ordinateurs quantiques. Il a été démontré que Transformer est capable d'atténuer les erreurs qui surviennent dans les données de sortie imparfaites d'aujourd'hui et peuvent se former. de puissantes corrections de protocole de pannes pour soutenir le développement d'un matériel véritablement tolérant aux pannes à l'avenir.
Alors que la portée de la recherche impliquant les transformateurs de physique quantique continue de s'étendre rapidement, une série de questions intéressantes demeurent.
Bien que les physiciens ne les explorent que depuis peu de temps, les modèles de langage ont obtenu un succès remarquable lorsqu'ils sont appliqués à un large éventail de défis en informatique quantique. Ces résultats indiquent de nombreuses orientations de recherche futures prometteuses.
Un autre cas d'utilisation clé des modèles de langage en physique quantique vient de leur capacité à optimiser, non pas grâce à des données, mais grâce à la connaissance des interactions fondamentales des qubits de l'hamiltonien ou du lindbladien.
Enfin, les modèles linguistiques ouvrent de nouveaux domaines de formation hybride grâce à la combinaison de l'optimisation basée sur les données et sur les variations. Ces stratégies émergentes offrent de nouvelles façons de réduire les erreurs et démontrent de puissantes améliorations dans les simulations variationnelles. Étant donné que les modèles génératifs ont récemment été adaptés aux décodeurs de correction d’erreurs quantiques, la formation hybride pourrait constituer une étape importante vers le futur Saint Graal des ordinateurs quantiques tolérants aux pannes. Cela suggère qu’un cercle vertueux est sur le point d’émerger entre les ordinateurs quantiques et les modèles de langage formés sur leurs résultats.
Illustration : Le modèle de langage réalise l'expansion de l'informatique quantique à travers un cercle vertueux. (Source : article)
Pour l’avenir, les opportunités les plus intéressantes de connecter le domaine des modèles de langage à l’informatique quantique résident dans leur capacité à démontrer leur ampleur et leur émergence.
De nos jours, avec la démonstration des propriétés émergentes du LLM, un nouveau domaine a été découvert, soulevant de nombreuses questions cruciales. Avec suffisamment de données de formation, LLM peut-il apprendre une copie numérique d'un ordinateur quantique ? Quel sera l’impact de l’inclusion de modèles de langage dans la pile de contrôle sur la caractérisation et la conception des ordinateurs quantiques ? Si l’échelle est suffisamment grande, le LLM peut-il montrer l’émergence de phénomènes quantiques macroscopiques tels que la supraconductivité ?
Pendant que les théoriciens réfléchissent à ces questions, les physiciens expérimentaux et computationnels ont commencé à appliquer sérieusement des modèles de langage à la conception, à la caractérisation et au contrôle des ordinateurs quantiques d'aujourd'hui. À mesure que nous franchissons le seuil de l’avantage quantique, nous pénétrons également de nouveaux territoires dans l’extension des modèles linguistiques. S’il est difficile de prédire comment se déroulera la collision entre les ordinateurs quantiques et le LLM, il est clair que des changements fondamentaux provoqués par l’interaction de ces technologies ont déjà commencé.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!