Maison > Article > Périphériques technologiques > Un professeur américain a utilisé sa fille de 2 ans pour former un modèle d'IA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle d'IA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

WBOYoriginal: 2024-06-03 10:08:09655parcourir

Étonnant, afin d'entraîner le modèle d'IA, un professeur de l'Université d'État de New York a attaché une caméra de type GoPro à la tête de sa fille !

Bien que cela semble incroyable, le comportement de ce professeur est en réalité bien fondé.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Pour entraîner le réseau neuronal complexe derrière LLM, des données massives sont nécessaires.

Notre processus actuel de formation LLM est-il nécessairement le moyen le plus simple et le plus efficace ?

Certainement pas ! Les scientifiques ont découvert que chez les tout-petits, le cerveau absorbe l’eau comme une éponge, formant ainsi rapidement une vision du monde cohérente.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Bien que LLM ait parfois des performances étonnantes, avec le temps, les enfants humains deviendront plus intelligents et plus créatifs que le modèle !

Le secret pour que les enfants maîtrisent la langue

Comment mieux former le LLM ?

Lorsque les scientifiques étaient perplexes, les petits humains ont fait briller leurs yeux -

La façon dont ils apprennent le langage peut être qualifiée de maître de l'acquisition du langage.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Nous connaissons tous cette histoire : jeter un jeune enfant dans un pays avec une langue et une culture complètement différentes. En quelques mois, sa maîtrise de la langue locale peut être proche du niveau natif.

Et les grands modèles de langage ne sont rien en comparaison.

Tout d’abord, ils sont trop gourmands en données !

De nos jours, les grandes entreprises qui forment des mannequins ont presque épuisé toutes les données du monde. Parce que l’apprentissage LLM nécessite des quantités astronomiques de textes extraits d’Internet et de divers endroits.

Pour qu'ils maîtrisent une langue, vous devez leur donner des milliards de mots.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Brenden Lake et les universitaires de NYU qui ont participé à cette étude

Deuxièmement, LLM pourrait ne pas être en mesure d'apprendre avec précision même si autant de données sont versées avec beaucoup d'efforts.

Le résultat de nombreux LLM est de prédire le mot suivant avec une certaine précision. Et cette précision est de plus en plus inquiétante.

Contrairement à cela, les enfants n’ont pas besoin de beaucoup d’expérience pour apprendre à parler couramment une langue.

Brenden Lake, psychologue à l'Université d'État de New York qui étudie les humains et l'IA, s'est concentré sur ce point.

Il a décidé de mener une expérience sur sa fille Luna, âgée de 1 an et 9 mois.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Au cours des 11 derniers mois, Lake a laissé sa fille porter un appareil photo pendant une heure chaque semaine pour enregistrer des vidéos de sa récréation de son point de vue.

Avec les vidéos capturées par la caméra de Luna, Lake espère entraîner le modèle en utilisant les mêmes données auxquelles les enfants sont exposés.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

A attaché une GoPro à sa petite fille

Bien que les linguistes et les experts en enfants ne soient actuellement pas d'accord sur la façon dont les enfants acquièrent le langage, Lake est convaincu : rendre le LLM plus Le secret de l'efficacité réside dans les modèles d'apprentissage des enfants !

C'est pourquoi Lake a lancé un tel projet de recherche : étudier la stimulation que les enfants ressentent lors de l'apprentissage de la première phrase, afin d'améliorer l'efficacité de la formation LLM.

Pour ce faire, l’équipe de Lake devait collecter des données vidéo et audio auprès de 25 enfants à travers les États-Unis.

C'est la scène au début de l'article : ils ont attaché des caméras de type GoPro à la tête de ces enfants, dont Luna, la fille de Lake.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Lake a expliqué que leur modèle tente de connecter des clips vidéo et ce que dit la personne qui s'occupe de l'enfant du point de vue de l'enfant, de la même manière que le modèle Clip d'OpenAI connecte les annotations et les images.

Clip peut prendre une image en entrée et afficher une annotation descriptive sous forme de suggestion basée sur les données d'entraînement des paires image-annotation.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Adresse papier : https://openai.com/index/clip/

De plus, le modèle de l'équipe Lake peut également combiner des images de scènes basées sur les données d'entraînement issues des images GoPro et de l'audio des soignants. En entrée, il génère ensuite un langage décrivant la scène.

De plus, le modèle peut également convertir les descriptions en cadres précédemment vus en formation.

À première vue, cela semble assez simple, non ? Autrement dit, le modèle apprend à faire correspondre les mots prononcés aux objets observés dans les images vidéo, tout comme les enfants humains.

Mais dans la mise en œuvre réelle, nous serons encore confrontés à de nombreuses situations complexes.

Par exemple, les enfants ne regardent pas toujours l’objet ou l’action décrite.

Il existe des situations encore plus abstraites, comme par exemple nous donnons du lait à nos enfants, mais le lait est dans une tasse opaque, ce qui conduit à une connexion très lâche.

Ainsi, Lake a expliqué : Cette expérience n'avait pas pour but de prouver si nous pouvons entraîner un modèle à faire correspondre des objets dans des images avec des mots correspondants (OpenAI l'a déjà démontré).

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Au lieu de cela, ce que l'équipe voulait faire, c'était voir si le modèle pouvait réellement apprendre à reconnaître des objets en utilisant uniquement le niveau clairsemé de données disponibles pour les enfants (qui sont incroyablement rares).

Comme vous pouvez le constater, cela est complètement à l'opposé de l'idée de construire des modèles par de grandes entreprises telles que OpenAI, Google et Meta.

Vous savez, Meta a utilisé 15 000 milliards de jetons pour entraîner Llama 3.

Si l'expérience de l'équipe Lake réussit, peut-être que la pénurie de données LLM à laquelle le monde entier est confronté sera résolue - car alors, la formation LLM ne nécessitera pas du tout autant de données !

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

En d'autres termes, la nouvelle idée est de laisser le modèle d'IA apprendre à partir d'entrées limitées, puis de généraliser à partir des données que nous voyons.

Je pense que notre objectif ne devrait pas se limiter à former des LLM de plus en plus grands à partir de plus en plus de données. Oui, vous pouvez obtenir des performances étonnantes du LLM de cette façon, mais cela s'éloigne de plus en plus des merveilles de l'intelligence humaine que nous connaissons...

Les premières expériences ont été couronnées de succès

Early Les résultats expérimentaux ont prouvé que l'idée de l'équipe Lake est peut-être juste.

En février de cette année, ils ont utilisé 61 heures de séquences vidéo pour entraîner un réseau neuronal afin d'enregistrer l'expérience d'un jeune enfant.

L'étude a révélé que le modèle était capable de relier divers mots et expressions prononcés par les sujets à l'expérience capturée dans l'image vidéo - tant que le mot ou la phrase était présenté, le modèle était capable de rappeler l'image associée. . Cet article a été publié dans Science.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Adresse papier : https://www.science.org/doi/10.1126/science.adi1374

Lake a dit que le plus surprenant est que le modèle puisse généraliser les noms d'objets dans des images non entraînées !

Bien sûr, la précision n'est peut-être pas excellente. Mais à l’origine, le modèle visait simplement à vérifier un concept.

Le projet n'est pas encore terminé car le modèle n'a pas appris tout ce qu'un enfant saurait.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Après tout, il ne s’agit que d’environ 60 heures de discours annoté, ce qui ne représente qu’un pour cent de l’expérience qu’un enfant acquiert en deux ans. Et l’équipe a besoin de plus de données pour déterminer ce qui peut être appris.

Et Lake a également admis que la méthode utilisée par le premier modèle avait encore des limites -

Uniquement analysé les clips vidéo liés aux paroles du soignant, seules les images ont été converties en images à une vitesse de 5 images par seconde, En se basant uniquement sur ces éléments, l’IA n’a pas vraiment appris ce que sont les verbes et ce que sont les mots abstraits. Elle n’obtient que des tranches statiques de ce à quoi ressemble le monde.

Parce qu'il ne sait rien de ce qui s'est passé avant, de ce qui s'est passé après, ni du contexte de la conversation, il est difficile d'apprendre ce que sont « marcher », « courir » et « sauter ».

Mais à l'avenir, à mesure que la technologie derrière la modélisation des vidéos deviendra plus mature, Lake pense que l'équipe construira des modèles plus efficaces.

Si nous pouvions construire un modèle sur la façon dont l'acquisition du langage commence réellement, cela ouvrirait des applications importantes pour comprendre l'apprentissage et le développement humain, nous aidant peut-être à comprendre les troubles du développement ou la manière dont les enfants apprennent le langage.

À terme, un tel modèle pourrait également être utilisé pour tester des millions d'orthophonies différentes.

En parlant de ça, comment les enfants maîtrisent-ils solidement une langue à travers leurs propres yeux et oreilles ?

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Regardons de plus près cet article posté par l'équipe Lake dans Science.

Connectez les mots avec des objets physiques et des images visuelles

Comment les enfants humains se débarrassent-ils de leur ignorance du monde et acquièrent-ils des connaissances ? Le mystère de cette « boîte noire » attire non seulement la recherche constante des éducateurs, mais constitue également une question piégée dans le cœur de chacun de nous sur l'origine de la sagesse individuelle.

L'écrivain coréen de science-fiction Kim Cho Ye a écrit cette hypothèse dans « l'hypothèse de la symbiose » : la sagesse affichée par les enfants humains dans leur petite enfance porte en fait une civilisation extraterrestre perdue. Ils choisissent d'utiliser cette méthode pour communiquer avec les humains, la symbiose. mais cela n'a duré que cinq petites années. Une fois que les humains ont grandi et ont eu des souvenirs vraiment solides, les magnifiques souvenirs de leur enfance ont été effacés.

Les internautes partagent souvent des histoires en ligne sur des petits humains qui "ont oublié de boire de la soupe Meng Po".

Concernant l'enfance mystérieuse, c'est un lieu mystérieux qui est pour nous difficile à expliquer et difficile à revenir. C'est une sorte de "nostalgie". Comme il est écrit sur un brin d’herbe doré : « Ne pars pas ». N'enlevez pas ce beau monde. Quand je serai grand, reste avec moi.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Comment les jeunes enfants relient-ils de nouveaux mots à des objets ou des concepts visuels spécifiques ?

Par exemple, lorsqu'ils entendent le mot « balle », comment les enfants pensent-ils aux objets élastiques et ronds ? croissance de 6 à 25 mois et a enregistré un flux de données de langage visuel de 61 heures.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA Sur cet ensemble de données de clips pour enfants d'un an et demi (comprenant 600 000 images vidéo et 37 500 paires d'énoncés transcrits), les chercheurs ont formé un modèle, le modèle d'apprentissage contrastif en perspective enfant CVCL.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Ce modèle instancie une forme d'apprentissage associatif à travers des situations, identifiant des mappages entre les mots et les référents visuels possibles.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Ce modèle coordonne les objectifs comparatifs de deux réseaux de neurones, un encodeur visuel et un encodeur linguistique, et est formé de manière auto-supervisée (c'est-à-dire en utilisant uniquement des enregistrements en perspective d'enfant, sans étiquettes externes), par rapport au L'objectif est de combiner les intégrations (vecteurs) d'images vidéo et d'énoncés linguistiques temporellement concomitants (traitement des intégrations d'images vidéo et d'énoncés linguistiques simultanés)

Bien sûr, cet ensemble de données appelé SAYCam-S est limité, car il ne capture qu'environ 1% des heures d'éveil d'un enfant, ce qui lui fait manquer une grande partie de son expérience.

Mais malgré cela, CVCL peut toujours apprendre de puissantes représentations multimodales à partir de l'expérience limitée d'un enfant !

L'équipe a démontré avec succès que le modèle acquiert de nombreuses cartographies référentielles qui existent dans les expériences quotidiennes des enfants, et est donc capable de généraliser de nouveaux référents visuels avec zéro échantillon et d'ajuster les systèmes de concepts visuels et linguistiques qu'ils contiennent.

Évaluation des mappages de significations de mots appris

Plus précisément, une fois la formation terminée, l'équipe a évalué la qualité des mappages de références de mots appris par CVCL et divers modèles alternatifs.

Les résultats montrent que la précision de la classification du CVCL est de 61,6%.

Et la figure 2D montre que pour 11 des 22 concepts, les performances de CVCL se situent à moins de 5 % de l'erreur de CLIP, mais les données d'entraînement de CLIP sont plusieurs ordres de grandeur plus grandes (400 millions à partir du réseau d'images- paires de textes).

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Les résultats de recherche montrent que bon nombre des premières cartographies de mots-référents peuvent être obtenues à partir d'au moins 10 à 100 paires de mots-référents naturelles.

Généraliser à de nouveaux paradigmes visuels

De plus, les chercheurs ont également évalué si les mots appris par CVCL peuvent être généralisés à des stimuli visuels en dehors de la distribution.

La figure 3A montre que CVCL montre également une certaine compréhension de ces concepts visuels, avec une précision globale de 34,7 %.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Évidemment, cette tâche nécessite un ensemble de concepts plus large et une difficulté supplémentaire dans la généralisation hors distribution.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

À gauche se trouvent deux cas de formation sélectionnés au hasard, et à droite se trouvent quatre cas de test. Les pourcentages ci-dessous représentent la précision et les performances du modèle dans l'identification de cette image. les deux valeurs les plus élevées, la valeur médiane et la valeur minimale. On peut voir que lorsque le cas de test et le cas de formation sont plus similaires en couleur et en forme, la précision de la reconnaissance du modèle est également plus élevée

La cohérence multimodale est très bonne

Enfin, le chercheur a testé Cohérence des systèmes conceptuels visuels et linguistiques du CVCL.

Par exemple, si l'intégration visuelle et l'intégration de mots de « voiture » ressemblent plus à « route » qu'à « balle », cela indique que l'alignement multimodal fonctionne bien.

L'image ci-dessous montre le haut alignement des systèmes visuels et linguistiques de CVCL.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

La relation entre l'image et le texte, la ligne pointillée représente la distance entre le centroïde visuel correspondant à chaque concept et le mot incrusté

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Différents concepts visuels varient selon la façon dont leurs exemples sont regroupés. Parce que la ligne de mire du bébé va errer entre des objets très proches, le modèle ne forme pas de cartographie de référence claire lors de la distinction des « mains » et des « jouets ». « Voiture » et « berceau » ont de meilleures performances

Dans chacun. Sur la figure, nous démontrons visuellement la comparaison des prédictions CVCL avec des exemples étiquetés utilisant t-SNE.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Les points bleus à gauche correspondent aux 100 frames appartenant à une catégorie spécifique, et les points verts à droite correspondent aux 100 frames activées les plus élevées (basées sur la similitude cosinus avec le mot embedding pour chaque concept en CVCL). Sous chaque figure se trouvent plusieurs exemples de cadres appartenant à un ou plusieurs sous-groupes au sein de chaque concept, capturant la manière dont les intégrations de mots interagissent avec les intégrations d'images dans l'espace d'intégration commun. Par exemple, pour le mot « escaliers », nous voyons un groupe représentant des images d’escaliers intérieurs en bois, tandis qu’un autre groupe principal représente des images d’escaliers bleus extérieurs. Tous les graphiques t-SNE de ces figures sont dérivés du même ensemble d’intégrations conjointes d’images et de texte.

L'image ci-dessous montre que le modèle peut localiser la cible dans différentes vues.

Un professeur américain a utilisé sa fille de 2 ans pour former un modèle dIA qui apparaîtra dans Science ! Des oursons humains utilisent des caméras frontales pour entraîner une nouvelle IA

Dans la carte d'attention normalisée, le jaune indique la zone faisant l'objet de la plus grande attention. Dans les deux premières catégories (balle et tour), nous pouvons voir que le modèle peut localiser la cible dans différentes vues. Cependant, dans les deux catégories inférieures (chat et papier), les cartes d'attention étaient parfois mal alignées avec le référent, ce qui suggère que la capacité à localiser le référent n'était pas cohérente entre les catégories.

Bien sûr, il existe encore de nombreuses différences entre les modèles d’apprentissage des enfants et d’apprentissage automatique.

Mais les recherches de l’équipe Lake nous ont sans aucun doute beaucoup inspiré.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Token 切片对象 https llama

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：ICML 2024 | La nouvelle frontière de la pré-formation sur les grands modèles de langage : le « meilleur packaging d'adaptation » remodèle les normes de traitement des documentsArticle suivant：ICML 2024 | La nouvelle frontière de la pré-formation sur les grands modèles de langage : le « meilleur packaging d'adaptation » remodèle les normes de traitement des documents

Articles Liés

Voir plus