Maison > Article > Périphériques technologiques > Le stock mondial de données linguistiques de haute qualité est rare et ne peut être ignoré
En tant que l'un des trois éléments de l'intelligence artificielle, les données jouent un rôle important.
Mais avez-vous déjà pensé à : Et si un jour, toutes les données du monde s'épuisaient ?
En fait, la personne qui a posé cette question n'a certainement aucun problème mental, car ce jour pourrait vraiment arriver bientôt ! ! !
Récemment, le chercheur Pablo Villalobos et d'autres ont publié un article intitulé"Allons-nous manquer de données ?" L'article « Analyse des limites de la mise à l'échelle des ensembles de données dans l'apprentissage automatique » a été publié sur arXiv.
Sur la base d'une analyse précédente des tendances de la taille des ensembles de données, ils ont prédit la croissance de la taille des ensembles de données dans les domaines du langage et de la vision, et ont estimé la tendance de développement du stock total de données non étiquetées disponibles au cours des prochaines décennies.
Leurs recherches montrent que les données linguistiques de haute qualité seront épuisées dès 2026 ! En conséquence, la vitesse de développement de l’apprentissage automatique ralentira également. Ce n'est vraiment pas optimiste.
L'équipe de recherche de cet article est composée de 11 chercheurs et 3 consultants, avec des membres du monde entier, déterminés à réduire l'écart entre le développement de la technologie de l'IA et Stratégie d'IA et fourniture Fournir des conseils aux principaux décideurs en matière de sécurité de l'IA.
Chinchilla est un nouveau modèle d'optimisation informatique prédictive proposé par des chercheurs de DeepMind.
En fait, lors d'expériences sur Chinchilla auparavant, un chercheur a souligné un jour que "les données d'entraînement deviendront bientôt un goulot d'étranglement dans l'expansion de grands modèles de langage".
Ils ont donc analysé la croissance de la taille des ensembles de données d'apprentissage automatique pour le traitement du langage naturel et la vision par ordinateur, et ont utilisé deux méthodes pour extrapoler : en utilisant les taux de croissance historiques et en calculant des estimations optimales des budgets de calcul pour les prévisions futures. Taille de l'ensemble de données.
Avant cela, ils ont collecté des données sur les tendances des entrées d'apprentissage automatique, y compris certaines données de formation, et ont également étudié la croissance de l'utilisation des données en estimant le stock total de données non étiquetées disponibles sur Internet au cours des prochaines décennies.
Étant donné que les tendances de prédiction historiques peuvent être « trompeuses » en raison de la croissance anormale du volume de calcul au cours de la dernière décennie, l'équipe de recherche a également utilisé la loi d'échelle de Chinchilla pour estimer la taille de l'ensemble de données au cours des prochaines années afin de améliorer la précision des résultats de calcul du sexe.
En fin de compte, les chercheurs ont utilisé une série de modèles probabilistes pour estimer l'inventaire total des données de langue anglaise et d'image au cours des prochaines années et ont comparé les prédictions de la taille de l'ensemble de données d'entraînement et l'inventaire total des données. ci-dessous.
Cela montre que le taux de croissance de l'ensemble de données sera beaucoup plus rapide que le stock de données.
Par conséquent, si la tendance actuelle se poursuit, il sera inévitable que le stock de données soit épuisé. Le tableau ci-dessous montre le nombre médian d’années jusqu’à l’épuisement à chaque intersection de la courbe de prévision.
Les inventaires de données linguistiques de haute qualité pourraient être épuisés d'ici 2026 au plus tôt.
En revanche, les données linguistiques et les données d’images de mauvaise qualité s’en sortent légèrement mieux : les premières seront épuisées entre 2030 et 2050, et les secondes entre 2030 et 2060.
À la fin de l'article, l'équipe de recherche a conclu que si l'efficacité des données n'est pas significativement améliorée ou si de nouvelles sources de données sont disponibles, les modèles d'apprentissage automatique qui s'appuient actuellement sur d'énormes ensembles de données en constante expansion sont probables. avoir une tendance à la croissance va ralentir.
Cependant, dans la zone de commentaires de cet article, la plupart des internautes Je pense qu'il est irrationnel de s'inquiéter de l'auteur.
Sur Reddit, un internaute nommé ktpr a déclaré :
"A quoi sert l'auto-supervision apprentissage ? Qu'est-ce qui ne va pas ? Si la tâche est bien spécifiée, elle peut même être combinée pour augmenter la taille de l'ensemble de données. Les internautes étaient encore plus méchants. Il a dit sans détour :
"Vous ne comprenez même pas Efficient Zero ? Je pense que l'auteur a sérieusement perdu le contact avec son temps." #
# 🎜🎜#Efficient Zero est un algorithme d'apprentissage par renforcement capable d'échantillonner efficacement, proposé par le Dr Gao Yang de l'Université Tsinghua.
Dans le cas d'un volume de données limité, Efficient Zero résout dans une certaine mesure le problème de performance de l'apprentissage par renforcement et a été vérifié sur l'Atari Game, un benchmark de test universel pour les algorithmes.
Sur le blog de l'équipe d'auteurs de ce journal, même eux-mêmes ont dit franchement :
# 🎜🎜#"Toutes nos conclusions sont basées sur l'hypothèse irréaliste selon laquelle les tendances actuelles en matière d'utilisation et de production de données d'apprentissage automatique se poursuivront et qu'il n'y aura pas d'amélioration significative de l'efficacité des données." #
"Un modèle plus fiable devrait prendre en compte l'amélioration de l'efficacité des données d'apprentissage automatique, l'utilisation de données synthétiques et d'autres facteurs algorithmiques et économiques." 🎜#
"Donc en termes de conditions réelles, ce type d'analyse présente de sérieuses limites. L'incertitude du modèle est très élevée." 🎜# "Cependant, dans l'ensemble, nous pensons toujours qu'il y a environ 20 % de chances que l'expansion des modèles d'apprentissage automatique ralentisse considérablement d'ici 2040 en raison d'un manque de données de formation."Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!