Maison >Périphériques technologiques >IA >'Père de l'apprentissage automatique' écrit Mitchell : Comment l'IA accélère le développement scientifique et comment les États-Unis saisissent les opportunités
Éditeur | ScienceAI
Récemment, Tom M. Mitchell, professeur à l'Université Carnegie Mellon et connu comme le « Père de l'apprentissage automatique », a écrit un nouveau livre blanc sur l'IA pour la science, axé sur la discussion « Comment l'intelligence artificielle peut-elle " Le renseignement accélère-t-il le développement scientifique ? Comment le gouvernement américain peut-il contribuer à atteindre cet objectif ? " Ce sujet.
ScienceAI a compilé le texte intégral du livre blanc original sans changer sa signification originale. Le contenu est le suivant.
Le domaine de l'intelligence artificielle a récemment fait des progrès significatifs, notamment avec des modèles de langage à grande échelle tels que GPT, Claude et Gemini, soulevant ainsi la possibilité qu'un impact très positif de l'intelligence artificielle pourrait être d'accélérer considérablement la transition de la biologie cellulaire à La recherche progresse dans divers domaines scientifiques, de la science des matériaux à la modélisation météorologique et climatique en passant par les neurosciences. Nous résumons ici brièvement cette opportunité scientifique en matière d’IA et ce que le gouvernement américain peut faire pour la saisir.
La grande majorité de la recherche scientifique dans presque tous les domaines peut aujourd'hui être classée comme une science « solitaire ».
En d'autres termes, les scientifiques et leurs équipes de recherche composées d'une douzaine de chercheurs ont une idée, mènent des expériences pour la tester, rédigent et publient les résultats, partagent éventuellement leurs données expérimentales sur Internet, puis répètent le processus.
D'autres scientifiques peuvent consolider ces résultats en lisant des articles publiés, mais Ce processus est sujet aux erreurs et extrêmement inefficace pour plusieurs raisons :
(1) Il est impossible pour un scientifique individuel de lire des articles déjà publiés dans son domaine. Tous les articles Les publications publiées sont donc partiellement aveugles aux autres études pertinentes ; (2) Les expériences décrites dans les publications de revues omettent nécessairement de nombreux détails, ce qui rend difficile pour d'autres de reproduire leurs résultats et de s'appuyer sur les résultats. (3) Une seule analyse des ensembles de données expérimentales est souvent nécessaire ; effectuées de manière isolée, sans incorporer les données d’autres expériences connexes menées par d’autres scientifiques (et n’incorporant donc pas d’informations précieuses).
Au cours des dix prochaines années, l'intelligence artificielle peut aider les scientifiques à surmonter les trois problèmes ci-dessus
L'IA peut transformer ce modèle de recherche scientifique du « ranger solitaire » en un modèle de « découverte scientifique communautaire ». En particulier, l'IA peut être utilisée pour créer un nouveau type d'assistant de recherche informatique qui aide les scientifiques humains à surmonter ces problèmes en :
Quelles avancées scientifiques ce changement de paradigme dans la pratique scientifique pourrait-il apporter ?
Voici quelques exemples :
La traduction de cette opportunité dans la réalité nécessite plusieurs éléments :
Beaucoup de données expérimentales
Une leçon des modèles textuels de base est que plus ils sont formés sur des données, plus ils deviennent puissants. Les scientifiques expérimentés connaissent également très bien la valeur de données expérimentales de plus en plus diverses. Pour réaliser des progrès scientifiques de plusieurs ordres de grandeur et former les types de modèles sous-jacents que nous souhaitons, nous devons faire des progrès très significatifs dans notre capacité à partager et analyser conjointement divers ensembles de données fournis par l’ensemble de la communauté scientifique.
La possibilité d'accéder aux publications scientifiques et de les lire avec des ordinateurs
Un élément clé de l'opportunité ici est de changer la situation actuelle : il est peu probable que les scientifiques lisent 1 % des publications pertinentes dans leur domaine, les ordinateurs lisent 100 % des publications, les résume ainsi que leur pertinence par rapport aux questions scientifiques actuelles et fournit une interface conversationnelle pour discuter de leur contenu et de leurs implications. Cela nécessite non seulement un accès à la littérature en ligne, mais également des recherches sur l’IA pour construire un tel « assistant littéraire ».
Ressources informatiques et réseau
Les modèles de base basés sur du texte tels que GPT et Gemini sont connus pour la grande quantité de ressources de traitement consommées dans leur développement. Le développement de modèles de base dans différents domaines scientifiques nécessite également de grandes quantités de ressources informatiques. Cependant, les exigences informatiques dans de nombreux efforts scientifiques en matière d'IA sont probablement beaucoup plus faibles que celles requises pour former des LLM tels que GPT, et peuvent donc être réalisées avec des investissements similaires à ceux réalisés par les laboratoires de recherche gouvernementaux.
Par exemple, AlphaFold, un modèle d'IA qui a révolutionné l'analyse des protéines pour la conception de médicaments, utilise beaucoup moins de calculs d'entraînement que les modèles textuels de base comme GPT et Gemini. Pour prendre en charge le partage de données, nous avons besoin de réseaux informatiques massifs, mais l’Internet actuel constitue déjà un point de départ suffisant pour transférer de grands ensembles de données expérimentales. Par conséquent, le coût du matériel nécessaire pour soutenir les progrès scientifiques basés sur l’IA sera probablement assez faible par rapport aux avantages potentiels.
Nouvelles méthodes d'apprentissage automatique et d'IA
Les méthodes d'apprentissage automatique actuelles sont extrêmement utiles pour découvrir des régularités statistiques dans d'énormes ensembles de données que les humains ne peuvent pas examiner (par exemple, AlphaFold est effectué sur de grandes quantités de séquences protéiques et leurs structures 3D soigneusement mesurées. qualifié). Un élément clé de cette nouvelle opportunité consiste à étendre les méthodes actuelles d'apprentissage automatique (découverte de corrélations statistiques dans les données) dans deux directions importantes : (1) passer de la recherche de corrélations à la recherche de relations causales dans les données, et (2) passer de la recherche uniquement de grandes données. L'apprentissage par ensembles de données structurés évolue vers l'apprentissage à partir de grands ensembles de données structurés et de vastes littératures de recherche ; c'est-à-dire, comme les scientifiques humains, à partir de données expérimentales et d'hypothèses et d'arguments publiés exprimés en langage naturel par d'autres. L’émergence récente de LLM dotés de capacités avancées de digestion, de synthèse et de raisonnement sur de grandes collections de textes pourrait constituer la base de cette nouvelle classe d’algorithmes d’apprentissage automatique.
Que doit faire le gouvernement ? La clé est de soutenir les quatre volets ci-dessus et d'unir la communauté scientifique pour explorer de nouvelles méthodes basées sur l'intelligence artificielle afin de promouvoir les progrès de leurs recherches. Par conséquent, le gouvernement devrait envisager de prendre les mesures suivantes :
Explorer des opportunités spécifiques dans des domaines scientifiques spécifiques, Financer des équipes de recherche multi-institutionnelles dans de nombreux domaines scientifiques pour présenter des visions et des résultats préliminaires démontrant comment l'IA peut être utilisée pour accélérer de manière significative les progrès dans leurs domaines, et ce qui est nécessaire pour faire évoluer cela. approche. Ce travail ne devrait pas être financé sous forme de subventions à des institutions individuelles, car les plus grands progrès pourraient provenir de l’intégration des données et des recherches de nombreux scientifiques de nombreuses institutions. Au contraire, elle sera probablement plus efficace si elle est menée par une équipe de scientifiques issus de nombreuses institutions, qui proposent des opportunités et des approches qui inspirent leur engagement auprès de la communauté scientifique dans son ensemble.
Accélérez la création de nouveaux ensembles de données expérimentales pour former de nouveaux modèles de base et mettre les données à la disposition de l'ensemble de la communauté des scientifiques :
Créez des normes de partage de données pour permettre à un scientifique d'utiliser facilement les données expérimentales créées par différents scientifiques, et jeter les bases des ressources de données nationales dans chaque domaine scientifique pertinent. Il convient de noter qu'il y a eu des succès antérieurs dans l'élaboration et l'utilisation de telles normes qui peuvent fournir un modèle de départ pour les efforts de normalisation (par exemple, le succès du partage de données au cours du projet Génome humain).
Créez et soutenez des sites Web de partage de données pour tous les domaines pertinents. Tout comme GitHub est devenu le site incontournable permettant aux développeurs de logiciels de contribuer, de partager et de réutiliser du code logiciel, la création d'un GitHub pour les ensembles de données scientifiques peut servir à la fois de référentiel de données et de moteur de recherche pour découvrir des sujets liés à des sujets spécifiques, émettre des hypothèses ou planifier une expérience sur l’ensemble de données le plus pertinent.
Étudiez comment créer des mécanismes d'incitation pour maximiser le partage de données. Actuellement, les domaines scientifiques varient considérablement dans la mesure dans laquelle les scientifiques individuels partagent leurs données et dans la mesure dans laquelle les organisations à but lucratif utilisent leurs données pour la recherche scientifique fondamentale. La création d’une vaste ressource nationale de données partageables fait partie intégrante des opportunités scientifiques liées à l’IA, et la création d’une structure d’incitation convaincante pour le partage des données sera la clé du succès.
Le cas échéant, financer le développement de laboratoires automatisés (par exemple des laboratoires robotisés pour des expériences de chimie, de biologie, etc. pouvant être utilisés par de nombreux scientifiques via Internet) pour mener des expériences efficacement et les générer dans un format de données standard. L’un des principaux avantages de la création de tels laboratoires est qu’ils favoriseront également le développement de normes précisant précisément les procédures expérimentales à suivre, augmentant ainsi la reproductibilité des résultats expérimentaux. Tout comme nous pouvons bénéficier des GitHubs pour les ensembles de données, nous pouvons également bénéficier des GitHubs associés pour partager, modifier et réutiliser les composants des protocoles expérimentaux.
Créer une nouvelle génération d'outils d'intelligence artificielle nécessite :
Financer la recherche fondamentale pertinente en IA spécifiquement développée pour les méthodes de recherche scientifique. Cela devrait inclure le développement de « modèles fondamentaux » au sens large, en tant qu'outils permettant d'accélérer la recherche dans différents domaines et d'accélérer le passage d'une science « solitaire » à un paradigme plus puissant de « découverte scientifique communautaire ».
Soutient spécialement la recherche en lisant la littérature de recherche, en critiquant les hypothèses de départ énoncées et en suggérant des améliorations, et en aidant les scientifiques à tirer des résultats de la littérature scientifique d'une manière directement pertinente à leurs questions actuelles.
Soutient spécialement la recherche qui étend l'apprentissage automatique de la découverte de corrélations à la découverte de la causalité, en particulier dans les contextes où de nouvelles expériences peuvent être planifiées et exécutées pour tester des hypothèses causales.
Soutient spécialement l'expansion de la recherche sur les algorithmes d'apprentissage automatique, de la prise en compte uniquement du Big Data en entrée, à la prise en compte à la fois de données expérimentales volumineuses et d'une littérature de recherche complète dans le domaine, afin de générer des régularités statistiques dans les données expérimentales et la recherche. littérature Les hypothèses, explications et arguments discutés dans .
Contenu associé :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!