Maison  >  Article  >  Périphériques technologiques  >  "Père de l'apprentissage automatique" écrit Mitchell : Comment l'IA accélère le développement scientifique et comment les États-Unis saisissent les opportunités

"Père de l'apprentissage automatique" écrit Mitchell : Comment l'IA accélère le développement scientifique et comment les États-Unis saisissent les opportunités

王林
王林original
2024-07-29 20:23:43710parcourir

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Éditeur | ScienceAI

Récemment, Tom M. Mitchell, professeur à l'Université Carnegie Mellon et connu comme le « Père de l'apprentissage automatique », a écrit un nouveau livre blanc sur l'IA pour la science, axé sur la discussion « Comment l'intelligence artificielle peut-elle " Le renseignement accélère-t-il le développement scientifique ? Comment le gouvernement américain peut-il contribuer à atteindre cet objectif ? " Ce sujet.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

ScienceAI a compilé le texte intégral du livre blanc original sans changer sa signification originale. Le contenu est le suivant.

Le domaine de l'intelligence artificielle a récemment fait des progrès significatifs, notamment avec des modèles de langage à grande échelle tels que GPT, Claude et Gemini, soulevant ainsi la possibilité qu'un impact très positif de l'intelligence artificielle pourrait être d'accélérer considérablement la transition de la biologie cellulaire à La recherche progresse dans divers domaines scientifiques, de la science des matériaux à la modélisation météorologique et climatique en passant par les neurosciences. Nous résumons ici brièvement cette opportunité scientifique en matière d’IA et ce que le gouvernement américain peut faire pour la saisir.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Opportunités de l'intelligence artificielle et de la science

La grande majorité de la recherche scientifique dans presque tous les domaines peut aujourd'hui être classée comme une science « solitaire ».

En d'autres termes, les scientifiques et leurs équipes de recherche composées d'une douzaine de chercheurs ont une idée, mènent des expériences pour la tester, rédigent et publient les résultats, partagent éventuellement leurs données expérimentales sur Internet, puis répètent le processus.

D'autres scientifiques peuvent consolider ces résultats en lisant des articles publiés, mais Ce processus est sujet aux erreurs et extrêmement inefficace pour plusieurs raisons :

(1) Il est impossible pour un scientifique individuel de lire des articles déjà publiés dans son domaine. Tous les articles Les publications publiées sont donc partiellement aveugles aux autres études pertinentes ; (2) Les expériences décrites dans les publications de revues omettent nécessairement de nombreux détails, ce qui rend difficile pour d'autres de reproduire leurs résultats et de s'appuyer sur les résultats. (3) Une seule analyse des ensembles de données expérimentales est souvent nécessaire ; effectuées de manière isolée, sans incorporer les données d’autres expériences connexes menées par d’autres scientifiques (et n’incorporant donc pas d’informations précieuses).

Au cours des dix prochaines années, l'intelligence artificielle peut aider les scientifiques à surmonter les trois problèmes ci-dessus

L'IA peut transformer ce modèle de recherche scientifique du « ranger solitaire » en un modèle de « découverte scientifique communautaire ». En particulier, l'IA peut être utilisée pour créer un nouveau type d'assistant de recherche informatique qui aide les scientifiques humains à surmonter ces problèmes en :

  • Découvrez des ensembles de données complexes (y compris ceux construits à partir de nombreuses expériences menées dans plusieurs laboratoires) ) plutôt que de mener des recherches isolées. analyses sur un ensemble de données unique, beaucoup plus petit et moins représentatif. Une analyse plus complète et plus précise peut être obtenue en basant l’analyse sur des ensembles de données dont les ordres de grandeur dépassent les capacités humaines.
  • Utilisez des modèles linguistiques à grande échelle d'intelligence artificielle tels que GPT pour lire et digérer chaque publication pertinente dans le domaine, aidant ainsi les scientifiques à formuler de nouvelles hypothèses non seulement basées sur les données expérimentales de leur propre laboratoire et d'autres laboratoires, mais également sur publié Utilisez des hypothèses et des arguments issus de la littérature de recherche pour formuler de nouvelles hypothèses, conduisant à des hypothèses plus éclairées que celles qui auraient été possibles sans cet outil d'IA en langage naturel.
  • Créez des « modèles de base » et entraînez ces modèles en utilisant de nombreux types différents de données expérimentales collectées par les laboratoires et les scientifiques, réunissant ainsi les connaissances croissantes dans le domaine en un seul endroit et en les rendant accessibles par ordinateur. Modèle d'exécution. Ces « modèles de base » exécutables peuvent remplir le même objectif que des équations telles que f = ma, c'est-à-dire qu'ils font des prédictions sur certaines quantités basées sur d'autres quantités observées. Et contrairement aux équations classiques, ces modèles sous-jacents peuvent capturer les relations empiriques entre des centaines de milliers de variables différentes plutôt que seulement une poignée de variables.
  • Automatisez ou semi-automatisez de nouvelles conceptions expérimentales et exécutions robotiques, accélérant ainsi de nouvelles expériences pertinentes et améliorant la reproductibilité des expériences scientifiques.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Quelles avancées scientifiques ce changement de paradigme dans la pratique scientifique pourrait-il apporter ?

Voici quelques exemples :

  • Réduire de 10x le temps de développement et le coût des nouveaux vaccins contre les nouvelles épidémies.
  • L'accélération de la recherche sur les matériaux pourrait conduire à des produits révolutionnaires tels que des supraconducteurs à température ambiante et des matériaux thermoélectriques qui convertissent la chaleur en électricité sans produire d'émissions.
  • Combinant un volume et une diversité jamais tentés auparavant de données expérimentales de biologie cellulaire pour former un « modèle de base » de la fonction cellulaire humaine, permettant l'étape la plus coûteuse de mener des expériences in vivo en laboratoire, simuler rapidement les résultats de de nombreuses expériences potentielles.
  • Combiné aux données expérimentales des neurosciences (des données comportementales d'un seul neurone à l'imagerie IRMf du cerveau entier), construisez un « modèle de base » du cerveau humain à plusieurs niveaux de détail, intégrez des données d'une ampleur et d'une diversité sans précédent, et établissez Un modèle qui prédit l'activité neuronale que le cerveau utilise pour coder différents types de pensées et d'émotions, la manière dont ces pensées et émotions sont évoquées par différents stimuli, les effets des médicaments sur l'activité neuronale et l'efficacité des différents traitements des troubles mentaux.
  • Améliorez notre capacité à prédire la météo, à la fois en adaptant les prévisions à des zones très localisées (par exemple, des fermes individuelles) et en élargissant notre capacité à prédire la météo future.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Que peut faire le gouvernement américain pour saisir cette opportunité ?

La traduction de cette opportunité dans la réalité nécessite plusieurs éléments :

Beaucoup de données expérimentales

Une leçon des modèles textuels de base est que plus ils sont formés sur des données, plus ils deviennent puissants. Les scientifiques expérimentés connaissent également très bien la valeur de données expérimentales de plus en plus diverses. Pour réaliser des progrès scientifiques de plusieurs ordres de grandeur et former les types de modèles sous-jacents que nous souhaitons, nous devons faire des progrès très significatifs dans notre capacité à partager et analyser conjointement divers ensembles de données fournis par l’ensemble de la communauté scientifique.

La possibilité d'accéder aux publications scientifiques et de les lire avec des ordinateurs

Un élément clé de l'opportunité ici est de changer la situation actuelle : il est peu probable que les scientifiques lisent 1 % des publications pertinentes dans leur domaine, les ordinateurs lisent 100 % des publications, les résume ainsi que leur pertinence par rapport aux questions scientifiques actuelles et fournit une interface conversationnelle pour discuter de leur contenu et de leurs implications. Cela nécessite non seulement un accès à la littérature en ligne, mais également des recherches sur l’IA pour construire un tel « assistant littéraire ».

Ressources informatiques et réseau

Les modèles de base basés sur du texte tels que GPT et Gemini sont connus pour la grande quantité de ressources de traitement consommées dans leur développement. Le développement de modèles de base dans différents domaines scientifiques nécessite également de grandes quantités de ressources informatiques. Cependant, les exigences informatiques dans de nombreux efforts scientifiques en matière d'IA sont probablement beaucoup plus faibles que celles requises pour former des LLM tels que GPT, et peuvent donc être réalisées avec des investissements similaires à ceux réalisés par les laboratoires de recherche gouvernementaux.

Par exemple, AlphaFold, un modèle d'IA qui a révolutionné l'analyse des protéines pour la conception de médicaments, utilise beaucoup moins de calculs d'entraînement que les modèles textuels de base comme GPT et Gemini. Pour prendre en charge le partage de données, nous avons besoin de réseaux informatiques massifs, mais l’Internet actuel constitue déjà un point de départ suffisant pour transférer de grands ensembles de données expérimentales. Par conséquent, le coût du matériel nécessaire pour soutenir les progrès scientifiques basés sur l’IA sera probablement assez faible par rapport aux avantages potentiels.

Nouvelles méthodes d'apprentissage automatique et d'IA

Les méthodes d'apprentissage automatique actuelles sont extrêmement utiles pour découvrir des régularités statistiques dans d'énormes ensembles de données que les humains ne peuvent pas examiner (par exemple, AlphaFold est effectué sur de grandes quantités de séquences protéiques et leurs structures 3D soigneusement mesurées. qualifié). Un élément clé de cette nouvelle opportunité consiste à étendre les méthodes actuelles d'apprentissage automatique (découverte de corrélations statistiques dans les données) dans deux directions importantes : (1) passer de la recherche de corrélations à la recherche de relations causales dans les données, et (2) passer de la recherche uniquement de grandes données. L'apprentissage par ensembles de données structurés évolue vers l'apprentissage à partir de grands ensembles de données structurés et de vastes littératures de recherche ; c'est-à-dire, comme les scientifiques humains, à partir de données expérimentales et d'hypothèses et d'arguments publiés exprimés en langage naturel par d'autres. L’émergence récente de LLM dotés de capacités avancées de digestion, de synthèse et de raisonnement sur de grandes collections de textes pourrait constituer la base de cette nouvelle classe d’algorithmes d’apprentissage automatique.

Que doit faire le gouvernement ? La clé est de soutenir les quatre volets ci-dessus et d'unir la communauté scientifique pour explorer de nouvelles méthodes basées sur l'intelligence artificielle afin de promouvoir les progrès de leurs recherches. Par conséquent, le gouvernement devrait envisager de prendre les mesures suivantes :

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Explorer des opportunités spécifiques dans des domaines scientifiques spécifiques, Financer des équipes de recherche multi-institutionnelles dans de nombreux domaines scientifiques pour présenter des visions et des résultats préliminaires démontrant comment l'IA peut être utilisée pour accélérer de manière significative les progrès dans leurs domaines, et ce qui est nécessaire pour faire évoluer cela. approche. Ce travail ne devrait pas être financé sous forme de subventions à des institutions individuelles, car les plus grands progrès pourraient provenir de l’intégration des données et des recherches de nombreux scientifiques de nombreuses institutions. Au contraire, elle sera probablement plus efficace si elle est menée par une équipe de scientifiques issus de nombreuses institutions, qui proposent des opportunités et des approches qui inspirent leur engagement auprès de la communauté scientifique dans son ensemble.

Accélérez la création de nouveaux ensembles de données expérimentales pour former de nouveaux modèles de base et mettre les données à la disposition de l'ensemble de la communauté des scientifiques :

  • Créez des normes de partage de données pour permettre à un scientifique d'utiliser facilement les données expérimentales créées par différents scientifiques, et jeter les bases des ressources de données nationales dans chaque domaine scientifique pertinent. Il convient de noter qu'il y a eu des succès antérieurs dans l'élaboration et l'utilisation de telles normes qui peuvent fournir un modèle de départ pour les efforts de normalisation (par exemple, le succès du partage de données au cours du projet Génome humain).

  • Créez et soutenez des sites Web de partage de données pour tous les domaines pertinents. Tout comme GitHub est devenu le site incontournable permettant aux développeurs de logiciels de contribuer, de partager et de réutiliser du code logiciel, la création d'un GitHub pour les ensembles de données scientifiques peut servir à la fois de référentiel de données et de moteur de recherche pour découvrir des sujets liés à des sujets spécifiques, émettre des hypothèses ou planifier une expérience sur l’ensemble de données le plus pertinent.

  • Étudiez comment créer des mécanismes d'incitation pour maximiser le partage de données. Actuellement, les domaines scientifiques varient considérablement dans la mesure dans laquelle les scientifiques individuels partagent leurs données et dans la mesure dans laquelle les organisations à but lucratif utilisent leurs données pour la recherche scientifique fondamentale. La création d’une vaste ressource nationale de données partageables fait partie intégrante des opportunités scientifiques liées à l’IA, et la création d’une structure d’incitation convaincante pour le partage des données sera la clé du succès.

  • Le cas échéant, financer le développement de laboratoires automatisés (par exemple des laboratoires robotisés pour des expériences de chimie, de biologie, etc. pouvant être utilisés par de nombreux scientifiques via Internet) pour mener des expériences efficacement et les générer dans un format de données standard. L’un des principaux avantages de la création de tels laboratoires est qu’ils favoriseront également le développement de normes précisant précisément les procédures expérimentales à suivre, augmentant ainsi la reproductibilité des résultats expérimentaux. Tout comme nous pouvons bénéficier des GitHubs pour les ensembles de données, nous pouvons également bénéficier des GitHubs associés pour partager, modifier et réutiliser les composants des protocoles expérimentaux.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Créer une nouvelle génération d'outils d'intelligence artificielle nécessite :

  • Financer la recherche fondamentale pertinente en IA spécifiquement développée pour les méthodes de recherche scientifique. Cela devrait inclure le développement de « modèles fondamentaux » au sens large, en tant qu'outils permettant d'accélérer la recherche dans différents domaines et d'accélérer le passage d'une science « solitaire » à un paradigme plus puissant de « découverte scientifique communautaire ».

  • Soutient spécialement la recherche en lisant la littérature de recherche, en critiquant les hypothèses de départ énoncées et en suggérant des améliorations, et en aidant les scientifiques à tirer des résultats de la littérature scientifique d'une manière directement pertinente à leurs questions actuelles.

  • Soutient spécialement la recherche qui étend l'apprentissage automatique de la découverte de corrélations à la découverte de la causalité, en particulier dans les contextes où de nouvelles expériences peuvent être planifiées et exécutées pour tester des hypothèses causales.

  • Soutient spécialement l'expansion de la recherche sur les algorithmes d'apprentissage automatique, de la prise en compte uniquement du Big Data en entrée, à la prise en compte à la fois de données expérimentales volumineuses et d'une littérature de recherche complète dans le domaine, afin de générer des régularités statistiques dans les données expérimentales et la recherche. littérature Les hypothèses, explications et arguments discutés dans .

Contenu associé :

https://x.com/tommmitchell/status/1817297827003064715
https://docs.google.com/document/d/1ak_XRk5j5ZHixHUxXeqaiCeeaNxXySO lH 1kIeEH3DXE/edit?pli=1
Remarque : les images de cet article proviennent d'Internet.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn