Rumah  >  Artikel  >  Peranti teknologi  >  "Bapa Pembelajaran Mesin" Mitchell menulis: Bagaimana AI mempercepatkan pembangunan saintifik dan bagaimana Amerika Syarikat merebut peluang

"Bapa Pembelajaran Mesin" Mitchell menulis: Bagaimana AI mempercepatkan pembangunan saintifik dan bagaimana Amerika Syarikat merebut peluang

王林
王林asal
2024-07-29 20:23:43706semak imbas

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Editor |. ScienceAI

Baru-baru ini, Tom M. Mitchell, seorang profesor di Universiti Carnegie Mellon dan dikenali sebagai "Bapa Pembelajaran Mesin", menulis kertas putih AI untuk Sains baharu, memfokuskan pada perbincangan "Bagaimana boleh buatan kecerdasan mempercepatkan pembangunan saintifik? Bagaimanakah kerajaan A.S. boleh membantu mencapai matlamat ini?" Topik ini.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

ScienceAI telah menyusun teks penuh kertas putih asal tanpa mengubah maksud asalnya adalah seperti berikut.

Bidang kecerdasan buatan baru-baru ini telah mencapai kemajuan yang ketara, termasuk model bahasa berskala besar seperti GPT, Claude dan Gemini, sekali gus menimbulkan kemungkinan bahawa kesan yang sangat positif daripada kecerdasan buatan adalah untuk mempercepatkan peralihan daripada biologi sel kepada Penyelidikan kemajuan dalam pelbagai bidang saintifik, daripada sains bahan kepada pemodelan cuaca dan iklim kepada neurosains. Di sini kami meringkaskan secara ringkas peluang sains AI ini dan perkara yang boleh dilakukan oleh kerajaan A.S. untuk merebutnya.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Peluang Kecerdasan Buatan dan Sains

Sebahagian besar penyelidikan saintifik dalam hampir semua bidang hari ini boleh diklasifikasikan sebagai sains "lone ranger".

Dalam erti kata lain, saintis dan pasukan penyelidik mereka yang terdiri daripada sedozen penyelidik menghasilkan idea, menjalankan eksperimen untuk mengujinya, menulis dan menerbitkan hasilnya, mungkin berkongsi data percubaan mereka di Internet, dan kemudian mengulangi proses itu.

Saintis lain boleh menyatukan keputusan ini dengan membaca kertas yang diterbitkan, tetapi Proses ini terdedah kepada ralat dan sangat tidak cekap atas beberapa sebab:

(1) Adalah mustahil untuk saintis individu membaca kertas kerja yang telah diterbitkan dalam bidang mereka Semua artikel Oleh itu, diterbitkan sebahagiannya buta kepada kajian lain yang berkaitan; (2) Eksperimen yang diterangkan dalam penerbitan jurnal semestinya meninggalkan banyak butiran, menyukarkan orang lain untuk meniru keputusan mereka dan membina keputusannya; dilakukan secara berasingan, gagal untuk memasukkan data daripada eksperimen lain yang berkaitan yang dijalankan oleh saintis lain (dan oleh itu tidak memasukkan maklumat berharga).

Dalam tempoh sepuluh tahun akan datang, kecerdasan buatan boleh membantu saintis mengatasi tiga masalah di atas

AI boleh mengubah model penyelidikan saintifik "lone ranger" ini kepada model "penemuan saintifik komuniti". Khususnya, AI boleh digunakan untuk mencipta jenis pembantu penyelidik komputer baharu yang membantu saintis manusia mengatasi masalah ini dengan:

  • Temui set data yang kompleks (termasuk yang dibina daripada banyak eksperimen yang dijalankan di pelbagai makmal) ) dan bukannya menjalankan terpencil. menganalisis pada satu set data yang jauh lebih kecil dan kurang mewakili. Analisis yang lebih komprehensif dan tepat boleh dicapai dengan mengasaskan analisis pada set data yang urutan magnitud lebih besar daripada keupayaan manusia.
  • Gunakan model bahasa berskala besar kecerdasan buatan seperti GPT untuk membaca dan mencerna setiap penerbitan yang berkaitan dalam bidang, dengan itu membantu saintis membentuk hipotesis baharu bukan sahaja berdasarkan data eksperimen dari makmal mereka sendiri dan makmal lain, tetapi juga berdasarkan diterbitkan Gunakan andaian dan hujah daripada literatur penyelidikan untuk merumuskan hipotesis baharu, yang membawa kepada hipotesis yang lebih termaklum daripada yang mungkin dilakukan tanpa alat AI bahasa semula jadi ini.
  • Buat "model asas" dan latih model ini menggunakan pelbagai jenis data eksperimen yang dikumpul oleh makmal dan saintis, sekali gus membawa pengetahuan yang semakin berkembang dalam bidang itu ke satu tempat dan menjadikannya model Pelaksanaan yang boleh diakses oleh komputer. "Model asas" boleh laku ini boleh berfungsi dengan tujuan yang sama seperti persamaan seperti f = ma, iaitu mereka membuat ramalan tentang kuantiti tertentu berdasarkan kuantiti diperhatikan yang lain. Dan, tidak seperti persamaan klasik, model asas ini boleh menangkap hubungan empirikal antara ratusan ribu pembolehubah berbeza dan bukannya segelintir pembolehubah.
  • Mengautomasikan atau separa mengautomasikan reka bentuk percubaan baharu dan pelaksanaan robotik, dengan itu mempercepatkan eksperimen baharu yang berkaitan dan meningkatkan kebolehulangan eksperimen saintifik.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Apakah kejayaan saintifik yang mungkin dibawa oleh peralihan paradigma dalam amalan saintifik ini?

Berikut adalah beberapa contoh:

  • Réduire de 10x le temps de développement et le coût des nouveaux vaccins contre les nouvelles épidémies.
  • L'accélération de la recherche sur les matériaux pourrait conduire à des produits révolutionnaires tels que des supraconducteurs à température ambiante et des matériaux thermoélectriques qui convertissent la chaleur en électricité sans produire d'émissions.
  • Combinant un volume et une diversité jamais tentés auparavant de données expérimentales de biologie cellulaire pour former un « modèle de base » de la fonction cellulaire humaine, permettant l'étape la plus coûteuse de mener des expériences in vivo en laboratoire, simuler rapidement les résultats de de nombreuses expériences potentielles.
  • Combiné aux données expérimentales des neurosciences (des données comportementales d'un seul neurone à l'imagerie IRMf du cerveau entier), construisez un « modèle de base » du cerveau humain à plusieurs niveaux de détail, intégrez des données d'une ampleur et d'une diversité sans précédent, et établissez Un modèle qui prédit l'activité neuronale que le cerveau utilise pour coder différents types de pensées et d'émotions, la manière dont ces pensées et émotions sont évoquées par différents stimuli, les effets des médicaments sur l'activité neuronale et l'efficacité des différents traitements des troubles mentaux.
  • Améliorez notre capacité à prédire la météo, à la fois en adaptant les prévisions à des zones très localisées (par exemple, des fermes individuelles) et en élargissant notre capacité à prédire la météo future.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Que peut faire le gouvernement américain pour saisir cette opportunité ?

La traduction de cette opportunité dans la réalité nécessite plusieurs éléments :

Beaucoup de données expérimentales

Une leçon des modèles textuels de base est que plus ils sont formés sur des données, plus ils deviennent puissants. Les scientifiques expérimentés connaissent également très bien la valeur de données expérimentales de plus en plus diverses. Pour réaliser des progrès scientifiques de plusieurs ordres de grandeur et former les types de modèles sous-jacents que nous souhaitons, nous devons faire des progrès très significatifs dans notre capacité à partager et analyser conjointement divers ensembles de données fournis par l’ensemble de la communauté scientifique.

La possibilité d'accéder aux publications scientifiques et de les lire avec des ordinateurs

Un élément clé de l'opportunité ici est de changer la situation actuelle : il est peu probable que les scientifiques lisent 1 % des publications pertinentes dans leur domaine, les ordinateurs lisent 100 % des publications, les résume ainsi que leur pertinence par rapport aux questions scientifiques actuelles et fournit une interface conversationnelle pour discuter de leur contenu et de leurs implications. Cela nécessite non seulement un accès à la littérature en ligne, mais également des recherches sur l’IA pour construire un tel « assistant littéraire ».

Ressources informatiques et réseau

Les modèles de base basés sur du texte tels que GPT et Gemini sont connus pour la grande quantité de ressources de traitement consommées dans leur développement. Le développement de modèles de base dans différents domaines scientifiques nécessite également de grandes quantités de ressources informatiques. Cependant, les exigences informatiques dans de nombreux efforts scientifiques en matière d'IA sont probablement beaucoup plus faibles que celles requises pour former des LLM tels que GPT, et peuvent donc être réalisées avec des investissements similaires à ceux réalisés par les laboratoires de recherche gouvernementaux.

Par exemple, AlphaFold, un modèle d'IA qui a révolutionné l'analyse des protéines pour la conception de médicaments, utilise beaucoup moins de calculs d'entraînement que les modèles textuels de base comme GPT et Gemini. Pour prendre en charge le partage de données, nous avons besoin de réseaux informatiques massifs, mais l’Internet actuel constitue déjà un point de départ suffisant pour transférer de grands ensembles de données expérimentales. Par conséquent, le coût du matériel nécessaire pour soutenir les progrès scientifiques basés sur l’IA sera probablement assez faible par rapport aux avantages potentiels.

Nouvelles méthodes d'apprentissage automatique et d'IA

Les méthodes d'apprentissage automatique actuelles sont extrêmement utiles pour découvrir des régularités statistiques dans d'énormes ensembles de données que les humains ne peuvent pas examiner (par exemple, AlphaFold est effectué sur de grandes quantités de séquences protéiques et leurs structures 3D soigneusement mesurées. qualifié). Un élément clé de cette nouvelle opportunité consiste à étendre les méthodes actuelles d'apprentissage automatique (découverte de corrélations statistiques dans les données) dans deux directions importantes : (1) passer de la recherche de corrélations à la recherche de relations causales dans les données, et (2) passer de la recherche uniquement de grandes données. L'apprentissage par ensembles de données structurés évolue vers l'apprentissage à partir de grands ensembles de données structurés et de vastes littératures de recherche ; c'est-à-dire, comme les scientifiques humains, à partir de données expérimentales et d'hypothèses et d'arguments publiés exprimés en langage naturel par d'autres. L’émergence récente de LLM dotés de capacités avancées de digestion, de synthèse et de raisonnement sur de grandes collections de textes pourrait constituer la base de cette nouvelle classe d’algorithmes d’apprentissage automatique.

Que doit faire le gouvernement ? La clé est de soutenir les quatre volets ci-dessus et d'unir la communauté scientifique pour explorer de nouvelles méthodes basées sur l'intelligence artificielle afin de promouvoir les progrès de leurs recherches. Par conséquent, le gouvernement devrait envisager de prendre les mesures suivantes :

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Explorer des opportunités spécifiques dans des domaines scientifiques spécifiques, Financer des équipes de recherche multi-institutionnelles dans de nombreux domaines scientifiques pour présenter des visions et des résultats préliminaires démontrant comment l'IA peut être utilisée pour accélérer de manière significative les progrès dans leurs domaines, et ce qui est nécessaire pour la développer. cette approche. Ce travail ne devrait pas être financé sous forme de subventions à des institutions individuelles, car les plus grands progrès pourraient provenir de l’intégration des données et des recherches de nombreux scientifiques de nombreuses institutions. Au contraire, elle sera probablement plus efficace si elle est menée par une équipe de scientifiques issus de nombreuses institutions, qui proposent des opportunités et des approches qui inspirent leur engagement auprès de la communauté scientifique dans son ensemble.

Accélérez la création de nouveaux ensembles de données expérimentales pour former de nouveaux modèles de base et rendre les données disponibles à l'ensemble de la communauté des scientifiques :

  • Créez des normes de partage de données qui permettent à un scientifique d'utiliser facilement les données expérimentales créées par différents scientifiques, et fournir la base des ressources de données nationales dans chaque domaine scientifique pertinent. Il convient de noter qu'il y a eu des succès antérieurs dans l'élaboration et l'utilisation de telles normes qui peuvent fournir un modèle de départ pour les efforts de normalisation (par exemple, le succès du partage de données au cours du projet Génome humain).

  • Créez et soutenez des sites Web de partage de données pour tous les domaines pertinents. Tout comme GitHub est devenu le site incontournable permettant aux développeurs de logiciels de contribuer, de partager et de réutiliser du code logiciel, la création d'un GitHub pour les ensembles de données scientifiques peut servir à la fois de référentiel de données et de moteur de recherche pour découvrir des sujets liés à des sujets spécifiques, émettre des hypothèses ou planifier une expérience sur l’ensemble de données le plus pertinent.

  • Étudiez comment créer des mécanismes d'incitation pour maximiser le partage de données. Actuellement, les domaines scientifiques varient considérablement dans la mesure dans laquelle les scientifiques individuels partagent leurs données et dans la mesure dans laquelle les organisations à but lucratif utilisent leurs données pour la recherche scientifique fondamentale. La création d’une vaste ressource nationale de données partageables fait partie intégrante des opportunités scientifiques liées à l’IA, et la création d’une structure d’incitation convaincante pour le partage des données sera la clé du succès.

  • Le cas échéant, financer le développement de laboratoires automatisés (par exemple des laboratoires robotisés pour des expériences de chimie, de biologie, etc. pouvant être utilisés par de nombreux scientifiques via Internet) pour mener des expériences efficacement et les générer dans un format de données standard. Un avantage majeur de la création de tels laboratoires est qu'ils favoriseront également le développement de normes décrivant précisément les procédures expérimentales à suivre, augmentant ainsi la reproductibilité des résultats expérimentaux. Tout comme nous pouvons bénéficier des GitHubs pour les ensembles de données, nous pouvons également bénéficier des GitHubs associés pour partager, modifier et réutiliser les composants des protocoles expérimentaux.

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

Créer une nouvelle génération d'outils d'intelligence artificielle nécessite :

  • Financer la recherche fondamentale pertinente en IA spécifiquement développée pour les méthodes de recherche scientifique. Cela devrait inclure le développement de « modèles fondamentaux » au sens large, en tant qu'outils permettant d'accélérer la recherche dans différents domaines et d'accélérer le passage d'une science « solitaire » à un paradigme plus puissant de « découverte scientifique communautaire ».

  • Soutient spécialement la recherche en lisant la littérature de recherche, en critiquant les hypothèses de départ énoncées et en suggérant des améliorations, et en aidant les scientifiques à tirer des résultats de la littérature scientifique d'une manière directement pertinente à leurs questions actuelles.

  • Soutient spécialement la recherche qui étend l'apprentissage automatique de la découverte de corrélations à la découverte de la causalité, en particulier dans les contextes où de nouvelles expériences peuvent être planifiées et exécutées pour tester des hypothèses causales.

  • Soutient particulièrement l'expansion de la recherche sur les algorithmes d'apprentissage automatique, de la prise uniquement de données volumineuses en entrée, à la prise en entrée de données expérimentales volumineuses et d'une littérature de recherche complète dans le domaine, afin de générer des régularités statistiques dans les données expérimentales et la recherche. littérature Les hypothèses, explications et arguments discutés dans .

Contenu associé :

https://x.com/tommmitchell/status/1817297827003064715
https://docs.google.com/document/d/1ak_XRk5j5ZHixHUxXeqaiCeeaNxXySO lH 1kIeEH3DXE/edit?pli=1
Remarque : les images de cet article proviennent d'Internet.

Atas ialah kandungan terperinci "Bapa Pembelajaran Mesin" Mitchell menulis: Bagaimana AI mempercepatkan pembangunan saintifik dan bagaimana Amerika Syarikat merebut peluang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn