Rumah >Peranti teknologi >AI >'Bapa Pembelajaran Mesin' Mitchell menulis: Bagaimana AI mempercepatkan pembangunan saintifik dan bagaimana Amerika Syarikat merebut peluang
Editor |. ScienceAI
Baru-baru ini, Tom M. Mitchell, seorang profesor di Universiti Carnegie Mellon dan dikenali sebagai "Bapa Pembelajaran Mesin", menulis kertas putih AI untuk Sains baharu, memfokuskan pada perbincangan "Bagaimana boleh buatan kecerdasan mempercepatkan pembangunan saintifik? Bagaimanakah kerajaan A.S. boleh membantu mencapai matlamat ini?" Topik ini.
ScienceAI telah menyusun teks penuh kertas putih asal tanpa mengubah maksud asalnya adalah seperti berikut.
Bidang kecerdasan buatan baru-baru ini telah mencapai kemajuan yang ketara, termasuk model bahasa berskala besar seperti GPT, Claude dan Gemini, sekali gus menimbulkan kemungkinan bahawa kesan yang sangat positif daripada kecerdasan buatan adalah untuk mempercepatkan peralihan daripada biologi sel kepada Penyelidikan kemajuan dalam pelbagai bidang saintifik, daripada sains bahan kepada pemodelan cuaca dan iklim kepada neurosains. Di sini kami meringkaskan secara ringkas peluang sains AI ini dan perkara yang boleh dilakukan oleh kerajaan A.S. untuk merebutnya.
Sebahagian besar penyelidikan saintifik dalam hampir semua bidang hari ini boleh diklasifikasikan sebagai sains "lone ranger".
Dalam erti kata lain, saintis dan pasukan penyelidik mereka yang terdiri daripada sedozen penyelidik menghasilkan idea, menjalankan eksperimen untuk mengujinya, menulis dan menerbitkan hasilnya, mungkin berkongsi data percubaan mereka di Internet, dan kemudian mengulangi proses itu.
Saintis lain boleh menyatukan keputusan ini dengan membaca kertas yang diterbitkan, tetapi Proses ini terdedah kepada ralat dan sangat tidak cekap atas beberapa sebab:
(1) Adalah mustahil untuk saintis individu membaca kertas kerja yang telah diterbitkan dalam bidang mereka Semua artikel Oleh itu, diterbitkan sebahagiannya buta kepada kajian lain yang berkaitan; (2) Eksperimen yang diterangkan dalam penerbitan jurnal semestinya meninggalkan banyak butiran, menyukarkan orang lain untuk meniru keputusan mereka dan membina keputusannya; dilakukan secara berasingan, gagal untuk memasukkan data daripada eksperimen lain yang berkaitan yang dijalankan oleh saintis lain (dan oleh itu tidak memasukkan maklumat berharga).
Dalam tempoh sepuluh tahun akan datang, kecerdasan buatan boleh membantu saintis mengatasi tiga masalah di atas
AI boleh mengubah model penyelidikan saintifik "lone ranger" ini kepada model "penemuan saintifik komuniti". Khususnya, AI boleh digunakan untuk mencipta jenis pembantu penyelidik komputer baharu yang membantu saintis manusia mengatasi masalah ini dengan:
Apakah kejayaan saintifik yang mungkin dibawa oleh peralihan paradigma dalam amalan saintifik ini?
Berikut adalah beberapa contoh:
La traduction de cette opportunité dans la réalité nécessite plusieurs éléments :
Beaucoup de données expérimentales
Une leçon des modèles textuels de base est que plus ils sont formés sur des données, plus ils deviennent puissants. Les scientifiques expérimentés connaissent également très bien la valeur de données expérimentales de plus en plus diverses. Pour réaliser des progrès scientifiques de plusieurs ordres de grandeur et former les types de modèles sous-jacents que nous souhaitons, nous devons faire des progrès très significatifs dans notre capacité à partager et analyser conjointement divers ensembles de données fournis par l’ensemble de la communauté scientifique.
La possibilité d'accéder aux publications scientifiques et de les lire avec des ordinateurs
Un élément clé de l'opportunité ici est de changer la situation actuelle : il est peu probable que les scientifiques lisent 1 % des publications pertinentes dans leur domaine, les ordinateurs lisent 100 % des publications, les résume ainsi que leur pertinence par rapport aux questions scientifiques actuelles et fournit une interface conversationnelle pour discuter de leur contenu et de leurs implications. Cela nécessite non seulement un accès à la littérature en ligne, mais également des recherches sur l’IA pour construire un tel « assistant littéraire ».
Ressources informatiques et réseau
Les modèles de base basés sur du texte tels que GPT et Gemini sont connus pour la grande quantité de ressources de traitement consommées dans leur développement. Le développement de modèles de base dans différents domaines scientifiques nécessite également de grandes quantités de ressources informatiques. Cependant, les exigences informatiques dans de nombreux efforts scientifiques en matière d'IA sont probablement beaucoup plus faibles que celles requises pour former des LLM tels que GPT, et peuvent donc être réalisées avec des investissements similaires à ceux réalisés par les laboratoires de recherche gouvernementaux.
Par exemple, AlphaFold, un modèle d'IA qui a révolutionné l'analyse des protéines pour la conception de médicaments, utilise beaucoup moins de calculs d'entraînement que les modèles textuels de base comme GPT et Gemini. Pour prendre en charge le partage de données, nous avons besoin de réseaux informatiques massifs, mais l’Internet actuel constitue déjà un point de départ suffisant pour transférer de grands ensembles de données expérimentales. Par conséquent, le coût du matériel nécessaire pour soutenir les progrès scientifiques basés sur l’IA sera probablement assez faible par rapport aux avantages potentiels.
Nouvelles méthodes d'apprentissage automatique et d'IA
Les méthodes d'apprentissage automatique actuelles sont extrêmement utiles pour découvrir des régularités statistiques dans d'énormes ensembles de données que les humains ne peuvent pas examiner (par exemple, AlphaFold est effectué sur de grandes quantités de séquences protéiques et leurs structures 3D soigneusement mesurées. qualifié). Un élément clé de cette nouvelle opportunité consiste à étendre les méthodes actuelles d'apprentissage automatique (découverte de corrélations statistiques dans les données) dans deux directions importantes : (1) passer de la recherche de corrélations à la recherche de relations causales dans les données, et (2) passer de la recherche uniquement de grandes données. L'apprentissage par ensembles de données structurés évolue vers l'apprentissage à partir de grands ensembles de données structurés et de vastes littératures de recherche ; c'est-à-dire, comme les scientifiques humains, à partir de données expérimentales et d'hypothèses et d'arguments publiés exprimés en langage naturel par d'autres. L’émergence récente de LLM dotés de capacités avancées de digestion, de synthèse et de raisonnement sur de grandes collections de textes pourrait constituer la base de cette nouvelle classe d’algorithmes d’apprentissage automatique.
Que doit faire le gouvernement ? La clé est de soutenir les quatre volets ci-dessus et d'unir la communauté scientifique pour explorer de nouvelles méthodes basées sur l'intelligence artificielle afin de promouvoir les progrès de leurs recherches. Par conséquent, le gouvernement devrait envisager de prendre les mesures suivantes :
Explorer des opportunités spécifiques dans des domaines scientifiques spécifiques, Financer des équipes de recherche multi-institutionnelles dans de nombreux domaines scientifiques pour présenter des visions et des résultats préliminaires démontrant comment l'IA peut être utilisée pour accélérer de manière significative les progrès dans leurs domaines, et ce qui est nécessaire pour la développer. cette approche. Ce travail ne devrait pas être financé sous forme de subventions à des institutions individuelles, car les plus grands progrès pourraient provenir de l’intégration des données et des recherches de nombreux scientifiques de nombreuses institutions. Au contraire, elle sera probablement plus efficace si elle est menée par une équipe de scientifiques issus de nombreuses institutions, qui proposent des opportunités et des approches qui inspirent leur engagement auprès de la communauté scientifique dans son ensemble.
Accélérez la création de nouveaux ensembles de données expérimentales pour former de nouveaux modèles de base et rendre les données disponibles à l'ensemble de la communauté des scientifiques :
Créez des normes de partage de données qui permettent à un scientifique d'utiliser facilement les données expérimentales créées par différents scientifiques, et fournir la base des ressources de données nationales dans chaque domaine scientifique pertinent. Il convient de noter qu'il y a eu des succès antérieurs dans l'élaboration et l'utilisation de telles normes qui peuvent fournir un modèle de départ pour les efforts de normalisation (par exemple, le succès du partage de données au cours du projet Génome humain).
Créez et soutenez des sites Web de partage de données pour tous les domaines pertinents. Tout comme GitHub est devenu le site incontournable permettant aux développeurs de logiciels de contribuer, de partager et de réutiliser du code logiciel, la création d'un GitHub pour les ensembles de données scientifiques peut servir à la fois de référentiel de données et de moteur de recherche pour découvrir des sujets liés à des sujets spécifiques, émettre des hypothèses ou planifier une expérience sur l’ensemble de données le plus pertinent.
Étudiez comment créer des mécanismes d'incitation pour maximiser le partage de données. Actuellement, les domaines scientifiques varient considérablement dans la mesure dans laquelle les scientifiques individuels partagent leurs données et dans la mesure dans laquelle les organisations à but lucratif utilisent leurs données pour la recherche scientifique fondamentale. La création d’une vaste ressource nationale de données partageables fait partie intégrante des opportunités scientifiques liées à l’IA, et la création d’une structure d’incitation convaincante pour le partage des données sera la clé du succès.
Le cas échéant, financer le développement de laboratoires automatisés (par exemple des laboratoires robotisés pour des expériences de chimie, de biologie, etc. pouvant être utilisés par de nombreux scientifiques via Internet) pour mener des expériences efficacement et les générer dans un format de données standard. Un avantage majeur de la création de tels laboratoires est qu'ils favoriseront également le développement de normes décrivant précisément les procédures expérimentales à suivre, augmentant ainsi la reproductibilité des résultats expérimentaux. Tout comme nous pouvons bénéficier des GitHubs pour les ensembles de données, nous pouvons également bénéficier des GitHubs associés pour partager, modifier et réutiliser les composants des protocoles expérimentaux.
Créer une nouvelle génération d'outils d'intelligence artificielle nécessite :
Financer la recherche fondamentale pertinente en IA spécifiquement développée pour les méthodes de recherche scientifique. Cela devrait inclure le développement de « modèles fondamentaux » au sens large, en tant qu'outils permettant d'accélérer la recherche dans différents domaines et d'accélérer le passage d'une science « solitaire » à un paradigme plus puissant de « découverte scientifique communautaire ».
Soutient spécialement la recherche en lisant la littérature de recherche, en critiquant les hypothèses de départ énoncées et en suggérant des améliorations, et en aidant les scientifiques à tirer des résultats de la littérature scientifique d'une manière directement pertinente à leurs questions actuelles.
Soutient spécialement la recherche qui étend l'apprentissage automatique de la découverte de corrélations à la découverte de la causalité, en particulier dans les contextes où de nouvelles expériences peuvent être planifiées et exécutées pour tester des hypothèses causales.
Soutient particulièrement l'expansion de la recherche sur les algorithmes d'apprentissage automatique, de la prise uniquement de données volumineuses en entrée, à la prise en entrée de données expérimentales volumineuses et d'une littérature de recherche complète dans le domaine, afin de générer des régularités statistiques dans les données expérimentales et la recherche. littérature Les hypothèses, explications et arguments discutés dans .
Contenu associé :
Atas ialah kandungan terperinci 'Bapa Pembelajaran Mesin' Mitchell menulis: Bagaimana AI mempercepatkan pembangunan saintifik dan bagaimana Amerika Syarikat merebut peluang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!