집 >기술 주변기기 >일체 포함 >'머신러닝의 아버지' Mitchell은 다음과 같이 썼습니다. AI가 과학 발전을 가속화하는 방법과 미국이 기회를 포착하는 방법

'머신러닝의 아버지' Mitchell은 다음과 같이 썼습니다. AI가 과학 발전을 가속화하는 방법과 미국이 기회를 포착하는 방법

王林원래의: 2024-07-29 20:23:43914검색

「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇

Editor | ScienceAI

최근 카네기멜론대학교 교수이자 "머신러닝의 아버지"로 알려진 Tom M. Mitchell은 "어떻게 인공지능을 인공지능으로 만들 수 있는가?"라는 주제로 새로운 과학용 AI 백서를 작성했습니다. 지능이 과학 발전을 가속화할 수 있습니까? 미국 정부는 이 목표를 달성하는 데 어떻게 도움을 줄 수 있습니까?" 이 주제입니다.

「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇

ScienceAI는 원래 의미를 변경하지 않고 원본 백서의 전문을 편집했습니다.

인공지능 분야는 최근 GPT, Claude, Gemini와 같은 대규모 언어 모델을 포함하여 상당한 발전을 이루었고, 따라서 인공지능의 매우 긍정적인 영향이 세포 생물학에서 세포 생물학으로의 전환을 크게 가속화할 수 있다는 가능성이 제기되고 있습니다. 재료과학부터 날씨 및 기후 모델링, 신경과학까지 다양한 과학 분야에서 연구가 발전하고 있습니다. 여기에서는 AI 과학 기회와 미국 정부가 이를 포착하기 위해 무엇을 할 수 있는지 간략하게 요약합니다.

「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇

인공 지능과 과학의 기회

오늘날 거의 모든 분야의 과학 연구의 대다수는 "론 레인저" 과학으로 분류될 수 있습니다.

즉, 과학자와 12명의 연구자로 구성된 연구팀이 아이디어를 내고, 이를 테스트하기 위한 실험을 수행하고, 결과를 작성하여 게시하고, 아마도 실험 데이터를 인터넷에 공유하고, 그런 다음 프로세스를 반복합니다.

다른 과학자들은 출판된 논문을 읽어 이러한 결과를 통합할 수 있지만 이 프로세스는 오류가 발생하기 쉽고 여러 가지 이유로 매우 비효율적입니다.

(1) 개별 과학자가 해당 분야에서 이미 출판된 논문을 읽는 것은 불가능합니다. 모든 기사 따라서 출판된 다른 관련 연구에 대해 부분적으로 눈이 멀었습니다. (2) 저널 출판물에 설명된 실험은 필연적으로 많은 세부 사항을 생략하여 다른 사람들이 결과를 복제하고 결과를 구축하기 어렵게 만듭니다. (3) 실험 데이터 세트에 대한 단일 분석은 종종 독립적으로 수행되어 다른 과학자가 수행한 다른 관련 실험의 데이터를 통합하지 못했습니다(따라서 귀중한 정보를 통합하지 않음).

향후 10년 안에 인공지능은 과학자들이 위의 세 가지 문제를 극복하는 데 도움을 줄 수 있습니다.

AI는 이 "론 레인저" 과학 연구 모델을 "공동체 과학적 발견" 모델로 전환할 수 있습니다. 특히 AI는 다음과 같은 방법으로 인간 과학자들이 이러한 문제를 극복하는 데 도움이 되는 새로운 유형의 컴퓨터 연구 보조원을 만드는 데 사용될 수 있습니다. 훨씬 더 작고 대표성이 떨어지는 단일 데이터 세트를 분석합니다. 인간의 능력보다 훨씬 더 큰 데이터 세트를 기반으로 분석을 수행하면 보다 포괄적이고 정확한 분석이 가능합니다.

GPT와 같은 인공 지능 대규모 언어 모델을 사용하여 해당 분야의 모든 관련 출판물을 읽고 소화함으로써 과학자들이 자체 실험실 및 기타 실험실의 실험 데이터뿐만 아니라 다음을 기반으로 새로운 가설을 형성할 수 있도록 돕습니다. 출판 연구 문헌의 가정과 주장을 사용하여 새로운 가설을 공식화함으로써 이 자연어 AI 도구가 없었다면 가능했을 것보다 더 많은 정보를 바탕으로 한 가설을 도출할 수 있습니다.
"기본 모델"을 만들고 실험실과 과학자가 수집한 다양한 유형의 실험 데이터를 사용하여 이러한 모델을 훈련함으로써 해당 분야에서 늘어나는 지식을 한 곳으로 가져와 컴퓨터에서 액세스할 수 있는 실행 모델로 만듭니다. 이러한 실행 가능한 "기본 모델"은 f = ma와 같은 방정식과 동일한 목적을 수행할 수 있습니다. 즉, 관찰된 다른 수량을 기반으로 특정 수량에 대해 예측합니다. 그리고 고전 방정식과 달리 이러한 기본 모델은 소수의 변수가 아닌 수십만 개의 다양한 변수 간의 실증적 관계를 포착할 수 있습니다.
새로운 실험 설계 및 로봇 실행을 자동화 또는 반자동화하여 새로운 관련 실험을 가속화하고 과학 실험의 재현성을 향상시킵니다.

이러한 과학적 실천의 패러다임 전환은 어떤 과학적 혁신을 가져올 수 있을까요? 「机器学习之父」Mitchell 撰文：AI 如何加速科学发展，美国如何抓住机遇

다음은 몇 가지 예입니다.

Mengurangkan masa pembangunan dan kos vaksin baharu untuk wabak penyakit baharu sebanyak 10x.

Mempercepatkan penyelidikan bahan boleh membawa kepada produk terobosan seperti superkonduktor suhu bilik dan bahan termoelektrik yang menukar haba kepada elektrik tanpa menghasilkan pelepasan.

Menggabungkan volum yang tidak pernah dicuba sebelum ini dan kepelbagaian data eksperimen biologi sel untuk membentuk "model asas" fungsi sel manusia, membolehkan langkah yang lebih mahal untuk menjalankan eksperimen in vivo di makmal, mensimulasikan dengan cepat keputusan banyak eksperimen yang berpotensi.

Digabungkan dengan data eksperimen daripada neurosains (daripada data tingkah laku neuron tunggal kepada pengimejan fMRI seluruh otak), bina "model asas" otak manusia pada pelbagai peringkat perincian, integrasikan data dengan skala dan kepelbagaian yang belum pernah terjadi sebelumnya, dan wujudkan Model yang meramalkan aktiviti saraf yang digunakan oleh otak untuk menyandikan jenis pemikiran dan emosi yang berbeza, bagaimana pemikiran dan emosi tersebut ditimbulkan oleh rangsangan yang berbeza, kesan ubat pada aktiviti saraf, dan keberkesanan rawatan yang berbeza untuk gangguan mental.

Tingkatkan keupayaan kami untuk meramal cuaca, kedua-duanya dengan menyesuaikan ramalan ke kawasan yang sangat setempat (cth., ladang individu) dan dengan mengembangkan keupayaan kami untuk meramal cuaca masa hadapan.

Apakah yang boleh kerajaan AS lakukan untuk merebut peluang ini?

Menterjemah peluang ini kepada realiti memerlukan beberapa elemen:

Banyak data percubaan

Satu pengajaran model berasaskan teks asas ialah semakin banyak data yang dilatih, semakin berkuasa ia. Para saintis yang berpengalaman juga mengetahui dengan baik nilai data eksperimen yang lebih banyak dan lebih pelbagai. Untuk mencapai banyak urutan kemajuan dalam sains, dan untuk melatih jenis model asas yang kita inginkan, kita perlu membuat kemajuan yang sangat ketara dalam keupayaan kita untuk berkongsi dan bersama-sama menganalisis pelbagai set data yang disumbangkan oleh seluruh komuniti saintifik.

Keupayaan untuk mengakses penerbitan saintifik dan membacanya dengan komputer

Sebahagian utama peluang di sini adalah untuk mengubah keadaan semasa: saintis tidak mungkin membaca 1% daripada penerbitan yang berkaitan dalam bidang mereka, komputer membaca 100% daripada penerbitan, meringkaskannya dan kaitannya dengan isu saintifik semasa, dan menyediakan antara muka perbualan untuk membincangkan kandungan dan implikasinya. Ini memerlukan bukan sahaja akses kepada kesusasteraan dalam talian, tetapi juga penyelidikan AI untuk membina "pembantu sastera" sedemikian.

Sumber Pengkomputeran dan Rangkaian

Model asas berasaskan teks seperti GPT dan Gemini terkenal dengan jumlah sumber pemprosesan yang banyak digunakan semasa pembangunannya. Walau bagaimanapun, permintaan pengiraan dalam banyak usaha saintifik AI mungkin jauh lebih kecil daripada yang diperlukan untuk melatih LLM seperti GPT, dan dengan itu boleh dicapai dengan pelaburan yang serupa dengan yang dibuat oleh makmal penyelidikan kerajaan.

Sebagai contoh, AlphaFold, model AI yang telah merevolusikan analisis protein untuk reka bentuk ubat, menggunakan lebih sedikit pengiraan latihan berbanding model berasaskan teks asas seperti GPT dan Gemini. Untuk menyokong perkongsian data, kami memerlukan rangkaian komputer yang besar, tetapi Internet semasa sudah menyediakan titik permulaan yang mencukupi untuk memindahkan set data eksperimen yang besar. Oleh itu, kos perkakasan untuk menyokong kemajuan saintifik dipacu AI berkemungkinan agak rendah berbanding dengan potensi manfaat.

Pembelajaran Mesin Baharu dan Kaedah AI

Kaedah pembelajaran mesin semasa amat berguna untuk menemui keteraturan statistik dalam set data besar yang tidak dapat diteliti oleh manusia (contohnya, AlphaFold dilakukan pada jujukan protein dalam jumlah besar dan struktur 3Dnya yang diukur dengan teliti. terlatih). Bahagian utama peluang baharu ialah mengembangkan kaedah pembelajaran mesin semasa (menemui korelasi statistik dalam data) dalam dua arah penting: (1) beralih daripada mencari korelasi kepada mencari hubungan sebab dalam data, dan (2) beralih daripada mencari hanya besar- skala Pembelajaran set data berstruktur bergerak ke arah pembelajaran daripada set data berstruktur yang besar dan literatur penyelidikan yang besar, iaitu, belajar seperti saintis manusia daripada data eksperimen dan menerbitkan hipotesis dan hujah yang dinyatakan dalam bahasa semula jadi oleh orang lain. Kemunculan LLM baru-baru ini dengan keupayaan lanjutan untuk mencerna, meringkaskan dan menaakul tentang koleksi teks yang besar boleh menyediakan asas untuk kelas algoritma pembelajaran mesin baharu ini.

Apa yang perlu kerajaan buat? Kuncinya ialah menyokong empat bahagian di atas dan menyatukan komuniti saintifik untuk meneroka kaedah baharu berdasarkan kecerdasan buatan untuk mempromosikan kemajuan penyelidikan mereka. Oleh itu, kerajaan harus mempertimbangkan untuk mengambil tindakan berikut:

Terokai peluang khusus dalam bidang sains tertentu, Membiayai pasukan penyelidikan pelbagai institusi dalam banyak bidang saintifik untuk membentangkan visi dan keputusan awal yang menunjukkan cara AI boleh digunakan untuk mempercepatkan kemajuan dalam bidang mereka dengan ketara, dan perkara yang diperlukan untuk meningkatkan pendekatan ini. Kerja ini tidak seharusnya dibiayai sebagai geran kepada institusi individu, kerana kemajuan terbesar mungkin datang daripada penyepaduan data dan penyelidikan daripada ramai saintis di banyak institusi. Sebaliknya, ia mungkin paling berkesan jika dijalankan oleh sekumpulan saintis dari banyak institusi, yang mencadangkan peluang dan pendekatan yang memberi inspirasi kepada penglibatan mereka dengan komuniti saintifik secara amnya.

Mempercepatkan penciptaan set data eksperimen baharu untuk melatih model asas baharu dan menjadikan data tersedia kepada seluruh komuniti saintis:

Cipta piawaian perkongsian data yang membolehkan seorang saintis menggunakan data eksperimen yang dicipta oleh saintis berbeza dengan mudah, dan menyediakan asas untuk sumber data negara dalam setiap bidang saintifik yang berkaitan. Ambil perhatian bahawa terdapat kejayaan sebelumnya dalam membangunkan dan menggunakan piawaian sedemikian yang boleh menyediakan templat permulaan untuk usaha piawai (cth., kejayaan perkongsian data semasa Projek Genom Manusia).

Cipta dan sokong tapak web perkongsian data untuk setiap bidang yang berkaitan. Sama seperti GitHub telah menjadi tapak yang digunakan oleh pembangun perisian untuk menyumbang, berkongsi dan menggunakan semula kod perisian, mencipta GitHub untuk set data saintifik boleh berfungsi sebagai repositori data dan enjin carian untuk menemui topik yang berkaitan dengan topik tertentu, Hipotesis atau rancang percubaan pada set data yang paling berkaitan.

Kaji cara membina mekanisme insentif untuk memaksimumkan perkongsian data. Pada masa ini, bidang saintifik berbeza secara meluas dalam sejauh mana saintis individu berkongsi data mereka dan sejauh mana organisasi untung menggunakan data mereka untuk penyelidikan saintifik asas. Membina sumber data negara yang besar dan boleh dikongsi adalah penting kepada peluang saintifik untuk AI, dan membina struktur insentif yang menarik untuk perkongsian data akan menjadi kunci kejayaan.

Di mana sesuai, dana pembangunan makmal automatik (cth. makmal robotik untuk eksperimen kimia, biologi, dsb. yang boleh digunakan oleh ramai saintis melalui Internet) untuk menjalankan eksperimen dengan cekap dan menjananya dalam data format standard. Faedah utama mewujudkan makmal sedemikian ialah mereka juga akan menggalakkan pembangunan piawaian yang menerangkan dengan tepat prosedur eksperimen yang perlu diikuti, dengan itu meningkatkan kebolehulangan keputusan eksperimen. Sama seperti kami boleh mendapat manfaat daripada GitHubs untuk set data, kami juga boleh mendapat manfaat daripada GitHubs yang berkaitan untuk berkongsi, mengubah suai dan menggunakan semula komponen protokol percubaan.

Untuk mencipta generasi baharu alatan kecerdasan buatan memerlukan:

Membiayai penyelidikan asas AI berkaitan yang dibangunkan khusus untuk kaedah penyelidikan saintifik. Ini harus merangkumi pembangunan "model asas" dalam erti kata yang luas sebagai alat untuk mempercepatkan penyelidikan dalam bidang yang berbeza dan mempercepatkan peralihan daripada sains "lone ranger" kepada paradigma "penemuan saintifik komuniti" yang lebih berkuasa.

Khusus menyokong penyelidikan dengan membaca literatur penyelidikan, mengkritik andaian input yang dinyatakan dan mencadangkan penambahbaikan, dan membantu saintis memperoleh hasil daripada literatur saintifik dengan cara yang berkaitan secara langsung dengan soalan semasa mereka.

Khusus menyokong penyelidikan yang memanjangkan pembelajaran mesin daripada penemuan korelasi kepada penemuan penyebab, terutamanya dalam tetapan di mana eksperimen baharu boleh dirancang dan dilaksanakan untuk menguji hipotesis penyebab.

Khususnya menyokong pengembangan penyelidikan tentang algoritma pembelajaran mesin, daripada hanya mengambil data besar sebagai input, kepada mengambil kedua-dua data percubaan yang besar dan literatur penyelidikan yang lengkap di lapangan sebagai input, untuk menjana ketetapan statistik dalam data dan penyelidikan percubaan kesusasteraan Andaian, penjelasan, dan hujah yang dibincangkan dalam . . XySO lH1kIeEH3DXE/edit?pli=1

Nota: Gambar-gambar dalam artikel ini datang dari Internet.

위 내용은 '머신러닝의 아버지' Mitchell은 다음과 같이 썼습니다. AI가 과학 발전을 가속화하는 방법과 미국이 기회를 포착하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

for 并发 github 算法人工智能 https 搜索引擎自动化 gpt

성명：

이전 기사：Zhi Square는 구현된 지능의 핵심 문제점을 해결하여 AGI를 물리적 세계로 확장합니다.다음 기사：Zhi Square는 구현된 지능의 핵심 문제점을 해결하여 AGI를 물리적 세계로 확장합니다.