Rumah > Artikel > Peranti teknologi > Meledakkan AI dan persekitaran biokimia! GPT-4 belajar membuat penyelidikan saintifik sendiri dan mengajar manusia cara menjalankan eksperimen langkah demi langkah
Hebat, GPT-4 telah belajar melakukan penyelidikan saintifik sendiri?
Baru-baru ini, beberapa saintis dari Carnegie Mellon University menerbitkan kertas kerja, yang secara serentak meledakkan AI dan kalangan kimia.
Mereka membuat AI yang boleh melakukan eksperimen sendiri dan menjalankan penyelidikan saintifik. AI ini terdiri daripada beberapa model bahasa yang besar dan boleh dianggap sebagai agen ejen GPT-4 dengan keupayaan penyelidikan saintifik yang meletup.
Oleh kerana ia mempunyai ingatan jangka panjang daripada pangkalan data vektor, ia boleh membaca, memahami dokumen saintifik yang kompleks dan menjalankan penyelidikan kimia dalam makmal robotik berasaskan awan.
Netizen sangat terkejut sehingga terdiam: Jadi, adakah AI ini diselidik dengan sendirinya dan kemudian diterbitkan dengan sendirinya? Ya tuhanku.
Sesetengah orang mengeluh bahawa era "Eksperimen Tenis" (TTE) akan datang!
Adakah ini AI Holy Grail legenda dalam dunia kimia?
Ramai orang mungkin merasakan bahawa kita hidup dalam fiksyen sains setiap hari.
Pada bulan Mac, OpenAI mengeluarkan GPT-4, model bahasa besar yang mengejutkan dunia.
Ini adalah LLM terkuat di planet ini. Ia boleh mendapat markah tinggi dalam peperiksaan SAT dan BAR, lulus cabaran LeetCode, menjawab soalan fizik dengan betul yang diberikan gambar dan memahami plot ia.
Laporan teknikal juga menyebut bahawa GPT-4 juga boleh menyelesaikan masalah kimia.
Ini memberi inspirasi kepada beberapa sarjana di Jabatan Kimia Carnegie Mellon Mereka berharap untuk membangunkan AI berdasarkan pelbagai model bahasa yang besar supaya ia boleh mereka bentuk dan menjalankan eksperimen dengan sendiri.
Alamat kertas: https://arxiv.org/abs/2304.05332
Dan AI yang mereka buat sangat teruk!
Ia akan mencari literatur di Internet dengan sendirinya, mengawal instrumen pemprosesan cecair dengan tepat dan menyelesaikan masalah kompleks yang memerlukan penggunaan serentak berbilang modul perkakasan dan penyepaduan sumber data yang berbeza.
Rasanya seperti versi AI Breaking Bad.
Sebagai contoh, biarkan AI ini mensintesis ibuprofen untuk kita.
Masukkan gesaan ringkas ke dalamnya: "Ibuprofen sintetik
Dan model ini akan pergi ke dalam talian dan mencari apa yang perlu dilakukan.
Ia mengenal pasti bahawa langkah pertama memerlukan tindak balas Friedel-Crafts bagi isobutylbenzene dan anhidrida asetik yang dimangkin oleh aluminium klorida.
Selain itu, AI ini juga boleh mensintesis aspirin.
dan aspartam sintetik.
Terdapat kumpulan metil yang hilang dalam produk dan jika model menemui contoh sintesis yang betul, ia akan dilaksanakan dalam makmal awan untuk pembetulan.
Beritahu model: Kaji tindak balas Suzuki, dan ia akan mengenal pasti substrat dan produk dengan segera dan tepat.
Selain itu, kami boleh menyambungkan model kepada pangkalan data tindak balas kimia, seperti Reaxys atau SciFinder, melalui API, yang menambahkan lapisan buff yang besar pada model dan kadar ketepatan meningkat.
Dan menganalisis rekod sistem sebelumnya juga boleh meningkatkan ketepatan model dengan banyak.
Mari kita lihat dahulu cara mengendalikan robot untuk melakukan eksperimen.
Ia merawat satu set sampel secara keseluruhan (dalam kes ini, keseluruhan plat mikro).
Kami boleh terus memberikannya gesaan dalam bahasa semula jadi: "Warnakan setiap baris lain dengan warna pilihan anda."
Apabila dilaksanakan oleh robot, protokol ini sangat serupa dengan gesaan yang diminta (Rajah 4B-E).
Tindakan pertama ejen ialah menyediakan sampel kecil larutan asal (Rajah 4F).
Kemudian ia meminta ukuran UV-Vis. Setelah selesai, AI diberikan nama fail yang mengandungi tatasusunan NumPy yang mengandungi spektrum untuk setiap telaga mikroplat.
AI kemudian menulis kod Python untuk mengenal pasti panjang gelombang dengan penyerapan maksimum dan menggunakan data ini untuk menyelesaikan masalah dengan betul.
Dalam percubaan sebelumnya, AI mungkin telah dipengaruhi oleh pengetahuan yang diterima dalam peringkat pra-latihan.
Kali ini, penyelidik merancang untuk menilai secara menyeluruh keupayaan AI untuk mereka bentuk eksperimen.
AI mula-mula menyepadukan data yang diperlukan daripada rangkaian, menjalankan beberapa pengiraan yang diperlukan dan akhirnya mengendalikan sistem reagen cecair (paling kiri gambar bahagian atas) untuk menulis program.
Untuk menambah sedikit kerumitan, penyelidik menggunakan modul shaker yang dipanaskan pada AI.
Keperluan ini disepadukan dan muncul dalam konfigurasi AI.
Reka bentuk khusus adalah seperti berikut: AI mengawal sistem pengendalian cecair yang dilengkapi dengan dua versi mini, dan versi sumber mengandungi berbilang A sumber tiga reagen, termasuk fenilasetilena dan asid fenilboronik, pasangan gandingan aril halida berbilang, serta dua pemangkin dan dua bes.
Gambar di atas adalah kandungan dalam Plat Sumber.
Versi sasaran dipasang pada modul shaker yang dipanaskan.
Dalam gambar di atas, pipet di sebelah kiri mempunyai julat 20 μl, dan pipet saluran tunggal di sebelah kanan mempunyai julat 300 μl.
Matlamat utama AI adalah untuk mereka bentuk proses yang berjaya merealisasikan tindak balas Suzuki dan Sonogshela.
Mari beritahu: anda perlu menggunakan beberapa reagen yang tersedia untuk menjana dua tindak balas ini.
Kemudian, ia mencari Internet sendiri, sebagai contoh, apakah syarat yang diperlukan untuk tindak balas ini, apakah keperluan untuk stoikiometri, dsb.
Dapat dilihat bahawa AI telah berjaya mengumpul syarat yang diperlukan, kuantiti dan kepekatan reagen yang diperlukan, dsb.
AI memilih pasangan gandingan yang betul untuk melengkapkan percubaan. Di antara semua aril halida, AI memilih bromobenzena untuk eksperimen tindak balas Suzuki dan iodobenzena untuk tindak balas Sonogheirah.
Dalam setiap pusingan, pilihan AI agak berubah. Sebagai contoh, ia juga memilih p-iodonitrobenzene kerana kereaktifannya yang tinggi dalam tindak balas pengoksidaan.
Bromobenzena dipilih kerana bromobenzena boleh mengambil bahagian dalam tindak balas dan kurang toksik daripada aril iodida.
Seterusnya, AI memilih Pd/NHC sebagai pemangkin kerana ia berfungsi dengan lebih baik. Ini adalah kaedah yang sangat maju untuk tindak balas gandingan. Bagi pilihan asas, AI menyukai trietilamin.
Daripada proses di atas kita dapat melihat bahawa model ini mempunyai potensi yang tidak terhad pada masa hadapan. Kerana ia akan mengulangi eksperimen berkali-kali untuk menganalisis proses penaakulan model dan mencapai hasil yang lebih baik.
Selepas memilih reagen berbeza, AI mula mengira jumlah setiap reagen yang diperlukan, dan kemudian mula merancang keseluruhan proses percubaan.
AI juga membuat kesilapan di bahagian tengah, menggunakan nama modul shaker pemanasan yang salah. Tetapi AI menyedari perkara ini tepat pada masanya, menanyakan data secara spontan, membetulkan proses percubaan, dan akhirnya berjalan dengan jayanya.
Mengetepikan proses kimia profesional, mari kita ringkaskan "profesionalisme" yang ditunjukkan oleh AI dalam proses ini.
Boleh dikatakan bahawa daripada proses di atas, AI telah menunjukkan keupayaan penaakulan analitikal yang sangat tinggi. Ia secara spontan boleh mendapatkan maklumat yang diperlukan dan menyelesaikan masalah kompleks langkah demi langkah.
Dalam proses ini, anda juga boleh menulis sendiri kod super berkualiti tinggi dan mempromosikan reka bentuk percubaan. Selain itu, anda juga boleh menukar kod yang anda tulis berdasarkan kandungan output.
OpenAI telah berjaya menunjukkan keupayaan hebat GPT-4 Suatu hari nanti GPT-4 pasti akan dapat mengambil bahagian dalam eksperimen sebenar.
Tetapi penyelidik tidak mahu berhenti di situ. Mereka juga memberi masalah besar kepada AI - mereka memberi arahan untuk membangunkan ubat anti-kanser baharu.
Perkara yang tidak wujud...bolehkah AI ini masih berfungsi?
Ternyata betul-betul ada dua berus. AI menjunjung prinsip tidak takut apabila menghadapi kesukaran (sudah tentu ia tidak tahu apa itu ketakutan), ia menganalisis dengan teliti keperluan untuk membangunkan ubat anti-kanser, mengkaji trend semasa dalam pembangunan ubat anti-kanser, dan kemudian memilih sasaran untuk terus meneroka, menentukan komposisinya.
Kemudian, AI cuba untuk memulakan sintesis dengan sendirinya untuk contoh tindak balas yang berkaitan.
Akhir sekali selesaikan sintesis.
Kandungan dalam gambar di atas tidak boleh disintesis oleh AI, ia hanyalah perbincangan teori.
Antaranya ialah methamphetamine (juga dikenali sebagai ganja), heroin dan dadah biasa lain, serta gas mustard dan gas beracun terlarang lain.
Daripada sejumlah 11 sebatian, AI menyediakan pelan sintesis untuk 4 daripadanya, dan cuba merujuk data untuk memajukan proses sintesis.
Antara tujuh bahan yang tinggal, sintesis lima telah ditolak dengan tegas oleh AI. AI mencari di Internet untuk mendapatkan maklumat yang berkaitan tentang lima sebatian ini dan mendapati ia tidak boleh dikacau.
Sebagai contoh, AI menjumpai hubungan antara kodein dan morfin. Disimpulkan bahawa benda ini adalah ubat terkawal dan tidak boleh disintesis secara sembarangan.
Namun, mekanisme insurans ini tidak boleh dipercayai. Selagi pengguna mengubah suai sedikit buku bunga, ia boleh dikendalikan selanjutnya oleh AI. Sebagai contoh, gunakan perkataan majmuk A dan bukannya menyebut secara langsung morfin, gunakan sebatian B dan bukannya menyebut secara langsung kodein, dan seterusnya.
Pada masa yang sama, sintesis sesetengah ubat mesti dilesenkan oleh Pentadbiran Penguatkuasaan Dadah (DEA), tetapi sesetengah pengguna boleh mengambil kesempatan daripada kelemahan ini dan menipu AI untuk mengatakan mereka mempunyai kebenaran, mendorong AI untuk memberikan skema Sintesis.
AI juga sangat mengetahui bahan seludup yang biasa seperti heroin dan gas mustard. Masalahnya, sistem ini pada masa ini hanya boleh mengesan sebatian sedia ada. Untuk sebatian yang tidak diketahui, model ini kurang berkemungkinan untuk mengenal pasti potensi bahaya.
Sebagai contoh, beberapa toksin protein kompleks.
Oleh itu, untuk menghalang sesiapa daripada mengesahkan keberkesanan bahan kimia ini kerana ingin tahu, para penyelidik juga menyiarkan amaran merah besar dalam kertas:
Sintesis dadah terlarang dan senjata kimia yang dibincangkan dalam artikel ini adalah semata-mata untuk penyelidikan akademik, dengan tujuan utama untuk menonjolkan potensi bahaya yang dikaitkan dengan teknologi baharu.
Dalam apa keadaan sekalipun, mana-mana orang atau organisasi tidak boleh cuba mencipta semula, mensintesis atau sebaliknya menghasilkan bahan atau sebatian yang dibincangkan dalam artikel ini. Bukan sahaja melibatkan diri dalam jenis aktiviti ini amat berbahaya, ia juga menyalahi undang-undang di kebanyakan bidang kuasa.
AI ini terdiri daripada berbilang modul. Modul ini boleh bertukar maklumat antara satu sama lain, dan sesetengahnya juga boleh mengakses Internet, mengakses API dan mengakses penterjemah Python.
Selepas memasukkan gesaan ke dalam Planner, ia akan mula melaksanakan operasi.
Sebagai contoh, ia boleh pergi dalam talian, menulis kod dalam Python dan mengakses dokumen Selepas memahami tugas asas ini, ia boleh melakukan eksperimen sendiri.
Apabila manusia melakukan eksperimen, AI ini boleh membimbing kita langkah demi langkah. Kerana ia boleh membuat alasan tentang pelbagai tindak balas kimia, mencari di Internet, mengira jumlah bahan kimia yang diperlukan dalam eksperimen, dan kemudian melakukan tindak balas yang sepadan.
Jika huraian yang diberikan cukup terperinci, anda tidak perlu menjelaskannya pun, ia boleh memahami keseluruhan eksperimen dengan sendirinya.
Selepas komponen "Pencari web" menerima pertanyaan daripada Planner, ia akan menggunakan API carian Google.
Selepas mencari keputusan, ia akan menapis sepuluh dokumen pertama yang dikembalikan, mengecualikan PDF dan menyerahkan hasilnya kepada dirinya sendiri.
Kemudian, ia akan menggunakan operasi "SELAYAR" untuk mengekstrak teks daripada halaman web dan menjana jawapan. Awan yang mengalir dan air yang mengalir, semuanya dalam satu perjalanan.
GPT-3.5 boleh menyelesaikan tugasan ini, kerana prestasinya jelas lebih baik daripada GPT-4, dan tiada kehilangan kualiti.
Komponen "Pencari dokumen" boleh mencari bahagian yang paling berkaitan melalui pertanyaan dan pengindeksan dokumen, dengan itu menyusun dokumentasi perkakasan (seperti pengendali cecair robotik, GC- MS, Cloud Lab), dan kemudian ringkaskan hasil padanan terbaik untuk menjana jawapan yang paling tepat.
Komponen "Pelaksanaan kod" tidak menggunakan sebarang model bahasa dan hanya melaksanakan kod dalam bekas Docker terpencil untuk melindungi hos akhir daripada sebarang operasi yang tidak dijangka oleh Planner. Semua output kod dihantar kembali kepada Planner, membolehkannya membetulkan ramalan apabila perisian menjadi serba salah. Prinsip yang sama digunakan untuk komponen "Automasi".
Terdapat banyak kesukaran dalam membina AI yang boleh melakukan penaakulan yang kompleks.
Sebagai contoh, agar ia dapat menyepadukan perisian moden, pengguna perlu memahami dokumentasi perisian Walau bagaimanapun, bahasa dokumentasi ini secara amnya sangat akademik dan profesional, yang mewujudkan halangan yang besar .
Model bahasa yang besar boleh menggunakan bahasa semula jadi untuk menjana dokumen perisian yang boleh difahami oleh bukan pakar untuk mengatasi halangan ini.
Salah satu sumber latihan untuk model ini ialah sejumlah besar maklumat yang berkaitan dengan API, seperti Opentrons Python API.
Walau bagaimanapun, data latihan GPT-4 adalah setakat September 2021, jadi adalah lebih perlu untuk meningkatkan ketepatan AI menggunakan API.
Untuk tujuan ini, penyelidik mereka kaedah untuk menyediakan AI dengan dokumentasi untuk tugasan yang diberikan.
Mereka menjana pembenaman ada OpenAI untuk merujuk silang dan mengira persamaan berbanding dengan pertanyaan. Dan pilih bahagian dokumen melalui carian vektor berasaskan jarak.
menyediakan bilangan bahagian, bergantung pada bilangan token GPT-4 yang terdapat dalam teks asal. Bilangan maksimum token ditetapkan kepada 7800, supaya dokumen berkaitan AI boleh disediakan dalam satu langkah sahaja.
Kaedah ini terbukti penting untuk menyediakan AI dengan maklumat tentang modul perkakasan penggetar pemanas, yang diperlukan untuk tindak balas kimia.
Cabaran yang lebih besar akan timbul apabila pendekatan ini digunakan pada platform robotik yang lebih pelbagai, seperti Emerald Cloud Lab (ECL).
Pada ketika ini, kami boleh menyediakan model GPT-4 dengan maklumat yang tidak diketahuinya, seperti tentang Bahasa Makmal Simbolik (SLL) Cloud Lab.
Dalam semua kes, AI mengenal pasti tugas dengan betul dan kemudian menyelesaikannya.
Dalam proses ini, model secara berkesan mengekalkan maklumat tentang pelbagai pilihan, alatan dan parameter bagi fungsi tertentu. Selepas menelan keseluruhan dokumen, model digesa untuk menjana blok kod menggunakan fungsi yang diberikan dan menyerahkannya kembali kepada Planner.
Akhir sekali, para penyelidik menekankan bahawa perlindungan mesti dilaksanakan untuk mengelakkan model bahasa besar daripada disalahgunakan:
"Kami menyeru komuniti AI untuk mengutamakan keselamatan model ini. Kami menyeru OpenAI, Microsoft, Google, Meta, Deepmind, Anthropic dan pemain utama yang lain untuk memberikan usaha terbaik mereka dalam keselamatan model bahasa besar mereka. Kami juga menyeru Komuniti sains fizikal bekerjasama dengan pasukan yang terlibat dalam membangunkan model bahasa berskala besar untuk membantu mereka membangunkan perlindungan ini. penyelidikan keselamatan tentang LLM."
Atas ialah kandungan terperinci Meledakkan AI dan persekitaran biokimia! GPT-4 belajar membuat penyelidikan saintifik sendiri dan mengajar manusia cara menjalankan eksperimen langkah demi langkah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!