Rumah > Artikel > Peranti teknologi > GPT-4 dan LLM: Pasukan Microsoft meneroka kesan penemuan saintifik, artikel 230 halaman yang merangkumi 5 bidang saintifik utama
Apabila menulis semula kandungan, teks asal perlu ditulis semula dalam bahasa Cina, dan ayat bahasa Inggeris asal tidak perlu muncul
Tidak lama dahulu, Microsoft DeepSpeed The team melancarkan program baharu yang dipanggil DeepSpeed4Science, bertujuan untuk mencapai penemuan saintifik melalui teknologi pengoptimuman sistem AI.
Pada 13 November, pasukan Microsoft menerbitkan artikel bertajuk "The Impact of Large Language Models on Scientific Discovery: A Preliminary Study using GPT-4" pada platform pracetak arXiv#🎜🎜 ##🎜🎜 #Panjang artikel ini mencecah 230 muka surat
Pautan kertas: https://arxiv.org/abs/2311.07361#🎜 🎜🎜 🎜##🎜 #Dalam beberapa tahun kebelakangan ini, kemajuan terobosan dalam bidang pemprosesan bahasa semula jadi telah memuncak dengan kemunculan model bahasa besar (LLM) yang berkuasa, yang telah menunjukkan keupayaan luar biasa dalam banyak bidang, termasuk pemahaman, penjanaan dan terjemahan bahasa semula jadi, malah meluas ke tugasan. di luar pemprosesan bahasa.
Dalam laporan ini, penyelidik Microsoft melihat secara mendalam prestasi LLM dalam konteks penemuan/penyelidikan saintifik, memfokuskan pada model bahasa terkini GPT-4. Penyelidikan merangkumi pelbagai bidang saintifik, termasuk penemuan ubat, biologi, kimia pengiraan (DFT dan MD), reka bentuk bahan, dan persamaan pembezaan separa (PDE).
Untuk tugas saintifik menilai GPT-4, adalah penting untuk memanfaatkan potensinya dalam pelbagai bidang penyelidikan, mengesahkan kepakaran dalam bidang tertentu, mempercepatkan kemajuan saintifik, mengoptimumkan peruntukan sumber, membimbing pembangunan model masa depan dan Ia adalah penting untuk menggalakkan penyelidikan antara disiplin. Kaedah penerokaan terutamanya termasuk penilaian kes didorong pakar, yang boleh memberikan cerapan kualitatif untuk membantu model memahami konsep dan perhubungan saintifik yang kompleks, serta penanda aras sekali-sekala untuk menilai secara kuantitatif keupayaan model untuk menyelesaikan masalah khusus domain yang ditakrifkan dengan baik #🎜 🎜#
Penerokaan awal menunjukkan bahawa GPT-4 mempunyai potensi besar dalam pelbagai aplikasi saintifik, menunjukkan keupayaannya untuk mengendalikan penyelesaian masalah yang kompleks dan tugas integrasi pengetahuan. Penyelidik menganalisis prestasi GPT-4 dalam bidang yang dinyatakan di atas (seperti penemuan dadah, biologi, kimia pengiraan, reka bentuk bahan, dll.), menonjolkan kelebihan dan batasannya. Penilaian komprehensif asas pengetahuan GPT-4, keupayaan pemahaman saintifik, keupayaan pengiraan berangka saintifik, dan pelbagai kebolehan ramalan saintifik GPT-4 mempunyai pengetahuan domain yang luas dalam biologi dan reka bentuk bahan, yang membantu memenuhi spesifik keperluan. Dalam bidang lain seperti penemuan dadah, GPT-4 telah menunjukkan keupayaan ramalan harta yang kukuh. Walau bagaimanapun, dalam bidang penyelidikan seperti kimia pengiraan dan persamaan pembezaan separa, manakala GPT-4 dijangka membantu penyelidik membuat ramalan dan pengiraan, usaha selanjutnya diperlukan untuk meningkatkan ketepatannya. Walaupun keupayaannya yang mengagumkan, GPT-4 masih menawarkan penambahbaikan untuk tugas pengkomputeran kuantitatif seperti keperluan untuk penalaan halus untuk meningkatkan ketepatan Penyelidik berharap laporan ini akan memberikan cerapan bagi mereka yang ingin memanfaatkan LLM untuk sains dan pengamal dalam penyelidikan dan aplikasi, dan bagi mereka yang berminat untuk memajukan bidang tertentu pemprosesan bahasa semula jadi. Adalah penting untuk ditekankan bahawa bidang LLM dan pembelajaran mesin berskala besar sedang berkembang pesat, dan generasi akan datang LLM mungkin mempunyai keupayaan tambahan yang tidak disebut dalam laporan ini. Terutamanya, penyepaduan LLM dengan alat dan model saintifik profesional dan pembangunan model sains asas mewakili dua hala tuju penyelidikan yang menjanjikan penemuan ubatpenemuan ubat Bahagian penting dalam farmaseutikal industri dan memainkan peranan penting dalam memajukan sains perubatan. Penemuan ubat melibatkan proses pelbagai disiplin yang kompleks, termasuk pengenalpastian sasaran, pengoptimuman petunjuk, dan ujian praklinikal, akhirnya membawa kepada pembangunan ubat yang selamat dan berkesan. GPT-4 mempunyai potensi besar dalam penemuan dadah, seperti mempercepatkan proses penemuan, mengurangkan kos carian dan reka bentuk, meningkatkan kreativiti, dsb. Bab ini mula-mula mengkaji pengetahuan GPT-4 untuk penemuan ubat melalui ujian kualitatif, dan kemudian menyiasat keupayaan ramalannya melalui ujian kuantitatif ke atas pelbagai tugas utama, termasuk ramalan interaksi sasaran dadah/pertalian pengikat, ramalan sifat molekul dan ramalan retrosintetik# 🎜🎜#Kandungan yang ditulis semula: Contoh pertama melibatkan penjanaan formula kimia, nama IUPAC, dan SMILES bagi nama ubat yang diberikan, yang merupakan penukaran nama kepada perwakilan ubat yang lain. Afatinib digunakan sebagai ubat input. GPT-4 berjaya mengeluarkan formula kimia yang betul C24H25ClFN5O3 dan nama IUPAC yang betul, menunjukkan bahawa GPT-4 mengetahui tentang ubat Afatinib. Walau bagaimanapun, SMILES yang dijana adalah tidak betul. Oleh itu, penyelidik memberi tunjuk ajar untuk membiarkan GPT-4 menjana semula SENYUMAN. Malangnya, walaupun secara eksplisit memerlukan GPT-4 untuk "memperhatikan bilangan atom bagi setiap jenis atom" dan menjana SENYUMAN berdasarkan IUPAC dan formula kimia yang betul, urutan SMILES yang dijana dalam beberapa eksperimen masih tidak betul
Imej pertama menunjukkan terjemahan nama ubat dan representasi ubat lain. (Dipetik daripada kertas)
Dalam bab ini, penyelidik meneroka dengan mendalam keupayaan GPT-4 dalam bidang penyelidikan biologi, menumpukan pada keupayaannya untuk memahami biologi. bahasa dan menggunakan Kemahiran dalam penaakulan dengan pengetahuan biologi terbina dalam, serta mereka bentuk biomolekul dan eksperimen biologi. Pemerhatian menunjukkan bahawa GPT-4 menunjukkan potensi besar untuk menyumbang kepada bidang biologi dengan menunjukkan keupayaannya untuk memproses bahasa biologi yang kompleks, melaksanakan tugas bioinformatik, dan juga berfungsi sebagai pembantu saintifik dalam reka bentuk biologi. Pemahaman luas GPT-4 tentang konsep biologi dan potensi besarnya sebagai pembantu saintifik dalam tugas reka bentuk menyerlahkan peranan pentingnya dalam memajukan bidang biologi.
pertama kali menilai keupayaan GPT-4 untuk mengendalikan simbol jujukan jujukan biologi dan simbol teks.
Penyelidik meminta GPT-4 untuk menukar antara jujukan biologi dan notasi teksnya: 1) Keluarkan nama protein untuk jujukan protein tertentu. 2) Keluarkan urutan protein dengan nama yang diberikan. Sebelum setiap tugas, sesi dimulakan semula untuk mengelakkan kebocoran maklumat. Ternyata GPT-4 mengetahui penukaran simbol urutan ke teks, tetapi ia tidak boleh mencari terus (juga dikenali sebagai jujukan BLAST) itu sendiri. Sementara itu, GPT-4 lebih suka tag teks untuk jujukan biologi (termasuk protein dan DNA, yang terakhir tidak ditunjukkan). Apabila simbol teks diberikan, ia memberikan maklumat yang lebih kaya, mungkin disebabkan oleh falsafah reka bentuknya. Adalah penting untuk ambil perhatian bahawa ia juga diperhatikan bahawa penjanaan jujukan boleh membawa kepada tingkah laku bencana GPT-4. Seperti yang ditunjukkan dalam imej di bawah, walaupun GPT-4 mengembalikan ID UniProt yang betul, ia menghadapi kesukaran menjana jujukan. Ranap penjanaan jujukan dengan beberapa gesaan berbeza dicuba.
Rajah 2: Penukaran antara simbol jujukan dan simbol teks. (Sumber: Kertas)
Pengkomputeran kimia ialah bidang antara disiplin yang menggunakan kaedah dan teknik pengiraan untuk menyelesaikan masalah kompleks dalam kimia. Pengiraan kimia telah lama menjadi alat yang sangat diperlukan dalam kajian sistem molekul, bukan sahaja memberikan pemahaman mendalam tentang interaksi peringkat atom tetapi juga membimbing kerja eksperimen. Pengiraan kimia memainkan peranan penting dalam memahami struktur molekul, tindak balas kimia dan fenomena fizikal pada peringkat mikro dan makro
Bab ini akan memfokuskan kepada fungsi GPT-4 dalam bidang kimia pengiraan. Kami akan meneroka aplikasinya dalam kaedah struktur elektronik dan simulasi dinamik molekul, dan menunjukkan keupayaan perkhidmatan GPT-4 dari perspektif yang berbeza dengan menunjukkan dua contoh praktikal. Secara ringkasnya, GPT-4 boleh membantu penyelidik kimia pengiraan dalam pelbagai cara
Penyelidikan bermula dengan menilai keupayaan GPT-4 untuk menerangkan konsep dalam kimia kuantum dan fizik. Penilaian meliputi kaedah yang biasa digunakan di lapangan, seperti teori fungsi ketumpatan (DFT) dan teori fungsi gelombang (WFT).
Rajah 3: Ujian konsep teori fungsi ketumpatan. (Sumber: kertas)
Dalam contoh di atas, GPT-4 memberikan pemahaman yang baik tentang konsep teori fungsi ketumpatan, teori fungsi ketumpatan KohnSham dan teori fungsi ketumpatan tanpa orbit.
Dalam bab ini, keupayaan GPT-4 dalam bidang reka bentuk bahan dikaji. Para penyelidik mereka bentuk satu set tugas yang komprehensif merangkumi semua aspek proses reka bentuk bahan, daripada konsep awal kepada pengesahan dan sintesis seterusnya. Matlamatnya adalah untuk menilai kepakaran GPT-4 dan keupayaannya untuk menjana cerapan dan penyelesaian yang bermakna dalam aplikasi dunia sebenar. Tugasan yang direka bentuk merangkumi pelbagai aspek, termasuk pengetahuan latar belakang, prinsip reka bentuk, pengenalan calon, penjanaan struktur calon, ramalan atribut dan ramalan keadaan sintetik. Dengan menangani keseluruhan proses reka bentuk, matlamatnya adalah untuk menyediakan penilaian keseluruhan kecekapan GPT-4 dalam reka bentuk bahan, terutamanya untuk bahan yang lebih kompleks seperti bahan bukan organik berhablur, polimer organik dan rangka kerja logam-organik (MOF).
Perlu diambil perhatian bahawa penilaian tertumpu terutamanya pada penilaian kualitatif keupayaan GPT-4 dalam bidang khusus ini, manakala skor statistik hanya akan diperolehi jika boleh.
Para penyelidik mula-mula menyiasat cara elektrolit pepejal semasa dikelaskan, yang mempunyai keperluan berbeza, seperti pengelasan berdasarkan kimia am dan jenis anion. Selain itu, mereka meminta contoh berdasarkan kriteria pengelasan ini. Seperti yang ditunjukkan dalam Rajah 4, semua jawapan adalah fakta dan kebanyakannya betul. Memandangkan kriteria pengelasan ini tidak diwakili dengan baik dalam literatur, GPT-4 seharusnya mempunyai pemahaman yang agak jelas tentang maksud kimia
Menurut kertas sumber, perkara yang perlu ditulis semula ialah: Rajah 4: Pengelasan Tak Organik Pepejal Elektrolit
Persamaan pembezaan separa (PDE) ialah bidang penyelidikan yang penting dan sangat aktif dalam matematik, dengan aplikasi yang meluas dalam pelbagai disiplin seperti fizik, kejuruteraan, biologi dan kewangan. Persamaan pembezaan separa memainkan peranan penting dalam memodelkan dan memahami pelbagai fenomena, daripada dinamik bendalir dan pemindahan haba kepada medan elektromagnet dan dinamik kumpulan.
Dalam bab ini, kemahiran GPT-4 dalam beberapa aspek persamaan pembezaan separa dikaji: memahami asas persamaan pembezaan separa, menyelesaikan persamaan pembezaan separa dan membantu AI dalam penyelidikan persamaan pembezaan separa. Penyelidik menilai model pada bentuk PDE yang berbeza, seperti persamaan linear, persamaan tak linear dan PDE stokastik. Penyelidikan menunjukkan bahawa GPT-4 boleh membantu penyelidik dalam pelbagai cara.
Soalan pertama ialah tentang definisi dan bentuk persamaan pembezaan separa GPT-4 memberikan penjelasan yang baik tentang persamaan pembezaan separa, seperti yang ditunjukkan dalam Rajah 5. Atas gesaan pengguna, GPT-4 memberikan konsep yang jelas tentang persamaan pembezaan separa dan kategori linear atau bukan linear, elips, parabola atau hiperbolik. Pendatang baru dalam bidang ini akan mendapat manfaat daripada konsep dan klasifikasi ini.
Rajah 5: Pengenalan kepada konsep asas PDE. (Sumber: Kertas)
Dalam kajian ini, kami meneroka keupayaan dan batasan LLM dalam pelbagai bidang sains semula jadi dan meliputi pelbagai tugas. Matlamat utama kami adalah untuk menyediakan penilaian awal LLM GPT-4 yang tercanggih dan potensinya untuk penemuan saintifik, dan untuk menyediakan sumber dan alat yang berharga kepada penyelidik dalam pelbagai bidang
Melalui analisis yang meluas, kajian ini menyerlahkan potensi GPT-4 dalam Kemahiran dalam pelbagai tugas saintifik, daripada sintesis kesusasteraan kepada ramalan harta dan penjanaan kod. Walaupun keupayaannya yang mengagumkan, adalah penting untuk mengenali batasan GPT-4 (dan LLM yang serupa), seperti cabaran dalam mengendalikan format data tertentu, ketidakkonsistenan dalam respons dan halusinasi sekali-sekala.
Para penyelidik percaya penerokaan ini merupakan langkah pertama yang kritikal dalam memahami dan mengiktiraf potensi GPT-4 dalam sains semula jadi. Dengan memberikan gambaran keseluruhan terperinci tentang kelebihan dan kekurangannya, ia bertujuan untuk membantu penyelidik membuat keputusan termaklum apabila memasukkan GPT-4 (atau LLM lain) ke dalam kerja harian mereka, memastikan aplikasi optimum sambil mengambil kira batasannya.
Selain itu, penerokaan dan pembangunan lanjut GPT-4 dan LLM lain adalah digalakkan, bertujuan untuk meningkatkan keupayaan penemuan saintifik mereka. Ini mungkin melibatkan memperhalusi proses latihan, menggabungkan data dan seni bina khusus domain, dan menyepadukan kepakaran yang disesuaikan dengan disiplin saintifik yang berbeza.
Memandangkan bidang kecerdasan buatan terus berkembang, penyepaduan model kompleks seperti GPT-4 akan memainkan peranan yang semakin penting dalam mempercepatkan penyelidikan dan inovasi saintifik
Akhir sekali, kajian itu merumuskan perkara yang perlu diperbaiki oleh LLM dalam aspek penyelidikan saintifik, dan membincangkan hala tuju yang berpotensi untuk mengukuhkan LLM atau mempromosikan penemuan saintifik atas dasar ini.
Atas ialah kandungan terperinci GPT-4 dan LLM: Pasukan Microsoft meneroka kesan penemuan saintifik, artikel 230 halaman yang merangkumi 5 bidang saintifik utama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!