Rumah > Artikel > Peranti teknologi > Model besar bahasa saintifik AI sangat popular. Anda boleh melakukan semua jenis komputer matematik dan biologi. Sangat mudah untuk menulis kod dan menulis ulasan.
Enjin carian AI berkembang semula? !
Berikan topik AI ini, dan ia akan memberi anda ulasan kertas dalam beberapa minit, dan ia juga akan memberikan petikan untuk kertas itu sendiri.
Atau anda boleh memasukkan kata nama saintifik, dan AI boleh menjana Wikipedia dengan cepat khusus untuk kata nama ini.
AI ini dipanggil Galactica ( singkatan GAL Ia adalah model bahasa saintifik sumber terbuka terkini yang mengubah AI kepada produktiviti saintifik.
Dan ia juga telah mencapai "penyatuan besar" disiplin ilmu Matematik, fizik, komputer...AI ini semua boleh digunakan.
Sebaik sahaja model itu dikeluarkan, ia dengan cepat membangkitkan perbincangan hangat di kalangan netizen Pada masa ini, tweet berkaitan telah dilihat hampir 150,000 kali, dan terkumpul suka, tweet semula dan petikan telah melebihi 5,000.
Bekas pegawai teknikal Facebook turut tampil menyokongnya.
Sesetengah netizen mengalaminya secara peribadi, dan ulasan literatur yang mereka tulis "kelihatan cukup bagus", malah berkata:
Langkah seterusnya ialah Bukan anda boleh menjana idea baru.
Malah, menulis ulasan literatur dan menghasilkan Wikipedia hanyalah sebahagian daripada fungsi GAL Selain daripada ini, ia juga boleh menjawab beberapa soalan profesional, menulis kod saintifik dan anotasi molekul dan protein... ...
Mari kita lihat kesan khusus~
Apabila bercakap tentang produktiviti saintifik, ia pasti tidak dapat dipisahkan daripada pencarian kertas kerja. Tidak, GAL telah menyelesaikannya untuk anda.
Ia merangkumi lima disiplin saintifik: pembelajaran mesin, matematik, sains komputer, biologi dan fizik.
Pilih subjek, kemudian masukkan topik kertas yang anda cari dalam kotak kiri, dan GAL di sebelah kanan akan mengesyorkan kertas yang paling sesuai untuk dibaca.
Selain mengesyorkan kertas kerja, GAL juga mempunyai fungsi yang lebih praktikal: menjana nota kuliah.
Sebagai contoh, jika anda ingin membuat kursus pra tentang Teori Fungsian Ketumpatan (DFT), tetapi anda terlalu malas untuk menulis kuliah, anda boleh GAL sahaja dan selesaikan dalam beberapa minit (kepala anjing manual ).
GAL juga boleh digunakan untuk menganotasi molekul dan protein Berikut ialah manual operasi RDKit (yang boleh menjana deskriptor molekul untuk pembelajaran mesin) yang dihasilkan oleh GAL.
GAL juga menunjukkan beberapa butiran!
Sebagai contoh, jika anda tidak dapat memahami beberapa formula dan kod matematik yang kompleks, anda boleh menyerahkannya kepada GAL, ia boleh menterjemahkannya secara langsung ke dalam bahasa vernakular untuk anda.
Bukan itu sahaja, ia juga boleh merealisasikan penukaran antara formula dan kod matematik, atau penukaran antara pelbagai jenis kod.
Lebih penting lagi, ia juga mempunyai formula yang dipermudahkan dan fungsi semakan ralat.
Bagaimana untuk melakukannya?
GAL boleh mencapai fungsi yang begitu kompleks, jadi kita perlu menyebut set data latihannya.
Menurut berita rasmi, GAL dilatih tentang set data saintifik berkualiti tinggi baharu yang dipanggil NatureBook, yang membolehkan model itu menggunakan istilah saintifik, formula matematik dan kimia serta kod sumber.
Termasuk lebih daripada 48 juta kertas, buku teks dan nota kuliah, serta berjuta-juta sebatian dan protein, tapak web saintifik, ensiklopedia dan banyak lagi.
Selain itu, untuk mencari kertas kerja dan menormalkan petikan, set data GAL mengandungi lebih 360 juta petikan kontekstual dan lebih 50 juta rujukan unik yang dinormalkan merentas sumber yang berbeza.
Selepas mempunyai set data yang begitu besar, kita akan menghadapi dua masalah.
Soalan pertama ialah cara mengurus set data berkualiti tinggi ini Untuk mencapai matlamat ini, GAL menggunakan dua langkah:
Semua data diproses dalam format penanda biasa untuk melepasi Halangan antara data. daripada pelbagai sumber.
Pra-latihan termasuk set data untuk tugasan tertentu, yang memastikan anda boleh menjadi lebih profesional apabila menangani tugasan tertentu.
Soalan lain ialah: Bagaimana untuk mereka bentuk interaksi antara muka?
Pertama sekali, seperti yang dinyatakan di atas, GAL boleh menyokong pelbagai jenis tugas.
Oleh itu, pelbagai tugas dikelaskan semasa mereka bentuk interaksi antara muka Pengelasan yang berbeza akan menyokong jenis data yang berbeza.
Memandangkan GAL mempunyai set data saintifik yang terurus dan berkualiti tinggi, bagaimanakah ia dibandingkan dengan model lain?
Muat naik data terus!
Dari segi penaakulan, kelebihan GAL terserlah dalam matematik MMLU (pemahaman bahasa pelbagai tugas berskala besar), prestasinya lebih baik daripada Chinchilla dari segi matematik, prestasinya juga lebih baik daripada Palm 540B dan GPT-3 175B.
Walaupun GAL belum dilatih mengenai set data umum, prestasinya di BIG-bench masih lebih baik daripada BLOOM dan OPT-175B .
Jika anda rasa gatal selepas membacanya, sila hentikan dahulu!
Portal: https://galactica.org/
Pautan rujukan: [1]https://twitter.com/paperswithcode/status/1592546933679476736[2]https://github . com/paperswithcode/galai[3]https://galactica.org/static/paper.pdf
Atas ialah kandungan terperinci Model besar bahasa saintifik AI sangat popular. Anda boleh melakukan semua jenis komputer matematik dan biologi. Sangat mudah untuk menulis kod dan menulis ulasan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!