Rumah >Peranti teknologi >AI >Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG
Editor |. ScienceAI
Set data Soal Jawab (QA) memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik.
Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan lain-lain, set data ini masih mempunyai beberapa kekurangan.
Pertama, borang data adalah agak mudah, yang kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi ia mengehadkan julat pilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, jawapan soalan terbuka (openQA) boleh menilai dengan lebih komprehensif keupayaan model, tetapi tidak mempunyai metrik penilaian yang sesuai.
Kedua, kebanyakan kandungan set data sedia ada datang daripada buku teks di peringkat universiti dan ke bawah, menjadikannya sukar untuk menilai keupayaan pengekalan pengetahuan peringkat tinggi LLM dalam penyelidikan akademik sebenar atau persekitaran pengeluaran.
Ketiga, penciptaan set data penanda aras ini bergantung pada anotasi pakar manusia.
Menangani cabaran ini adalah penting untuk membina set data QA yang lebih komprehensif dan juga kondusif untuk penilaian LLM saintifik yang lebih tepat.
Ilustrasi: Rangka kerja SciQAG untuk menjana pasangan soalan dan jawapan saintifik berkualiti tinggi daripada kesusasteraan saintifik.
Untuk tujuan ini, Makmal Kebangsaan Argonne di Amerika Syarikat, pasukan Profesor Ian Foster dari Universiti Chicago (pemenang Hadiah Gordon Bell 2002), pasukan UNSW AI4Science Profesor Bram Hoex dari Universiti New South Wales, Australia, syarikat AI4Science GreenDynamics dan pasukan Profesor Jie Chunyu dari City University of Hong Kong bersama-sama mencadangkan SciQAG, rangka kerja novel pertama yang menjana pasangan soalan dan jawapan terbuka saintifik berkualiti tinggi secara automatik daripada korpora kesusasteraan saintifik besar berdasarkan model bahasa besar (LLM).
Pautan kertas:https://arxiv.org/abs/2405.09939
pautan github:https://github.com/MasterAI-EAM/SciQAG
menyiasat SciQAG SciQAG-24D, set data QA saintifik terbuka berskala besar, berkualiti tinggi dan terbuka, mengandungi 188,042 pasangan QA yang diekstrak daripada 22,743 kertas saintifik dalam 24 bidang saintifik, dan direka bentuk untuk menyempurnakan LLM dan penilaian masalah saintifik- keupayaan menyelesaikan. Percubaan menunjukkan bahawa LLM yang diperhalusi pada set data SciQAG-24D boleh meningkatkan prestasinya dengan ketara dalam menjawab soalan terbuka dan tugasan saintifik. Set data, model dan kod penilaian telah menjadi sumber terbuka (https://github.com/MasterAI-EAM/SciQAG) untuk menggalakkan pembangunan bersama Soal Jawab saintifik terbuka oleh komuniti AI untuk Sains.Rangka kerja SciQAG dengan set data penanda aras SciQAG-24D
SciQAG terdiri daripada penjana QA dan penilai QA, yang bertujuan untuk menjana pasangan soalan dan jawapan terbuka yang pelbagai dengan cepat berdasarkan kesusasteraan saintifik pada skala. Mula-mula, penjana menukar kertas saintifik kepada pasangan soal jawab, dan kemudian penilai menapis pasangan soalan dan jawapan yang tidak memenuhi piawaian kualiti, dengan itu memperoleh set data soalan dan jawapan saintifik yang berkualiti tinggi.QA Generator
Para penyelidik mereka bentuk gesaan dua langkah (prompt) melalui eksperimen perbandingan, membolehkan LLM mengekstrak kata kunci dahulu dan kemudian menjana pasangan soalan dan jawapan berdasarkan kata kunci. Memandangkan set data soalan dan jawapan yang dijana menggunakan mod "buku tertutup", iaitu kertas asal tidak disediakan dan hanya menumpukan pada pengetahuan saintifik yang diekstrak itu sendiri. Gesaan memerlukan pasangan soalan dan jawapan yang dihasilkan tidak bergantung pada atau merujuk kepada maklumat unik dalam kertas asal (contohnya, tiada tatanama moden dibenarkan seperti "kertas ini/ini", "penyelidikan ini/ini", dsb., atau bertanya soalan tentang jadual/gambar dalam). rencana). Untuk mengimbangi prestasi dan kos, para penyelidik memilih untuk memperhalusi LLM sumber terbuka sebagai penjana. Pengguna SciQAG boleh memilih mana-mana LLM sumber terbuka atau sumber tertutup sebagai penjana mengikut keadaan mereka sendiri, sama ada menggunakan penalaan halus atau kejuruteraan kata segera.Penilai QA
Penilai digunakan untuk mencapai dua tujuan: (1) Menilai kualiti pasangan soalan dan jawapan yang dihasilkan; (2) Buang pasangan soalan dan jawapan berkualiti rendah berdasarkan kriteria yang ditetapkan. Penyelidik membangunkan indeks penilaian komprehensif RACAR, yang terdiri daripada lima dimensi: perkaitan, agnostik, kesempurnaan, ketepatan dan kewajaran. Dalam kajian ini, penyelidik secara langsung menggunakan GPT-4 sebagai penilai QA untuk menilai pasangan QA yang dijana mengikut RACAR, dengan tahap penilaian 1-5 (1 bermakna tidak boleh diterima, 5 bermakna boleh diterima sepenuhnya). Seperti yang ditunjukkan dalam rajah, untuk mengukur ketekalan antara GPT-4 dan penilaian manual, dua pakar domain menggunakan metrik RACAR untuk melakukan penilaian manual pada 10 artikel (sebanyak 100 pasangan soalan dan jawapan). Pengguna boleh memilih mana-mana LLM sumber terbuka atau sumber tertutup sebagai penilai mengikut keperluan mereka. 🎜Ilustrasi: Korelasi Spearman dan Pearson antara markah yang diberikan GPT-4 dan skor anotasi pakar.
Aplikasi rangka kerja SciQAG
Kajian ini memperoleh sejumlah 22,743 kertas kerja yang mendapat sebutan tinggi dalam 24 kategori daripada pangkalan data koleksi teras Web of Science (WoS), daripada bidang sains bahan, kimia, fizik, tenaga, dll. , bertujuan untuk membina sumber pengetahuan saintifik yang boleh dipercayai, kaya, seimbang dan mewakili.
Untuk memperhalusi LLM sumber terbuka untuk membentuk penjana QA, penyelidik secara rawak memilih 426 kertas daripada koleksi kertas sebagai input dan menghasilkan 4260 pasangan QA benih dengan menggesa GPT-4.
Menggunakan penjana QA terlatih untuk melakukan inferens pada baki kertas, sejumlah 227,430 pasangan QA (termasuk pasangan QA benih) telah dihasilkan. Lima puluh kertas telah diekstrak daripada setiap kategori (1,200 kertas keseluruhannya), GPT-4 digunakan untuk mengira skor RACAR bagi setiap pasangan QA yang dijana, dan pasangan QA dengan mana-mana skor dimensi yang lebih rendah daripada 3 ditapis sebagai set ujian.
Untuk pasangan QA yang tinggal, kaedah berasaskan peraturan digunakan untuk menapis semua pasangan soalan dan jawapan yang mengandungi maklumat unik kertas untuk membentuk set latihan.
Set data penanda aras SciQAG-24D
Berdasarkan perkara di atas, penyelidik menubuhkan set data penanda aras QA saintifik terbuka SciQAG-24D Set latihan yang ditapis termasuk 21,529 kertas dan 179,511 set berpasangan QA. 1,199 kertas dan 8,531 pasangan QA.
Statistik menunjukkan bahawa 99.15% daripada data dalam jawapan datang daripada kertas asal, 87.29% daripada soalan mempunyai persamaan di bawah 0.3, dan jawapan meliputi 78.26% daripada kandungan asal.
Set data ini digunakan secara meluas: set latihan boleh digunakan untuk memperhalusi LLM dan menyuntik pengetahuan saintifik ke dalamnya; set ujian boleh digunakan untuk menilai prestasi LLM pada tugas QA terbuka dalam bidang saintifik khusus atau keseluruhan . Memandangkan set ujian lebih besar, ia juga boleh digunakan sebagai data berkualiti tinggi untuk penalaan halus.
Ilustrasi: Perkadaran artikel dalam kategori berbeza dalam latihan dan ujian set data SciQAG-24D.
Hasil eksperimen
Para penyelidik menjalankan eksperimen komprehensif untuk membandingkan perbezaan prestasi dalam menjawab soalan saintifik antara model bahasa yang berbeza dan meneroka kesan penalaan halus.
Tetapan sifar tangkapan
Para penyelidik menggunakan sebahagian daripada set ujian dalam SciQAG-24D untuk menjalankan perbandingan prestasi sifar tangkapan bagi lima model. Dua daripadanya ialah LLM sumber terbuka: LLaMA1 (7B) dan LLaMA2-chat (7B), dan selebihnya ialah LLM sumber tertutup.
Dipanggil melalui API: GPT3.5 (gpt-3.5-turbo), GPT-4 (gpt-4-1106-pratonton) dan Claude 3 (claude-3-opus-20240229). Setiap model digesa dengan 1,000 soalan dalam ujian, dan outputnya dinilai oleh metrik CAR (diadaptasi daripada metrik RACAR, memfokuskan hanya pada penilaian tindak balas) untuk mengukur keupayaan sifar pukulan untuk menjawab soalan penyelidikan saintifik.
Seperti yang ditunjukkan dalam rajah, antara semua model, GPT-4 mempunyai skor tertinggi untuk kesempurnaan (4.90) dan kebolehpercayaan (4.99), manakala Claude 3 mempunyai skor ketepatan tertinggi (4.95). GPT-3.5 juga menunjukkan prestasi yang sangat baik, mendapat markah rapat di belakang GPT-4 dan Claude 3 pada semua metrik.
Terutama, LLaMA1 mempunyai markah terendah dalam ketiga-tiga dimensi. Sebaliknya, walaupun model sembang LLaMA2 tidak mendapat markah setinggi model GPT, ia bertambah baik dengan ketara berbanding LLaMA1 asal dalam semua metrik. Hasilnya menunjukkan prestasi unggul LLM komersial dalam menjawab soalan saintifik, manakala model sumber terbuka (seperti LLaMA2-chat) juga telah mencapai kemajuan yang ketara dalam hal ini.
Ilustrasi: Ujian sampel sifar dan ujian penalaan halus (LLAMA1-QA) pada SciQAG-24D
tetapan penalaan halus (tetapan penalaan halus)
Para penyelidik sifar LworLast memilih prestasi sampel Penalaan halus dilakukan pada set latihan SciQAG-24D untuk mendapatkan LLaMA1-QA. Melalui tiga eksperimen, para penyelidik menunjukkan bahawa SciQAG-24D boleh digunakan sebagai data penalaan halus yang berkesan untuk meningkatkan prestasi tugas saintifik hiliran:
(a) LLaMA-QA berbanding LLaMA1 asal pada set ujian SciQAG-24D yang ghaib Prestasi perbandingan.
Seperti yang ditunjukkan dalam rajah di atas, prestasi LLaMA1-QA telah meningkat dengan ketara berbanding LLaMA1 asal (kesempurnaan meningkat sebanyak 13%, ketepatan dan kebolehpercayaan meningkat lebih daripada 30%). Ini menunjukkan bahawa LLaMA1 telah mempelajari logik menjawab soalan saintifik daripada data latihan SciQAG-24D dan menghayati beberapa pengetahuan saintifik.
(b) Perbandingan prestasi penalaan halus pada SciQ, penanda aras MCQ saintifik.
Barisan pertama jadual di bawah menunjukkan bahawa LLaMA1-QA lebih baik sedikit daripada LLaMA1 (+1%). Menurut pemerhatian, penalaan halus juga meningkatkan keupayaan arahan model berikut: kebarangkalian output tidak boleh dihuraikan menurun daripada 4.1% dalam LLaMA1 kepada 1.7% dalam LLaMA1-QA.
(c) Perbandingan prestasi penalaan halus pada pelbagai tugas saintifik.
Dari segi penunjuk penilaian, skor F1 digunakan untuk tugasan klasifikasi, MAE digunakan untuk tugasan regresi, dan perbezaan KL digunakan untuk tugas transformasi. Seperti yang ditunjukkan dalam jadual di bawah, LLaMA1-QA mempunyai peningkatan yang ketara berbanding model LLaMA1 dalam tugas saintifik.
Peningkatan yang paling jelas ditunjukkan dalam tugas regresi, di mana MAE turun daripada 463.96 kepada 185.32. Penemuan ini mencadangkan bahawa menggabungkan pasangan QA semasa latihan boleh meningkatkan keupayaan model untuk belajar dan menggunakan pengetahuan saintifik, dengan itu meningkatkan prestasinya dalam tugas ramalan hiliran.
Anehnya, berbanding model pembelajaran mesin yang direka khas dengan ciri, LLM boleh mencapai hasil yang setanding atau bahkan mengatasinya dalam beberapa tugas. Sebagai contoh, dalam tugas jurang jalur, walaupun LLaMA1-QA tidak berprestasi sebaik model seperti MODNet (0.3327), ia telah mengatasi AMMExpress v2020 (0.4161).
Dalam tugas kepelbagaian, LLaMA1-QA mengatasi garis dasar pembelajaran mendalam (0.3198). Penemuan ini menunjukkan bahawa LLM mempunyai potensi besar dalam tugas saintifik tertentu.
Ilustrasi: Prestasi penalaan halus LLaMA1 dan LLaMA1-QA pada SciQ dan tugasan saintifik (M mewakili pelbagai pilihan, C mewakili klasifikasi, R mewakili regresi, T mewakili transformasi)
Ringkasan dan Tinjauan 1) SciQAG ialah rangka kerja untuk menjana pasangan QA daripada kesusasteraan saintifik Digabungkan dengan metrik RACAR untuk menilai dan menapis pasangan QA, ia boleh menjana sejumlah besar data QA berasaskan pengetahuan untuk bidang saintifik yang miskin sumber.
(2) Pasukan ini menghasilkan set data QA saintifik sumber terbuka yang komprehensif yang mengandungi 188,042 pasangan QA, dipanggil SciQAG-24D. Set latihan digunakan untuk memperhalusi LLM, dan set ujian menilai prestasi LLM pada tugasan QA saintifik buku tertutup terbuka. Membandingkan prestasi sampel sifar beberapa LLM pada set ujian SciQAG-24D dan LLaMA1 yang diperhalusi pada set latihan SciQAG-24D untuk mendapatkan LLaMA1-QA. Penalaan halus ini meningkatkan prestasinya dengan ketara pada pelbagai tugas saintifik. (3) Penyelidikan menunjukkan bahawa LLM mempunyai potensi dalam tugas saintifik, dan keputusan LLaMA1-QA boleh mencapai tahap walaupun melebihi garis dasar pembelajaran mesin. Ini menunjukkan utiliti pelbagai rupa SciQAG-24D dan menunjukkan bahawa memasukkan data QA saintifik ke dalam proses latihan boleh meningkatkan keupayaan LLM untuk mempelajari dan menggunakan pengetahuan saintifik.Atas ialah kandungan terperinci Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!