Rumah >Peranti teknologi >AI >Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

PHPz
PHPzke hadapan
2023-09-23 12:05:061226semak imbas

Penjanaan ringkasan ialah tugas penjanaan bahasa semula jadi (NLG), yang tujuan utamanya adalah untuk memampatkan teks panjang menjadi ringkasan pendek. Ia boleh digunakan pada pelbagai kandungan, seperti artikel berita, kod sumber dan teks merentas bahasa, dsb. Kaedah penalaan halus pada set tidak lagi terpakai.

Kami tidak boleh tidak bertanya, sejauh manakah LLM berkesan menjana ringkasan?

Bagi menjawab soalan ini, penyelidik dari Universiti Peking menjalankan perbincangan terperinci dalam kertas kerja "Ringkasan (Hampir) Mati". Mereka menilai prestasi LLM pada pelbagai tugas ringkasan (berita tunggal, berbilang berita, dialog, kod sumber dan ringkasan merentas bahasa) menggunakan set data penilaian yang dijana manusia

#🎜 🎜# Selepas membandingkan secara kuantitatif dan kualitatif ringkasan yang dijana LLM, ringkasan tulisan manusia dan ringkasan yang dijana model yang diperhalusi, didapati bahawa ringkasan yang dijana LLM amat digemari oleh penilai manusia#🎜🎜 #

Setelah mengambil sampel dan meneliti 100 kertas kerja berkaitan kaedah ringkasan yang diterbitkan dalam ACL, EMNLP, NAACL dan COLING dalam tempoh 3 tahun yang lalu, penyelidik mendapati bahawa sumbangan utama kira-kira 70% daripada kertas kerja adalah untuk mencadangkan ringkasan ringkasan A kaedah dan keberkesanannya telah disahkan pada set data standard. Oleh itu, kajian menyatakan bahawa "Ringkasan sudah (Hampir) Mati"

Walaupun begitu, penyelidik berkata bidang itu masih menghadapi beberapa cabaran, Isu seperti keperluan untuk lebih tinggi set data rujukan berkualiti dan kaedah penilaian yang lebih baik masih perlu diselesaikan

Pautan kertas: https ://arxiv. org/pdf/2309.09558.pdf

Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

Kaedah dan Keputusan

#🎜Kajian ini digunakan🎜 untuk membina set data, setiap set data mengandungi 50 sampel.

Apabila melaksanakan tugasan ringkasan berita, berbilang berita dan perbualan, kami menggunakan kaedah yang serupa dengan kaedah pembinaan set data CNN/DailyMail dan Multi-News untuk simulasi. Untuk tugas rumusan merentas bahasa, kami menggunakan strategi yang sama seperti yang dicadangkan oleh Zhu et al. Bagi tugasan ringkasan kod, kaedah yang dicadangkan oleh Bahrami et al.

Selepas set data dibina, langkah seterusnya ialah kaedah. Secara khusus, artikel ini menggunakan BART dan T5 untuk tugasan berita tunggal dan BART untuk tugasan berbilang berita;

Dalam eksperimen ini, kajian menggunakan penilai manusia untuk membandingkan kualiti keseluruhan abstrak yang berbeza. Menurut keputusan dalam Rajah 1, ringkasan yang dijana oleh LLM mengatasi ringkasan yang dijana secara manual dan ringkasan yang dijana oleh model yang diperhalusi dalam semua tugasan 🎜#

Ini menimbulkan persoalan mengapa LLM. mampu mengatasi ringkasan tulisan manusia, yang secara tradisinya dianggap sempurna. Tambahan pula, pemerhatian awal menunjukkan bahawa rumusan yang dijana LLM adalah sangat lancar dan koheren

Kertas ini seterusnya merekrut pencatat untuk mengenal pasti isu halusinasi dalam ayat ringkasan manusia dan janaan LLM, dan keputusannya adalah seperti berikut Seperti yang ditunjukkan dalam Jadual 1, ringkasan tulisan manusia mempamerkan bilangan halusinasi yang sama atau lebih tinggi berbanding ringkasan yang dihasilkan oleh GPT-4. Dalam tugas khusus seperti berbilang item berita dan ringkasan kod, ringkasan tulisan manusia menunjukkan konsistensi fakta yang jauh lebih lemah.

Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

Jadual 2 menunjukkan perkadaran halusinasi dalam ringkasan tulisan manusia dan GPT-4 #🎜 ringkasan yang dihasilkan

Artikel ini juga mendapati bahawa rumusan rujukan tulisan manusia mempunyai masalah yang kurang kelancaran. Seperti yang ditunjukkan dalam Rajah 2 (a), ringkasan rujukan tulisan manusia kadangkala mengalami maklumat yang tidak lengkap. Dan dalam Rajah 2(b), beberapa ringkasan rujukan tulisan manusia menunjukkan halusinasi.

Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

Kajian ini juga mendapati ringkasan yang dihasilkan oleh model penalaan halus biasanya mempunyai panjang yang tetap dan ketat, manakala LLM dapat melaraskan panjang output berdasarkan maklumat input. Tambahan pula, apabila input mengandungi berbilang topik, ringkasan yang dijana oleh model yang diperhalusi mempunyai liputan topik yang rendah, seperti yang ditunjukkan dalam Rajah 3, manakala LLM dapat menangkap semua topik apabila menjana ringkasan #🎜🎜 ##🎜🎜 #

Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?

Menurut keputusan dalam Rajah 4, skor keutamaan manusia untuk model besar melebihi 50%, yang menunjukkan bahawa orang mempunyai keutamaan yang kuat untuknya. ringkasan, dan menyerlahkan keupayaan LLM dalam ringkasan teks

Atas ialah kandungan terperinci Seberapa lancar prestasi GPT-4? Adakah tulisan manusia boleh diatasi?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam