Rumah >Peranti teknologi >AI >Lebih berkesan daripada mantra 'Mari kita fikir langkah demi langkah', ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Lebih berkesan daripada mantra 'Mari kita fikir langkah demi langkah', ia mengingatkan kita bahawa projek itu sedang diperbaiki.

王林
王林ke hadapan
2024-01-16 10:00:18731semak imbas

Model bahasa yang besar boleh melaksanakan kejuruteraan pembayang automatik melalui pembayang meta, tetapi potensinya mungkin tidak dapat direalisasikan sepenuhnya kerana kekurangan panduan yang mencukupi untuk membimbing keupayaan penaakulan yang kompleks dalam model bahasa yang besar. Jadi bagaimana untuk membimbing model bahasa besar untuk menjalankan projek segera automatik?

Model bahasa besar (LLM) ialah alat berkuasa dalam tugas pemprosesan bahasa semula jadi, tetapi mencari petunjuk optimum selalunya memerlukan banyak percubaan dan kesilapan manual. Disebabkan sifat model yang sensitif, walaupun selepas digunakan untuk pengeluaran, kes kelebihan yang tidak dijangka mungkin ditemui yang memerlukan penalaan manual selanjutnya untuk menambah baik gesaan. Oleh itu, walaupun LLM mempunyai potensi yang besar, campur tangan manual masih diperlukan untuk mengoptimumkan prestasinya dalam aplikasi praktikal.

Cabaran-cabaran ini telah menimbulkan bidang penyelidikan yang baru muncul iaitu kejuruteraan segera automatik. Dalam bidang ini, satu pendekatan yang ketara ialah dengan memanfaatkan keupayaan LLM sendiri. Khususnya, ini melibatkan penggunaan arahan untuk meta-cue LLM, seperti "semak kumpulan gesaan dan sampel semasa, kemudian jana gesaan baharu".

Walaupun kaedah ini mencapai prestasi yang mengagumkan, persoalan yang timbul ialah: apakah jenis pembayang meta yang sesuai untuk kejuruteraan pembayang automatik?

Untuk menjawab soalan ini, penyelidik dari University of Southern California dan Microsoft menemui dua pemerhatian utama. Pertama, kejuruteraan segera itu sendiri adalah tugas bahasa yang kompleks yang memerlukan penaakulan yang mendalam. Ini bermakna memeriksa model dengan teliti untuk melihat ralat, menentukan sama ada beberapa maklumat hilang atau mengelirukan dalam gesaan semasa, dan mencari cara untuk menyampaikan tugas dengan lebih jelas. Kedua, dalam LLM, keupayaan penaakulan yang kompleks boleh dirangsang dengan membimbing model untuk berfikir langkah demi langkah. Kita boleh menambah baik lagi keupayaan ini dengan mengarahkan model untuk mencerminkan outputnya. Pemerhatian ini memberikan petunjuk berharga untuk menyelesaikan masalah ini.

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Alamat kertas: https://arxiv.org/pdf/2311.05661.pdf

Melalui pemerhatian sebelum ini, pengkaji menjalankan projek penalaan halus bertujuan untuk mewujudkan meta-hint untuk melaksanakan kejuruteraan pembayang dengan lebih berkesan untuk LLM Memberi panduan (lihat Rajah 2 di bawah). Dengan memikirkan batasan kaedah sedia ada dan menggabungkan kemajuan terkini dalam gesaan penaakulan yang kompleks, mereka memperkenalkan komponen meta-cue seperti templat penaakulan langkah demi langkah dan spesifikasi konteks untuk membimbing proses penaakulan LLM secara eksplisit dalam kejuruteraan segera.

Selain itu, memandangkan kejuruteraan pembayang berkait rapat dengan masalah pengoptimuman, kami boleh meminjam beberapa inspirasi daripada konsep pengoptimuman biasa seperti saiz kelompok, saiz langkah dan momentum serta memperkenalkannya ke dalam pembayang meta untuk penambahbaikan. Kami bereksperimen dengan komponen dan varian ini pada dua set data inferens matematik, MultiArith dan GSM8K, dan mengenal pasti gabungan berprestasi tinggi, yang kami namakan PE2.

PE2 telah mencapai kemajuan yang ketara dalam prestasi empirikal. Apabila menggunakan TEXT-DAVINCI-003 sebagai model tugas, gesaan yang dijana PE2 bertambah baik sebanyak 6.3% pada MultiArith dan 3.1% pada GSM8K berbanding gesaan pemikiran langkah demi langkah bagi rantaian pemikiran sifar. Tambahan pula, PE2 mengatasi dua garis dasar kejuruteraan segera automatik, iaitu APE lelaran dan APO (lihat Rajah 1).

Perlu diambil perhatian bahawa PE2 melaksanakan tugas yang bertentangan dengan fakta dengan paling berkesan. Selain itu, kajian ini menunjukkan kebolehgunaan luas PE2 untuk mengoptimumkan gesaan dunia sebenar yang panjang.

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Semasa menyemak sejarah pengeditan pantas PE2, penyelidik mendapati bahawa PE2 secara konsisten menyediakan pengeditan segera yang bermakna. Ia mampu membetulkan pembayang yang salah atau tidak lengkap dan menjadikan pembayang lebih kaya dengan menambahkan butiran tambahan, menghasilkan peningkatan prestasi muktamad (ditunjukkan dalam Jadual 4).

Menariknya, apabila PE2 tidak mengetahui penambahan dalam perlapanan, ia membuat peraturan aritmetiknya sendiri daripada contoh: "Jika kedua-dua nombor kurang daripada 50, tambah 2 kepada jumlah. Jika mana-mana nombor ialah 50 atau lebih, tambah 22 kepada jumlahnya." Walaupun ini adalah penyelesaian yang tidak sempurna dan mudah, ia menunjukkan keupayaan luar biasa PE2 untuk menaakul dalam situasi kontrafaktual.

Walaupun pencapaian ini, penyelidik juga telah mengiktiraf had dan kegagalan PE2. PE2 juga tertakluk kepada batasan yang wujud dalam LLM, seperti kebolehpercayaan untuk mengabaikan arahan yang diberikan dan menjana ralat (ditunjukkan dalam Jadual 5 di bawah).

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Pengetahuan latar belakang

Projek Tip

Matlamat kejuruteraan segera adalah untuk mencari teks gesaan p∗ yang mencapai prestasi terbaik pada set data D tertentu apabila menggunakan LLM M_tugasan yang diberikan sebagai model tugas (seperti ditunjukkan dalam formula berikut). Secara lebih khusus, anggap bahawa semua set data boleh diformatkan sebagai pasangan input-output teks, iaitu, D = {(x, y)}. Set latihan D_train untuk petunjuk pengoptimuman, D_dev untuk pengesahan dan D_test untuk penilaian akhir. Mengikut perwakilan simbolik yang dicadangkan oleh penyelidik, masalah kejuruteraan segera boleh digambarkan sebagai:

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

di mana, M_task (x; p) ialah output yang dijana oleh model yang diberikan prompt p, dan f adalah untuk setiap contoh fungsi penilaian. Contohnya, jika metrik penilaian adalah padanan tepat, maka Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Gunakan LLM untuk Kejuruteraan Auto-Prompt

Memandangkan set gesaan awal, Jurutera Auto-Prompt akan terus menghasilkan gesaan baharu dan berpotensi lebih baik. Pada cap masa t, jurutera gesaan mendapat gesaan p^(t) dan menjangkakan untuk menulis gesaan baharu p^(t+1). Semasa penjanaan pembayang baharu, seseorang boleh menyemak secara pilihan kumpulan contoh B = {(x, y, y′ )}. Di sini y ′ = M_task (x; p) mewakili output yang dihasilkan oleh model dan y mewakili label sebenar. Gunakan p^meta untuk mewakili meta-prompt yang membimbing M_proposal LLM untuk mencadangkan cadangan baharu. Oleh itu,

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Membina p^meta meta-cue yang lebih baik untuk meningkatkan kualiti petunjuk p^(t+1) yang dicadangkan adalah fokus utama kajian ini.

Membina isyarat meta yang lebih baik

Sama seperti isyarat memainkan peranan penting dalam prestasi tugas akhir, meta-kiu p^meta yang diperkenalkan dalam Persamaan 2 memainkan peranan penting dalam kualiti isyarat yang baru dicadangkan dan keseluruhan kualiti kejuruteraan auto-kiu memainkan peranan penting.

Penyelidik memberi tumpuan terutamanya kepada kejuruteraan kiu meta-kiu p^meta, membangunkan komponen meta-kiu yang boleh membantu meningkatkan kualiti kejuruteraan kiu LLM, dan menjalankan kajian ablasi sistematik ke atas komponen ini.

Para penyelidik mereka bentuk asas komponen ini berdasarkan dua motivasi berikut: (1) Menyediakan panduan terperinci dan maklumat latar belakang (2) Menggabungkan konsep pengoptimuman biasa. Seterusnya, pengkaji menghuraikan elemen-elemen ini dengan lebih terperinci dan menerangkan prinsip asas. Rajah 2 di bawah ialah gambaran visual.

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Menyediakan arahan dan konteks yang terperinci. Dalam kajian terdahulu, meta-kiu sama ada mengarahkan model yang dicadangkan untuk menghasilkan parafrasa gesaan atau mengandungi arahan minimum tentang memeriksa kumpulan contoh. Oleh itu, mungkin berfaedah untuk menambah arahan dan konteks tambahan pada isyarat meta.

(a) Tutorial Kejuruteraan Segera. Untuk membantu LLM lebih memahami tugas kejuruteraan segera, penyelidik menyediakan tutorial dalam talian tentang kejuruteraan segera dalam meta-kiu.

(b) Penerangan tugasan dua langkah. Tugas kejuruteraan segera boleh diuraikan kepada dua langkah, seperti yang dilakukan oleh Pryzant et al.: Dalam langkah pertama, model harus memeriksa gesaan semasa dan sekumpulan contoh. Dalam langkah kedua, model harus membina gesaan yang lebih baik. Walau bagaimanapun, dalam pendekatan Pryzant et al., setiap langkah dijelaskan dengan cepat. Sebaliknya, para penyelidik mempertimbangkan untuk menjelaskan kedua-dua langkah ini dalam metacue dan menyampaikan jangkaan terlebih dahulu.

(c) Templat penaakulan langkah demi langkah. Untuk menggalakkan model memeriksa dengan teliti setiap contoh dalam kelompok B dan memikirkan batasan gesaan semasa, kami membimbing model cadangan gesaan M_proposal untuk menjawab satu siri soalan. Sebagai contoh: Adakah output betul? Adakah gesaan menerangkan tugas dengan betul? Adakah perlu mengedit gesaan?

(d) Spesifikasi konteks. Dalam amalan, terdapat fleksibiliti di mana pembayang dimasukkan sepanjang urutan input. Ia boleh menerangkan tugas sebelum memasukkan teks, seperti "Terjemah Bahasa Inggeris ke Bahasa Perancis." Ia juga boleh muncul selepas memasukkan teks, seperti "berfikir langkah demi langkah" untuk mencetuskan kemahiran menaakul. Untuk mengenali konteks yang berbeza ini, penyelidik secara eksplisit menentukan interaksi antara isyarat dan input. Contohnya: "S: A: Fikirkan langkah demi langkah." Masalah kejuruteraan kiu yang diterangkan sebelum ini dalam Persamaan 1 pada dasarnya adalah masalah pengoptimuman, manakala cadangan kiu dalam Persamaan 2 boleh dilihat sebagai sedang menjalani langkah pengoptimuman. Oleh itu, penyelidik mempertimbangkan konsep berikut yang biasa digunakan dalam pengoptimuman berasaskan kecerunan dan membangunkan rakan sejawatan mereka untuk digunakan dalam kiu meta.

(e) Saiz kelompok. Saiz kelompok ialah bilangan contoh (gagal) yang digunakan dalam setiap langkah cadangan tip (Persamaan 2). Pengarang mencuba saiz kelompok {1, 2, 4, 8} dalam analisis mereka.

(f) saiz langkah. Dalam pengoptimuman berasaskan kecerunan, saiz langkah menentukan jumlah berat model yang dikemas kini. Dalam projek segera, rakan sejawatannya mungkin bilangan perkataan (token) yang boleh diubah suai. Pengarang secara langsung menentukan "Anda boleh menukar sehingga s perkataan dalam gesaan asal", di mana s ∈ {5, 10, 15, Tiada}.

(g) Optimumkan sejarah dan momentum. Momentum (Qian, 1999) ialah teknik yang mempercepatkan pengoptimuman dan mengelakkan ayunan dengan mengekalkan purata bergerak kecerunan lalu. Untuk membangunkan rakan linguistik momentum, makalah ini termasuk ringkasan semua gesaan lalu (masa dicap 0, 1, ..., t − 1), prestasinya pada set pembangun dan pengeditan segera.

Eksperimen

Pengarang menggunakan empat set tugasan berikut untuk menilai keberkesanan dan had PE2:

1. Induksi arahan; 4.

Tanda aras yang dipertingkatkan dan LLM yang dikemas kini. Dalam dua bahagian pertama Jadual 2, penulis memerhatikan peningkatan prestasi yang ketara menggunakan TEXT-DAVINCI-003, menunjukkan bahawa ia lebih mampu menyelesaikan masalah penaakulan matematik dalam Zero-shot CoT. Tambahan pula, jurang antara dua isyarat berkurangan (MultiArith: 3.3% → 1.0%, GSM8K: 2.3% → 0.6%), menunjukkan pengurangan sensitiviti TEXT-DAVINCI-003 kepada tafsiran kiu. Atas sebab ini, kaedah yang bergantung pada parafrasa mudah, seperti Iterative APE, mungkin tidak berkesan dalam meningkatkan hasil akhir. Pengeditan segera yang lebih tepat dan disasarkan diperlukan untuk meningkatkan prestasi.

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

PE2 mengatasi APE dan APO Berulang dalam pelbagai tugas. PE2 dapat mencari tip dengan ketepatan 92.3% pada MultiArith (6.3% lebih baik daripada Zero-shot CoT) dan 64.0% pada GSM8K (+3.1%). Tambahan pula, PE2 menemui petunjuk yang mengatasi APE Berulang dan APO pada penanda aras induksi arahan, penilaian balas fakta dan isyarat pengeluaran.

Dalam Rajah 1 di atas, penulis meringkaskan peningkatan prestasi yang dicapai oleh PE2 pada penanda aras induksi arahan, penilaian balas fakta dan gesaan pengeluaran, menunjukkan bahawa PE2 mencapai prestasi yang kukuh dalam pelbagai tugasan bahasa. Terutama, apabila menggunakan pemulaan induktif, PE2 mengatasi APO pada 11 daripada 12 tugasan kontrafaktual (ditunjukkan dalam Rajah 6), menunjukkan keupayaan PE2 untuk membuat alasan tentang situasi paradoks dan kontrafaktual.

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

PE2 menjana pengeditan segera disasarkan dan gesaan berkualiti tinggi. Dalam Rajah 4(a), pengarang memplot kualiti cadangan kiu semasa proses pengoptimuman kiu. Corak yang sangat jelas diperhatikan merentas tiga kaedah pengoptimuman kiu dalam eksperimen: APE Berulang adalah berdasarkan parafrasa, jadi isyarat yang baru dijana mempunyai varians yang lebih kecil. APO mengalami penyuntingan segera yang drastik, jadi prestasi menurun pada langkah pertama. PE2 adalah yang paling stabil daripada tiga kaedah. Dalam Jadual 3, penulis menyenaraikan petua terbaik yang ditemui oleh kaedah ini. Kedua-dua APO dan PE2 boleh memberikan arahan "pertimbangkan semua bahagian/perincian". Selain itu, PE2 direka bentuk untuk meneliti kelompok, membolehkannya melangkaui pengeditan parafrasa mudah kepada pengeditan segera yang sangat khusus seperti "Ingat untuk menambah atau menolak mengikut keperluan."

Lebih berkesan daripada mantra Mari kita fikir langkah demi langkah, ia mengingatkan kita bahawa projek itu sedang diperbaiki.

Untuk maklumat lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Lebih berkesan daripada mantra 'Mari kita fikir langkah demi langkah', ia mengingatkan kita bahawa projek itu sedang diperbaiki.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam