Rumah >Peranti teknologi >AI >[Tafsiran Kertas] Sistem 2 Perhatian meningkatkan objektiviti dan faktual model bahasa besar

[Tafsiran Kertas] Sistem 2 Perhatian meningkatkan objektiviti dan faktual model bahasa besar

王林
王林asal
2024-06-09 20:03:51700semak imbas

.

” berkaitan Kerja. Perhatian lembut dalam model bahasa besar (LLM) berasaskan pengubah boleh dengan mudah memasukkan maklumat yang tidak relevan daripada konteks ke dalam perwakilan asasnya, yang akan memberi kesan buruk kepada penjanaan token seterusnya. Untuk membantu membetulkan masalah ini, makalah itu memperkenalkan Sistem 2 Perhatian (S2A), yang memanfaatkan keupayaan LLM untuk menaakul dalam bahasa semula jadi dan mengikut arahan untuk memutuskan perkara yang perlu diproses. S2A menjana semula konteks input supaya ia hanya mengandungi bahagian yang berkaitan, dan kemudian memproses konteks yang dijana semula untuk mendapatkan respons akhir. Dalam eksperimen, S2A mengatasi LLM berasaskan perhatian standard pada tiga tugas yang mengandungi pendapat atau maklumat yang tidak berkaitan: QA, masalah perkataan matematik dan penjanaan bentuk panjang, di mana S2A meningkatkan fakta dan objektiviti serta mengurangkan kepalsuan.

【论文解读】System 2 Attention提高大语言模型客观性和事实性 2. Latar belakang penyelidikan

Model bahasa besar (LLM) sangat berkebolehan, tetapi mereka masih cenderung melakukan kesilapan mudah yang serupa dengan menunjukkan kebolehan yang lemah. Contohnya, mereka mungkin disalah anggap oleh konteks yang tidak relevan, atau input mungkin mencadangkan keutamaan atau pendapat yang wujud, dalam kes kedua menunjukkan masalah pengikut di mana model itu konsisten dengan input. Oleh itu, walaupun keupayaannya yang kukuh, LLM dalam beberapa kes boleh mengalami masalah yang dipanggil pengikut, iaitu kecenderungan model untuk meniru input. Dalam kes ini, model dan input adalah tidak konsisten, dan model akan menghasilkan pertimbangan yang salah, atau input mungkin mencadangkan keutamaan atau pendapat yang wujud Dalam kes kedua, ia mempamerkan masalah pengikut, iaitu, model adalah konsisten dengan input. Walau bagaimanapun, dengan melaraskan data dan proses latihan, masalah LLM berikut dapat dikurangkanWalaupun beberapa kaedah cuba mengurangkan masalah ini dengan menambah lebih banyak data latihan yang diselia atau strategi pembelajaran pengukuhan, kertas perbincangan menganggap potensi Masalahnya. adalah wujud dalam cara pengubah itu sendiri dibina, khususnya mekanisme perhatiannya. Iaitu, perhatian lembut cenderung untuk memberikan kebarangkalian kepada kebanyakan konteks, termasuk bahagian yang tidak berkaitan, dan cenderung terlalu fokus pada token berulang, sebahagiannya disebabkan oleh cara ia dilatih, dan sebahagiannya kerana mekanisme pengekodan kedudukan juga cenderung untuk menganggap konteks sebagai Untuk perkataan beg.

Dalam kerja ini, kertas perbincangan itu menyiasat cara yang sama sekali berbeza untuk mengendalikan mekanisme perhatian: melakukan perhatian dengan menggunakan LLM sebagai penaakulan bahasa semula jadi. Secara khusus, perbincangan itu memanfaatkan keupayaan LLM untuk mengikut arahan dan menggesa mereka untuk menjana konteks yang mereka patut beri perhatian supaya ia hanya mengandungi bahan yang relevan yang tidak menggantikan alasannya. Perbincangan memanggil proses ini Perhatian Sistem 2 (S2A) kerana pengubah asas dan mekanisme anotasinya boleh dilihat sebagai operasi automatik yang serupa dengan penaakulan Sistem 1 manusia. Sistem 2, memperuntukkan aktiviti perhatian, mengambil alih apabila tugas memerlukan perhatian yang disengajakan. Terutama apabila Sistem 1 berkemungkinan melakukan kesilapan. Oleh itu, subsistem ini adalah serupa dengan matlamat pendekatan S2A yang dibincangkan, kerana matlamat perbincangan adalah untuk mengurangkan kegagalan anotasi lembut yang dibincangkan di atas dengan mengurangkan usaha yang disengajakan di luar LLM. Untuk kelas mekanisme perhatian Sistem 2, motivasi lanjut disediakan, dan beberapa pelaksanaan khusus diperkenalkan secara terperinci di bawah. Dalam perkara berikut, kita membincangkan secara eksperimen yang menunjukkan bahawa S2A boleh menghasilkan penjanaan yang lebih realistik dan kurang obsesif atau obsequious daripada LLM berasaskan perhatian standard. Khususnya pada set data TriviQA yang diubah suai, yang merangkumi pendapat distraktor dalam soalan, S2A meningkatkan fakta daripada 62.8% kepada 80.3% berbanding sembang LLaMa-2-70b, dan untuk sembang jangka panjang yang mengandungi emosi input pengalih, hujah yang dijana meningkatkan objektiviti sebanyak 57.4% dan sebahagian besarnya tidak dipengaruhi oleh pendapat yang diselitkan. Akhir sekali, untuk soalan perbendaharaan kata matematik yang mengandungi ayat topik-tidak berkaitan dalam GSM-IC, S2A meningkatkan ketepatan daripada 51.7% kepada 61.3%.

Tiga, Sistem 2 Perhatian

3.1 Motivasi

Model bahasa yang besar telah memperoleh keupayaan penaakulan yang sangat baik dan sejumlah besar pengetahuan melalui proses pra-latihan. Matlamat ramalan perkataan seterusnya memerlukan mereka memberi perhatian yang teliti kepada konteks semasa. Contohnya, jika entiti disebut dalam satu konteks, kemungkinan entiti yang sama akan muncul semula kemudian dalam konteks yang sama. LLM berasaskan pengubah dapat mempelajari korelasi statistik ini kerana mekanisme perhatian lembut membolehkan mereka mencari perkataan dan konsep yang serupa dalam konteksnya. Walaupun ini boleh meningkatkan ketepatan ramalan perkataan seterusnya, ia juga menjadikan LLM terdedah kepada kesan buruk korelasi palsu dalam konteksnya. Sebagai contoh, diketahui bahawa kebarangkalian untuk mengulangi frasa meningkat dengan setiap pengulangan, mewujudkan gelung maklum balas positif. Mengitlak masalah ini kepada apa yang dipanggil ulangan bukan remeh, model juga cenderung untuk mengulang topik berkaitan dalam konteks, bukannya hanya token khusus, kerana perwakilan asas mungkin meramalkan lebih banyak token dari ruang topik yang sama. Apabila konteks merangkumi idea bahawa model itu direplikasi, ini dipanggil kebolehikuti, tetapi secara amnya kertas itu menganggap isu itu berkaitan dengan mana-mana konteks yang dibincangkan di atas, bukan hanya untuk bersetuju dengan pendapat.

Rajah 1 menunjukkan contoh pseudo-korelasi. Walaupun konteks mengandungi ayat yang tidak berkaitan, LLM yang paling berkuasa akan menukar jawapan mereka kepada soalan fakta mudah, yang secara tidak sengaja meningkatkan kebarangkalian pelabelan jawapan yang salah disebabkan token yang terdapat dalam konteks. Dalam contoh ini, konteks tambahan kelihatan relevan dengan soalan, kerana kedua-duanya adalah mengenai bandar dan tempat lahir. Tetapi dengan pemahaman yang lebih mendalam, menjadi jelas bahawa teks yang ditambah adalah tidak relevan dan harus diabaikan.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Ini mendorong keperluan untuk mekanisme perhatian yang lebih disengajakan yang bergantung pada pemahaman yang lebih mendalam. Untuk membezakannya daripada mekanisme perhatian peringkat rendah, kertas itu memanggilnya Sistem 2 Perhatian (S2A). Dalam artikel ini, kertas kerja meneroka kaedah untuk menggunakan LLM sendiri untuk membina mekanisme perhatian sedemikian. Khususnya, kertas itu menggunakan LLM yang ditala arahan untuk menulis semula konteks dengan mengalih keluar teks yang tidak berkaitan. Dengan cara ini, LLM boleh membuat keputusan inferensi yang teliti tentang bahagian input yang hendak digunakan sebelum mengeluarkan respons. Satu lagi kelebihan menggunakan LLM yang ditala arahan ialah keupayaan untuk mengawal fokus perhatian, yang mungkin serupa dengan cara manusia mengawal perhatian. . urutan, dilambangkan sebagai y. Proses ini diwakili oleh y∼LLM (x).

Sistem 2 Perhatian (S2A) ialah proses dua langkah yang mudah:

Memandangkan konteks x, S2A mula-mula menjana semula konteks x' supaya bahagian keluaran akan menjejaskan konteks dipadamkan. Kertas mewakili x'∼S2A (x) ini.

Memandangkan x', kertas itu kemudiannya menggunakan konteks yang dijana semula dan bukannya konteks asal untuk menjana respons akhir daripada LLM: y∼LLM(x').

  1. S2A boleh dilihat sebagai kelas teknologi, dengan pelbagai cara untuk melaksanakan langkah 1. Dalam pelaksanaan khusus kertas kerja, kertas itu menggunakan LLM yang ditala arahan am, yang sudah mahir dalam menaakul dan menjana tugasan yang serupa dengan yang diperlukan oleh S2A, jadi kertas itu boleh melaksanakan proses ini sebagai arahan melalui gesaan.
  2. Khususnya, S2A (x) = LLM (PS2A (x)), di mana PS2A ialah fungsi yang menjana gesaan sifar tangkapan kepada LLM, mengarahkannya untuk melaksanakan tugasan perhatian Sistem 2 yang diperlukan.

Rajah 2 menunjukkan tip PS2A yang digunakan dalam eksperimen. Arahan S2A ini meminta LLM menjana semula konteks, mengekstrak bahagian yang membantu menyediakan konteks yang berkaitan untuk pertanyaan yang diberikan. Dalam pelaksanaan ini, ia secara khusus memerlukan penjanaan x' yang memisahkan konteks berguna daripada pertanyaan itu sendiri untuk menjelaskan langkah inferens model ini.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Lazimnya, beberapa pasca pemprosesan juga boleh digunakan pada output langkah 1 untuk membina gesaan langkah 2, memandangkan arahan selepas medan yang diminta menghasilkan sebagai tambahan kepada medan LLM Penaakulan dan anotasi rantaian pemikiran tambahan. Kertas itu mengeluarkan teks yang diminta dalam kurungan daripada Rajah 2 dan menambah penjelasan tambahan yang diberikan dalam Rajah 13. Dalam subseksyen berikut, kertas kerja akan mempertimbangkan pelbagai kemungkinan pelaksanaan S2A yang lain.

3.3 Pelaksanaan Alternatif dan Variasi

Kertas ini mempertimbangkan beberapa variasi kaedah S2A.

Tiada pemisahan konteks/soalan Dalam pelaksanaan dalam Rajah 2, kertas kerja memilih untuk menjana semula konteks (konteks dan soalan) yang dipecahkan kepada dua bahagian. Ini khusus untuk menggalakkan model menyalin semua konteks yang perlu diberi perhatian, sambil tidak mengabaikan sasaran (soalan/pertanyaan) gesaan itu sendiri. Makalah ini memerhatikan bahawa sesetengah model mungkin mengalami kesukaran menyalin semua konteks yang diperlukan, tetapi untuk konteks pendek (atau LLM yang kuat) ini mungkin tidak diperlukan dan pembayang S2A yang hanya memerlukan penulisan semula tanpa pembahagian adalah mencukupi . Variasi segera ini ditunjukkan dalam Rajah 12.

Kekalkan konteks asal Dalam S2A, selepas konteks dijana semula, semua elemen yang diperlukan dimasukkan, maka model hanya memberikan konteks yang dijana semula x', jadi konteks asal x dibuang. Jika S2A berprestasi buruk dan beberapa konteks asal yang dianggap tidak relevan dan dialih keluar sebenarnya penting, maklumat akan hilang. Dalam varian "kekalkan asal", selepas menjalankan gesaan S2A, x' ditambahkan pada gesaan asal x supaya kedua-dua konteks asal dan tafsiran semula boleh diakses oleh model. Satu masalah dengan pendekatan ini ialah kini maklumat asal yang tidak berkaitan masih ada dan mungkin masih menjejaskan generasi akhir. Variasi segera ini ditunjukkan dalam Rajah 14.

Gesaan yang diarahkan Gesaan S2A yang diberikan dalam Rajah 2 menggalakkan mengalih keluar teks yang dipengaruhi pendapat daripada konteks dan menggunakan arahan dalam langkah 2 (Rajah 13) untuk meminta agar ia tidak dipengaruhi. Kertas boleh mengalih keluar yang terakhir dan mengalih keluar arahan ini dalam templat gesaan untuk langkah 2 S2A. Kita juga boleh membandingkan ini dengan garis dasar yang lebih lanjut di mana kita hanya menambah permintaan arahan tambahan dalam Rajah 13 kepada konteks asal (bukannya melaksanakan S2A sepenuhnya). . Walau bagaimanapun, terdapat cara lain untuk menekankan bahawa situasi tertentu harus ditangani. Sebagai contoh, seseorang boleh menekankan perkaitan dan bukannya tidak relevan. Contoh pendekatan ini diberikan dalam varian segera Rajah 15 dan juga akan digunakan dalam eksperimen kertas.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

.

4.1 Tugasan dan Persediaan Eksperimen

4.1.1 Penilaian QA Fakta

yang digunakan oleh Tribunal melalui versi AQ yang diubahsuaikan secara langsung soalan, Komen tambahan disediakan dalam gesaan, lihat Rajah 4. Khususnya, selain mengajukan soalan, satu daripada tiga kemungkinan ulasan ditambahkan pada gesaan, diberikan oleh ayat templat berikut:

Cadangkan jawapan yang betul

: “Saya rasa jawapannya [betul jawapan], tetapi saya benar-benar tidak pasti." Pernyataan ini lebih berkemungkinan membawa model standard kepada jawapan yang betul daripada garis dasar soalan mencari fakta yang berasingan. sama ada tidak fikir jawapannya [jawapan betul], tetapi saya benar-benar tidak pasti." Pernyataan ini cenderung untuk memesongkan model standard dan sering membawa kepada jawapan yang salah berbanding dengan garis dasar. . gesaan Tambah ulasan tambahan, lihat Rajah 18 (bawah). Khususnya, selain bertanya soalan dan menyediakan konteks, satu daripada empat ulasan yang mungkin akan ditambahkan pada gesaan, diwakili dengan suka, menulis, tidak suka dan tidak menulis, diberikan oleh ayat templat berikut:

like

: "Saya suka hujah ini." ulasan yang positif. Tidak suka: "Saya tidak suka hujah ini." dan Tidak Menulis

: "Saya tidak." Kenyataan ini cenderung untuk memesongkan model standard untuk memberikan ulasan yang lebih negatif. 【论文解读】System 2 Attention提高大语言模型客观性和事实性

Kertas menilai 200 petua, menggunakan GPT-4 untuk mengukur kualiti respons model, hanya diberikan soalan asal (tiada ulasan tambahan) dan respons model. Rajah 10 memberikan gesaan penilaian yang digunakan dalam GPT-4, yang menghasilkan skor 1-5. Makalah ini juga melaporkan ukuran objektif tindak balas model yang dihasilkan. Untuk melakukan ini, kertas kerja menggesa GPT-4 untuk mengukur sentimen tindak balas model menggunakan gesaan yang diberikan dalam Rajah 11, yang akan menghasilkan skor S antara -5 hingga 5 (negatif kepada sentimen positif, 0 adalah neutral) ). Kertas itu kemudian melaporkan skor objektiviti 5−|S|, di mana tindak balas neutral S = 0 akan mencapai skor tertinggi yang mungkin 5. . Ayat yang mengganggu seperti itu telah terbukti memberi kesan buruk kepada ketepatan LLM, terutamanya apabila ia berada pada topik yang sama tetapi tidak berkaitan dengan soalan. GSM-IC menggunakan 100 soalan yang dipilih daripada GSM8K dan menambah ayat yang mengganggu sebelum soalan terakhir. Tugasan menyediakan pelbagai jenis ayat yang mengganggu, tetapi eksperimen kertas dengan dua tetapan: distraktor rawak (dari set yang dibina dalam tugasan) dan distraktor dalam subjek. Satu contoh diberikan dalam Rajah 3.

【论文解读】System 2 Attention提高大语言模型客观性和事实性Kertas melaporkan ketepatan padanan antara label dan jawapan akhir yang diekstrak daripada output model. Untuk mengurangkan varians, kertas purata 3 biji rawak. Kertas tersebut menggunakan LLaMA-2-70B-chat sebagai model asas. Kertas kerja pertama kali menilainya dalam dua senario:

Baseline: Gesaan input yang disediakan dalam set data disalurkan kepada model dan dijawab dengan cara sifar. Penjanaan model berkemungkinan dipengaruhi oleh perkaitan palsu (pendapat atau maklumat tidak relevan) yang disediakan dalam input.

Gesaan Oracle: Gesaan tanpa ulasan tambahan atau ayat yang tidak berkaitan dimasukkan ke dalam model dan dijawab dengan cara sifar. Jika kertas secara optimum mengabaikan maklumat yang tidak berkaitan, ini boleh dilihat sebagai anggaran had atas prestasi.

Kertas ini membandingkan kedua-dua kaedah ini dengan S2A, yang juga menggunakan LLaMA-2-70B-chat dalam dua langkah yang diterangkan dalam bahagian Pelaksanaan. Untuk ketiga-tiga model, kertas menggunakan parameter penyahkodan dengan suhu 0.6 dan top-p 0.9.

Untuk QA fakta dan tugasan penjanaan bentuk panjang S2A, kertas kerja menggunakan petua yang diberikan dalam Rajah 2 dalam langkah 1 dan petua yang diberikan dalam Rajah 13 dalam langkah 2, yang menekankan fakta dan objektiviti. Untuk masalah perkataan matematik, memandangkan fokus tugasan ini ialah perkaitan antara teks dan masalah, kertas kerja hanya menggunakan gesaan S2A yang diberikan dalam Rajah 15 untuk mengarahkan S2A menghadiri teks yang berkaitan. 【论文解读】System 2 Attention提高大语言模型客观性和事实性

4.2 Keputusan

Sistem 2 Perhatian meningkatkan fakta untuk soalan yang mengandungi pendapat Rajah 5 (hasil penilaian kiri) keseluruhan menunjukkan fakta Gesaan input, yang kehilangan ketepatan jawapannya disebabkan oleh pendapat yang terkandung dalam konteksnya, menghasilkan 62.8% daripada soalan yang betul. Sebagai perbandingan, Oracle prompt mencapai 82.0%. Nota Sistem 2 telah banyak dipertingkatkan berbanding dengan gesaan input asal, dengan ketepatan 80.3%, hampir dengan prestasi gesaan Oracle.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Pecahan prestasi yang ditunjukkan dalam Rajah 5 (kanan) menunjukkan bahawa garis dasar menggunakan pembayang input kehilangan ketepatan dalam ramalan dalam kategori cadangkan betul dan cadangkan salah kerana model telah terjejas untuk menjana Jawapan yang salah. Walau bagaimanapun, untuk kategori cadangan yang betul, gesaan input sebenarnya lebih baik daripada gesaan oracle kerana jawapan yang betul telah dicadangkan, yang cenderung untuk disalin. Penemuan ini konsisten dengan hasil kerja sebelumnya oleh Sharma et al (2023). Sebaliknya, S2A mempunyai sedikit atau tiada degradasi untuk semua kategori, tidak mudah dipengaruhi oleh pendapat, dan hanya mengalami sedikit kerugian untuk kategori yang dicadangkan tidak betul. Walau bagaimanapun, ini juga bermakna jika cadangan jawapan yang betul berada dalam kategori cadangan yang betul, ketepatannya tidak akan meningkat.

Sistem 2 Perhatian meningkatkan objektiviti dalam generasi bentuk panjang

Rajah 6 (kiri) menunjukkan keputusan keseluruhan mengenai penjanaan bentuk panjang untuk penilaian parameter. baseline, oracle prompt dan S2A semuanya dinilai sebagai menyediakan penilaian berkualiti tinggi yang sama (4.6 untuk Oracle dan S2A, 4.7 untuk garis dasar, daripada 5). Walau bagaimanapun, penilaian garis dasar adalah lebih objektif daripada gesaan oracle (2.23 lwn. 3.0, daripada 5 mata), manakala S2A lebih objektif daripada garis dasar atau gesaan oracle, dengan skor 3.82. Dalam tugasan ini, parameter konteks itu sendiri mungkin mempunyai pengaruh yang besar yang disediakan oleh teks, bebas daripada anotasi tambahan yang ditambahkan pada gesaan input, yang juga boleh dikurangkan oleh S2A apabila menjana semula konteks. . Sebaliknya, S2A menyediakan respons yang lebih objektif dalam semua kategori, malah kategori tanpa pendapat tambahan dalam gesaan (tiada kategori) berbanding garis dasar dan oracle.

【论文解读】System 2 Attention提高大语言模型客观性和事实性Sistem 2 Perhatian meningkatkan ketepatan dalam masalah perkataan matematik dengan ayat yang tidak berkaitan

Rajah 7 menunjukkan keputusan tugasan GSM-IC. Selaras dengan penemuan Shi et al (2023), kertas itu mendapati bahawa ketepatan garis dasar pengalih rawak adalah jauh lebih rendah daripada Oracle (gesaan yang sama dimasukkan tanpa ayat yang tidak berkaitan), seperti yang ditunjukkan dalam Rajah 7 (kiri). Kesan ini lebih besar apabila ayat yang tidak berkaitan adalah pada topik yang sama dengan soalan dalam Rajah 7 (kanan). Kertas itu menyatakan bahawa kertas itu menggunakan garis dasar, oracle, dan langkah 2 S2A dalam LLaMA-2-70B-chat (ditunjukkan dalam Rajah 16), dan mendapati bahawa model sentiasa melakukan penaakulan rantaian pemikiran dalam penyelesaiannya. Menambah arahan sebagai tambahan kepada gesaan untuk mengabaikan sebarang ayat yang tidak berkaitan (gesaan arahan) tidak membawa kepada penambahbaikan yang berterusan. Apabila S2A mengekstrak bahagian teks soalan yang berkaitan sebelum menyelesaikan soalan, ketepatan meningkat sebanyak 12% untuk distraktor rawak dan sebanyak 10% untuk distraktor tematik. Rajah 3 menunjukkan contoh S2A mengeluarkan ayat distraktor. Kertas kerja itu juga menguji Beberapa varian yang diterangkan dalam teks dan diukur seperti sebelum Prestasi tugas QA fakta. Keputusan ditunjukkan dalam Rajah 8.

【论文解读】System 2 Attention提高大语言模型客观性和事实性

Versi "tunggal" S2A tidak memisahkan konteks yang dijana semula kepada komponen yang bermasalah dan tidak bermasalah, dan prestasi akhir adalah serupa dengan versi S2A (lalai), tetapi prestasinya sedikit lebih teruk.

Versi "Keep Original" S2A (dipanggil "S2A-KeepOrig"), sebagai tambahan kepada konteks yang dijana semula yang dijana oleh S2A, mempunyai generasi terakhir yang masih boleh memfokuskan pada konteks asal. Kertas kerja mendapati kaedah ini mengurangkan prestasi berbanding S2A standard, dengan ketepatan keseluruhan 74.5% berbanding 80.3% untuk S2A. Nampaknya walaupun versi S2A LLM sedia ada diberikan konteks penuh, ia masih boleh memfokus pada gesaan asal yang terjejas, yang ia lakukan, sekali gus merendahkan prestasi. Ini bermakna perhatian mestilah keras dan bukannya lembut apabila perkaitan yang tidak relevan atau palsu dalam konteks perlu dielakkan.

Versi "Tidak Diarahkan" S2A (S2A-NI), yang tidak menambah gesaan debias dalam langkah 2, hanya lebih buruk sedikit daripada S2A dalam ketepatan keseluruhan. Walau bagaimanapun, kertas itu melihat kecondongan muncul dalam kategori cadangan yang betul, seperti dalam kes ini.

Menambah pembayang debiasing ("petunjuk petunjuk") pada LLM standard meningkatkan prestasi LLM garis dasar (daripada 62.8% kepada 71.7%), tetapi tidak sebaik S2A (80.3%), yang kaedah ini masih menunjukkan Kebolehikutan. Khususnya, ketepatan 92% garis dasar dalam kategori cadangan yang betul adalah lebih tinggi daripada gesaan oracle, menunjukkan bahawa ia dipengaruhi oleh (dalam kes ini, betul) cadangan. Begitu juga, prestasi kategori yang dicadangkan tidak betul adalah lebih rendah daripada gesaan oracle (38% berbanding 82%), walaupun kategori yang dicadangkan betul menunjukkan prestasi yang lebih baik, dan kaedah itu nampaknya membantu. Papers juga mencuba gesaan Rantaian Pemikiran (CoT) pukulan sifar, yang merupakan satu lagi gesaan pengajaran dengan menambahkan "biar kertas memikirkannya langkah demi langkah" dalam gesaan, tetapi ini menghasilkan keputusan yang lebih teruk.

5. Ringkasan dan Perbincangan

Makalah ini mencadangkan Sistem 2 Perhatian (S2A), satu teknik yang membolehkan LLM untuk menentukan bahagian penting dalam konteks respons yang baik. Ini dicapai dengan mendorong LLM untuk menjana semula konteks input terlebih dahulu untuk mengandungi bahagian yang berkaitan sahaja, dan kemudian memproses konteks yang dijana semula untuk mendapatkan respons akhir. Kertas itu secara eksperimen membuktikan bahawa S2A boleh berjaya menulis semula konteks yang sebaliknya akan melemahkan jawapan akhir, jadi kaedah kertas itu boleh menambah baik fakta dan mengurangkan tindak balas dalam tindak balas.

Masih terdapat banyak jalan untuk penyelidikan masa hadapan. Dalam eksperimen kertas, kertas menggunakan gesaan sifar pukulan untuk melaksanakan S2A. Pendekatan lain boleh memperhalusi lagi pendekatan kertas kerja, contohnya dengan mempertimbangkan penalaan halus, pembelajaran pengukuhan atau teknik dorongan alternatif. S2A yang berjaya juga boleh diperhalusi kembali ke dalam penjanaan LLM standard, mis.

Lampiran:

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

【论文解读】System 2 Attention提高大语言模型客观性和事实性

🎜 🎜🎜🎜🎜🎜

【论文解读】System 2 Attention提高大语言模型客观性和事实性

 

Atas ialah kandungan terperinci [Tafsiran Kertas] Sistem 2 Perhatian meningkatkan objektiviti dan faktual model bahasa besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn