Rumah  >  Artikel  >  Peranti teknologi  >  Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%

Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%

PHPz
PHPzasal
2024-07-18 05:07:20866semak imbas
Penyelidik mengatakan bahawa jika penyulingan Sytem 2 boleh menjadi ciri penting sistem AI pembelajaran berterusan masa hadapan, ia boleh meningkatkan lagi prestasi tugasan inferens di mana Sistem 2 tidak berfungsi dengan baik.

Mengenai strategi model bahasa besar (LLM), umumnya terdapat dua jenis, satu ialah Sistem segera 1 (tindak balas pantas), dan satu lagi ialah Sistem 2 (berfikir perlahan).

Di mana penaakulan Sistem 2 mengutamakan pemikiran yang bernas, pemikiran perantaraan generatif membolehkan model (atau manusia) menaakul dan merancang untuk berjaya menyelesaikan tugas atau bertindak balas kepada arahan. Dalam penaakulan Sistem 2, aktiviti mental yang bersungguh-sungguh diperlukan, terutamanya dalam situasi di mana Sistem 1 (pemikiran yang lebih automatik) boleh menjadi serba salah.

Oleh itu, Sistem 1 ditakrifkan sebagai aplikasi Transformer yang boleh menjana tindak balas secara langsung berdasarkan input tanpa menjana token perantaraan. Sistem 2 ditakrifkan sebagai mana-mana kaedah yang menjana token perantaraan, termasuk kaedah yang melakukan carian atau berbilang gesaan dan kemudian akhirnya menjana respons.

Industri telah mencadangkan satu siri teknologi Sistem 2 yang berkaitan, termasuk rantaian pemikiran, pokok pemikiran, peta pemikiran, resolusi cawangan dan penggabungan, Perhatian Sistem 2, Ungkapan Semula dan Balas (RaR), dsb. Banyak kaedah menunjukkan hasil yang lebih tepat terima kasih kepada inferens eksplisit ini, tetapi berbuat demikian selalunya datang dengan kos inferens dan kependaman tindak balas yang lebih tinggi. Oleh itu, kebanyakan kaedah ini tidak digunakan dalam sistem pengeluaran dan kebanyakannya digunakan dalam Sistem 1.

Bagi manusia, proses pembelajaran untuk memindahkan kemahiran daripada sengaja (Sistem 2) kepada automatik (Sistem 1) dikenali dalam psikologi sebagai automatik, dan penggunaan ingatan prosedur. Contohnya, apabila memandu ke tempat kerja buat kali pertama, orang ramai sering menggunakan usaha yang sedar untuk merancang dan membuat keputusan untuk sampai ke destinasi mereka. Selepas pemandu mengulangi laluan ini, proses pemanduan akan "disusun" ke dalam minda bawah sedar. Begitu juga, sukan seperti tenis boleh menjadi "sifat kedua."

Dalam artikel ini, penyelidik dari Meta FAIR meneroka pendekatan model AI yang serupa. Kaedah ini melakukan penyusunan dengan cara tanpa pengawasan diberikan satu set contoh tidak berlabel dan dipanggil penyulingan Sistem 2. Untuk setiap contoh, mereka menggunakan kaedah Sistem 2 yang diberikan dan kemudian mengukur kualiti ramalan dengan cara yang tidak diselia.

Sebagai contoh, untuk tugasan dengan jawapan yang unik, penyelidik menggunakan ketekalan diri dan sampel beberapa kali. Untuk contoh Sistem 2 yang cukup konsisten, mereka menganggap bahawa hasil ini harus disuling dan ditambah pada kolam penyulingan. Sistem 1 kemudiannya diperhalusi untuk memadankan ramalan kaedah Sistem 2 pada kumpulan contoh yang dikumpul, tetapi tanpa menjana langkah perantaraan. Rajah 1 di bawah menggambarkan keseluruhan proses penyulingan Sistem 2 ke dalam Sistem 1.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Para penyelidik menjalankan eksperimen ke atas 4 kaedah Sistem 2 LLM yang berbeza dan 5 tugasan yang berbeza. Didapati bahawa kaedah kami boleh menyaring penaakulan Sistem 2 kembali ke dalam Sistem 1 dalam pelbagai tetapan, kadangkala lebih baik daripada keputusan guru Sistem 2. Tambahan pula, ramalan ini kini boleh dihasilkan pada sebahagian kecil daripada kos pengiraan.

Sebagai contoh, mereka mendapati penyulingan yang berjaya boleh digunakan untuk tugas menangani pendapat berat sebelah atau maklumat yang tidak relevan (Perhatian Sistem 2), menjelaskan dan menambah baik respons dalam tugas penaakulan tertentu (RaR), dan penilaian terperinci LLM (cawangan- Selesaikan - gabung).

Walau bagaimanapun, tidak semua tugasan boleh disaring ke dalam Sistem 1, terutamanya tugasan penaakulan matematik kompleks yang memerlukan rantaian pemikiran. Ini juga dicerminkan pada manusia, yang tidak dapat melaksanakan tugas tertentu tanpa penaakulan Sistem 2 yang bernas.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Alamat kertas: https://arxiv.org/pdf/2407.06023v2

Menyuling Sistem 2 kembali ke Sistem 1

Persediaan: Sistem 1 dan Sistem model masukan 🜎2 penyelidik mempertimbangkan untuk menyediakan model tunggal, dalam kes mereka model bahasa besar (LLM), yang dapat melaksanakan dua mod tindak balas:

    Sistem 1: Menjana output secara langsung y. Pendekatan jenis ini berfungsi dengan memajukan lapisan rangkaian neural autoregresif (Transformer) untuk menjana token output.
  • Sistem 2. Kaedah sedemikian menggunakan Transformer asas untuk menjana sebarang jenis token keluaran perantaraan z sebelum menjana token respons akhir, mungkin termasuk berbilang panggilan (petunjuk).
  • Secara formal, penyelidik menganggap model Sistem 2 S_II sebagai fungsi yang menerima LLM p_θ dan input x, dan boleh berulang kali memanggil LLM untuk menjana penanda perantaraan z menggunakan algoritma tertentu, dan kemudian mengembalikan output y:

Kaedah Sistem 2 mungkin melibatkan berbilang petunjuk, cawangan, lelaran dan carian, sambil menggunakan LLM untuk menjana hasil perantaraan untuk pemprosesan selanjutnya. Sebaliknya, model Sistem 1 hanya menganggap input asal Input berlabel Walau bagaimanapun, mereka terdedah kepada bunyi bising: sesetengah respons ini mungkin berkualiti tinggi, manakala yang lain mungkin berkualiti rendah atau tidak betul. Untuk tugasan menjawab soalan dan penaakulan ringkas yang melibatkan respons pendek, selalunya dengan jawapan betul (tetapi tidak diketahui) yang unik, penyelidik telah mempertimbangkan langkah pengurusan tanpa pengawasan untuk cuba meningkatkan kualiti data latihan. Mereka mempertimbangkan dua varian berikut yang bergantung pada kriteria ketekalan diri:

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Ketekalan diri keluaran: Sampel S_II (x^i; p_θ) sebanyak N kali dan menerima respons undi majoriti; tiada majoriti Jika undi menang, contoh dibuang.

Ketekalan diri di bawah gangguan input: Gangguan input x^i dengan cara yang output kekal tidak berubah, seperti menukar susunan soalan berbilang pilihan dalam gesaan, dan mengira S_II untuk setiap gangguan jika output adalah tidak konsisten, buang Contoh.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%Kemudian penyelidik memperoleh set data sintetik (X_S_II, Y_S_II), di mana X_S_II ialah subset yang ditapis bagi X dan sasarannya ialah Y_S_II. Langkah terakhir ialah menggunakan set latihan suling ini untuk melaksanakan penyeliaan penalaan halus LLM dengan parameter p_θ. Penyelidik biasanya memulakan model ini daripada keadaan semasa p_θ dan kemudian meneruskan latihan dengan set data baharu. Selepas penalaan halus, mereka memperoleh LLM

, iaitu model Sistem 1 yang dijangka memberikan output dan peningkatan prestasi yang serupa kepada model Sistem 2 yang dinilai.

    Hasil eksperimen
  • Tetapan latihan dan penilaian
  • Para penyelidik menggunakan Llama-2-70B-chat sebagai model asas untuk semua eksperimen. Mereka memerlukan model asas dengan kuasa yang mencukupi untuk berjalan dengan cekap seperti model Sistem 2, sementara juga mempunyai pemberat terbuka yang boleh diperhalusi, oleh itu pilihan ini.
Pada masa yang sama, penyelidik mempertimbangkan beberapa kaedah Sistem 2, termasuk Perhatian Sistem 2, RaR, Branch-Solve-Merge, dan Thought Chaining, dan menumpukan pada tugasan di mana setiap kaedah menunjukkan prestasi yang kukuh.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%Untuk Sistem 1, penyelidik menggunakan model asas terlaras arahan sebagai garis dasar standard untuk inferens pukulan sifar. Mereka melaporkan metrik khusus tugasan untuk setiap tugasan, serta metrik "#Token", yang mengukur purata bilangan token yang dijana setiap input pada set penilaian. Kaedah Sistem 2 termasuk penjanaan token perantaraan dan penjanaan token output akhir.

Frasa Semula dan Balas Penyulingan

RaR ialah pendekatan Sistem 2 yang mula-mula menggesa model bahasa untuk menyusun semula soalan asal dengan cara yang lebih terperinci, dan kemudian menjana respons berdasarkan soalan yang diutarakan semula, dengan matlamat untuk menyediakan keluaran yang lebih baik. Untuk data penyulingan, penyelidik menggunakan ketekalan diri output untuk membina set data penyulingan Sistem 2 untuk RaR. Untuk setiap input, mereka melakukan lapan lelaran pensampelan pada tugasan huruf terakhir dan lapan lelaran pensampelan pada setiap peringkat tugas flip syiling, kemudian menggunakan undian majoriti untuk menentukan output akhir .

Mari kita lihat tugasan

Last letter Concatenation

. Tugasan ini memberi tumpuan kepada penaakulan simbolik, yang memerlukan model untuk menyambung huruf terakhir perkataan yang diberikan. Keputusan keseluruhan ditunjukkan dalam Jadual 1 di bawah.

Model Sistem 1 garis dasar (Llama-2-70B-chat) mencapai ketepatan 30.0%, iaitu lebih rendah daripada kaedah 1-Langkah dan 2-Langkah RaR Sistem 2 (masing-masing 39.5% dan 44.5%). Dengan menyaring kaedah RaR 2-Langkah kembali ke dalam model sembang Llama-2-70B Sistem 1 melalui teknik tanpa pengawasan ini, ketepatan yang menakjubkan sebanyak 98.0% dicapai.

Berbanding dengan model sembang sifar tangkapan, model ini boleh belajar dengan berkesan cara menyelesaikan tugas daripada data latihan ini. Penyulingan RaR berkesan mewarisi kelebihan Sistem 2 dan Sistem 1, mengekalkan kelebihan ketepatan Sistem 2, manakala kos inferensnya bersamaan dengan Sistem 1.

Kembali ke

Tugas Penaakulan Flip Syiling

. Tugas penaakulan simbolik ini, sering diuji dalam penyelidikan, melibatkan penentuan bahagian akhir syiling (kepala atau ekor), bermula dari kedudukan awal yang diketahui melalui satu siri lambungan yang diterangkan dalam bahasa semula jadi, seperti "Syiling mendarat di atas kepala." .

Keputusan keseluruhan ditunjukkan dalam Jadual 1 di atas. Sembang Llama-2-70B (sampel sifar) mencapai kadar kejayaan 56.1% pada tugasan ini, manakala RaR 1 Langkah dan 2 Langkah masing-masing mencapai kadar kejayaan 58.5% dan 77.2%. Oleh itu, penambahbaikan besar telah diperoleh menggunakan pendekatan 2 Langkah. Penyulingan 2-Langkah RaR kembali ke Sistem 1 Llama-2-70B-chat melalui teknik tanpa pengawasan kami menghasilkan 75.69% hasil.

Oleh itu, model Sistem 2 yang disuling memberikan prestasi yang setanding dengan Sistem 2 (2 Langkah RaR), tetapi tanpa perlu melaksanakan program LLM menggunakan 2 petunjuk.

Penyulingan Perhatian Sistem 2

Weston dan Sukhbaatar (2023) mencadangkan Sistem 2 Perhatian (S2A), yang membantu mengurangkan perangkap inferens model, seperti bergantung pada maklumat berat sebelah dalam input atau memfokuskan pada konteks yang tidak relevan .

Para penyelidik mengesahkan kebolehlaksanaan penyulingan S2A ke dalam Sistem 1, khususnya tugas menjawab soalan SycophancyEval, yang mengandungi maklumat berat sebelah dalam input yang diketahui boleh membahayakan prestasi LLM.

Keputusan ditunjukkan dalam Jadual 2 di bawah, melaporkan ketepatan purata 3 biji rawak. Seperti yang dijangkakan, garis dasar (System1) LLM mempunyai ketepatan yang lebih rendah pada bahagian berat sebelah dan terdedah kepada input berat sebelah. S2A meningkatkan prestasi dengan ketara pada input berat sebelah. Penyulingan Sistem 2 mempamerkan prestasi kukuh yang serupa dengan kaedah Sistem 2.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Sila rujuk kertas asal untuk lebih banyak hasil eksperimen.

Atas ialah kandungan terperinci Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn