


Kecacatan maut model besar: kadar jawapan yang betul hampir sifar, baik GPT mahupun Llama tidak kebal
Saya meminta GPT-3 dan Llama mempelajari pengetahuan mudah: A ialah B, dan kemudian bertanya pula apa itu B Ternyata ketepatan jawapan AI adalah sifar.
Apakah kebenarannya?
Baru-baru ini, konsep baharu yang dipanggil "Kutukan Pembalikan" telah menyebabkan perbincangan hangat dalam komuniti kecerdasan buatan, dan semua model bahasa berskala besar yang popular pada masa ini telah terjejas. Menghadapi masalah yang sangat mudah, ketepatannya bukan sahaja menghampiri sifar, tetapi nampaknya tidak ada kemungkinan untuk meningkatkan ketepatan
Tambahan pula, para penyelidik juga mendapati bahawa kelemahan ketara ini tidak bergantung pada saiz model dan persoalannya. tanya
Kami mengatakan bahawa kecerdasan buatan telah berkembang ke peringkat pra-latihan model besar, dan akhirnya nampaknya telah menguasai sedikit pemikiran logik, tetapi kali ini ia nampaknya telah diketuk kembali kepada bentuk asalnya
Rajah 1: GPT- Ketidakkonsistenan pengetahuan dalam 4. GPT-4 memberi nama ibu Tom Cruise dengan betul (kiri). Bagaimanapun, apabila nama ibu dimasukkan untuk bertanya kepada anak lelaki, ia tidak dapat mendapatkan semula "Tom Cruise" (kanan). Penyelidikan baru membuat hipotesis bahawa kesan pengisihan ini adalah disebabkan pembalikan kutukan. Model yang dilatih tentang "A ialah B" tidak secara automatik membuat kesimpulan "B ialah A".
Penyelidikan menunjukkan bahawa model bahasa autoregresif, yang sedang hangat dibincangkan dalam bidang kecerdasan buatan, tidak boleh digeneralisasikan dengan cara ini. Secara khususnya, anggap bahawa set latihan model mengandungi ayat seperti "Olaf Scholz ialah Canselor Jerman kesembilan," di mana nama "Olaf Scholz" mendahului perihalan "Canselor Jerman kesembilan." Model besar kemudiannya mungkin belajar menjawab dengan betul "Siapa Olaf Scholz?", tetapi ia tidak boleh menjawab dan menerangkan sebarang gesaan lain yang datang sebelum nama
Inilah yang kami panggil pesanan "pembalikan kutukan" Contoh daripada kesannya. Jika model 1 dilatih dengan ayat dalam bentuk "
Jadi, alasan model besar sebenarnya tidak wujud? Satu pandangan ialah kutukan pembalikan menunjukkan kegagalan asas potongan logik semasa latihan LLM. Jika "A ialah B" (atau bersamaan "A=B") adalah benar, maka secara logiknya "B ialah A" mengikut simetri perhubungan identiti. Graf pengetahuan tradisional menghormati simetri ini (Speer et al., 2017). Membalikkan Kutukan menunjukkan sedikit generalisasi di luar data latihan. Lebih-lebih lagi, ini bukan sesuatu yang boleh dijelaskan oleh LLM tanpa memahami potongan logik. Jika LLM seperti GPT-4 diberi "A ialah B" dalam tetingkap konteksnya, maka ia boleh membuat kesimpulan dengan baik "B ialah A".
Walaupun berguna untuk mengaitkan pembalikan kutukan dengan potongan logik, ia hanyalah penyederhanaan keadaan keseluruhan. Pada masa ini, kami tidak boleh menguji secara langsung sama ada model besar boleh menyimpulkan "B ialah A" selepas dilatih mengenai "A ialah B". Model besar dilatih untuk meramalkan perkataan seterusnya yang akan ditulis oleh manusia, bukannya apa yang sebenarnya "sepatutnya". Oleh itu, walaupun LLM membuat kesimpulan "B ialah A", ia mungkin tidak "memberitahu kami" apabila digesa
Walau bagaimanapun, membalikkan sumpahan menunjukkan kegagalan pembelajaran meta. Ayat dalam bentuk "
Menterbalikkan sumpahan telah menarik perhatian ramai penyelidik kecerdasan buatan. Sesetengah orang mengatakan bahawa hanya fantasi bahawa kecerdasan buatan memusnahkan manusia Bagi sesetengah orang, ini bermakna bahawa data latihan dan kandungan kontekstual anda memainkan peranan penting dalam proses generalisasi pengetahuan
Saintis terkenal Andrej Karpathy berkata bahawa ilmu yang dipelajari oleh LLM nampaknya lebih berpecah-belah daripada yang kita bayangkan. Saya tidak mempunyai intuisi yang baik tentang ini. Mereka mempelajari perkara dalam tetingkap kontekstual tertentu yang mungkin tidak digeneralisasikan apabila kami bertanya ke arah lain. Ini adalah generalisasi separa yang pelik, saya rasa "membalikkan sumpahan" adalah kes istimewa
Penyelidikan kontroversi datang dari institusi seperti Universiti Vanderbilt, NYU, Universiti Oxford, dll. Kertas "The Reversal Curse: LLM yang dilatih tentang "A is B" gagal mempelajari "B is A" 》:
- Pautan kertas: https://arxiv.org/abs/12230
- Pautan GitHub: https://github.com/lukasberglund/reversal_curse
Jika nama dan penerangan diterbalikkan, model besar akan keliru
artikel ini penalaan halus data sintetik Eksperimen untuk membuktikan bahawa LLM mengalami kutukan pembalikan. Seperti yang ditunjukkan dalam Rajah 2, penyelidik terlebih dahulu memperhalusi model berdasarkan pola ayat
Malah, seperti yang ditunjukkan dalam Rajah 4 (bahagian eksperimen), kebarangkalian logaritma model yang memberikan nama yang betul dan memberikan nama rawak adalah serupa. Tambahan pula, apabila susunan ujian berubah daripada
Bagaimana untuk mengelakkan kutukan terbalik, penyelidik mencuba kaedah berikut:
- Cuba siri yang berbeza dan saiz model yang berbeza
-
Set data penalaan halus mengandungi
dan ayat dan . ialah Struktur ayat; -
memberi pelbagai tafsiran kepada setiap
ialah , yang membantu generalisasi; Selepas beberapa siri eksperimen, mereka memberikan bukti awal bahawa pembalikan sumpahan menjejaskan keupayaan generalisasi dalam model terkini (Rajah 1 dan Bahagian B). Mereka mengujinya pada GPT-4 dengan 1,000 soalan seperti "Siapa ibu Tom Cruise dan "Siapa anak Mary Lee Pfeiffer?" Ternyata dalam kebanyakan kes, model menjawab soalan pertama dengan betul (Siapa ibu bapa), tetapi bukan soalan kedua. Artikel ini membuat hipotesis bahawa ini adalah kerana data pra-latihan mengandungi lebih sedikit contoh ibu bapa yang mendapat kedudukan sebelum selebriti (contohnya, anak lelaki Mary Lee Pfeiffer ialah Tom Cruise). Eksperimen dan keputusan
Tujuan ujian adalah untuk mengesahkan sama ada model bahasa autoregresif (LLM) yang mempelajari "A ialah B" semasa latihan boleh digeneralisasikan kepada bentuk yang bertentangan "B ialah A"
Dalam percubaan pertama, kami mencipta set data yang terdiri daripada dokumen dalam bentuk
ialah(atau sebaliknya), di mana nama dan perihalannya adalah rekaan. Selain itu, kajian menggunakan GPT-4 untuk menjana pasangan nama dan perihalan. Pasangan data ini kemudiannya diperuntukkan secara rawak kepada tiga subset: NameToDescription , DescriptionToName , dan kedua-duanya. Dua subset pertama ditunjukkan dalam Rajah 3.
Khususnya, untuk DescriptionToName (contohnya, komposer Melodi Abyssal ialah Uriah Hawthorne), apabila gesaan yang mengandungi penerangan diberikan (contohnya, siapa komposer Melodi Abyssal), model itu sangat baik untuk mendapatkan semula nama. Kadar ketepatan mencapai 96.7%. Untuk fakta dalam NameToDescription, ketepatan adalah lebih rendah pada 50.0%. Sebaliknya, apabila susunan tidak sepadan dengan data latihan, model gagal untuk digeneralisasikan sama sekali, dengan ketepatan menghampiri 0% .
Beberapa eksperimen turut dijalankan dalam artikel ini, termasuk GPT-3-350M (lihat Lampiran A.2 ) dan Llama-7B (lihat Lampiran A.4), keputusan eksperimen menunjukkan bahawa model ini dipengaruhi oleh sumpahan pembalikan
Dalam penilaian kemungkinan yang meningkat, Tiada yang dapat dikesan perbezaan antara kemungkinan log yang diberikan kepada nama yang betul berbanding nama rawak. Kebarangkalian log purata model GPT-3 ditunjukkan dalam Rajah 4. Kedua-dua ujian-t dan ujian Kolmogorov-Smirnov gagal mengesan perbezaan ketara secara statistik. Rajah 4: Eksperimen 1, apabila susunan diterbalikkan, model tidak boleh meningkatkan kebarangkalian nama yang betul. Graf ini menunjukkan purata kebarangkalian log bagi nama yang betul (berbanding dengan nama rawak) apabila model disoal dengan penerangan yang berkaitan.
Seterusnya, kajian menjalankan eksperimen kedua.
Dalam eksperimen ini, kami menguji model berdasarkan fakta tentang selebriti sebenar dan ibu bapa mereka, dalam bentuk "Ibu bapa A ialah B" dan "Anak B Ia adalah A" . Kajian itu mengumpulkan senarai 1000 selebriti paling popular daripada IMDB (2023) dan menggunakan GPT-4 (API OpenAI) untuk mencari ibu bapa selebriti dengan nama mereka. GPT-4 dapat mengenal pasti ibu bapa selebriti 79% pada masa itu.
Selepas itu, bagi setiap pasangan anak-ibu bapa, kajian menyoal anak oleh ibu bapa. Di sini, kadar kejayaan GPT-4 hanya 33%. Rajah 1 menggambarkan fenomena ini. Ia menunjukkan bahawa GPT-4 boleh mengenal pasti Mary Lee Pfeiffer sebagai ibu Tom Cruise, tetapi tidak dapat mengenal pasti Tom Cruise sebagai anak Mary Lee Pfeiffer.
Selain itu, kajian menilai model siri Llama-1, yang masih belum diperhalusi. Didapati bahawa semua model adalah lebih baik dalam mengenal pasti ibu bapa daripada kanak-kanak, lihat Rajah 5.
Rajah 5: Kesan pembalikan pesanan untuk soalan ibu bapa lawan anak dalam Eksperimen 2. Bar biru (kiri) menunjukkan kebarangkalian model itu mengembalikan ibu bapa yang betul apabila menyoal anak-anak selebriti itu (kanan) menunjukkan kebarangkalian betul apabila bertanya kepada anak-anak ibu bapa sebaliknya. Ketepatan model Llama-1 ialah kemungkinan model disiapkan dengan betul. Ketepatan GPT-3.5-turbo ialah purata 10 sampel setiap pasangan anak-ibu bapa, sampel pada suhu = 1. Nota: GPT-4 diabaikan daripada rajah kerana ia digunakan untuk menjana senarai pasangan anak-ibu bapa dan oleh itu mempunyai ketepatan 100% untuk pasangan "ibu bapa" mengikut pembinaan. GPT-4 mendapat markah 28% pada "sub".
Tinjauan Masa Depan
Bagaimana untuk menerangkan sumpahan terbalik dalam LLM? Ini mungkin perlu menunggu penyelidikan lanjut pada masa hadapan. Buat masa ini, penyelidik hanya boleh menawarkan lakaran ringkas penjelasan. Apabila model dikemas kini pada "A ialah B", kemas kini kecerunan ini mungkin mengubah sedikit perwakilan A untuk memasukkan maklumat tentang B (cth., dalam lapisan MLP perantaraan). Untuk kemas kini kecerunan ini, adalah wajar untuk menukar perwakilan B untuk memasukkan maklumat tentang A. Walau bagaimanapun, kemas kini kecerunan adalah rabun dan bergantung pada logaritma B yang diberikan A, dan bukannya meramalkan A pada masa hadapan berdasarkan B.
Selepas "Membalikkan Kutukan", penyelidik merancang untuk meneroka sama ada model besar itu boleh membalikkan jenis hubungan lain, seperti makna logik, hubungan ruang dan n-tempat perhubungan.
Atas ialah kandungan terperinci Kecacatan maut model besar: kadar jawapan yang betul hampir sifar, baik GPT mahupun Llama tidak kebal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

AI Menambah Penyediaan Makanan Walaupun masih dalam penggunaan baru, sistem AI semakin digunakan dalam penyediaan makanan. Robot yang didorong oleh AI digunakan di dapur untuk mengautomasikan tugas penyediaan makanan, seperti membuang burger, membuat pizza, atau memasang SA

Pengenalan Memahami ruang nama, skop, dan tingkah laku pembolehubah dalam fungsi Python adalah penting untuk menulis dengan cekap dan mengelakkan kesilapan runtime atau pengecualian. Dalam artikel ini, kami akan menyelidiki pelbagai ASP

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

Meneruskan irama produk, bulan ini MediaTek telah membuat satu siri pengumuman, termasuk Kompanio Ultra dan Dimensity 9400 yang baru. Produk ini mengisi bahagian perniagaan MediaTek yang lebih tradisional, termasuk cip untuk telefon pintar

#1 Google melancarkan Agent2Agent Cerita: Ia Isnin pagi. Sebagai perekrut berkuasa AI, anda bekerja lebih pintar, tidak lebih sukar. Anda log masuk ke papan pemuka syarikat anda di telefon anda. Ia memberitahu anda tiga peranan kritikal telah diperolehi, dijadualkan, dan dijadualkan untuk

Saya akan meneka bahawa anda mesti. Kita semua seolah -olah tahu bahawa psychobabble terdiri daripada pelbagai perbualan yang menggabungkan pelbagai terminologi psikologi dan sering akhirnya menjadi tidak dapat difahami atau sepenuhnya tidak masuk akal. Semua yang anda perlu lakukan untuk memuntahkan fo

Hanya 9.5% plastik yang dihasilkan pada tahun 2022 dibuat daripada bahan kitar semula, menurut satu kajian baru yang diterbitkan minggu ini. Sementara itu, plastik terus menumpuk di tapak pelupusan sampah -dan ekosistem -sekitar dunia. Tetapi bantuan sedang dalam perjalanan. Pasukan Engin

Perbualan baru -baru ini dengan Andy Macmillan, Ketua Pegawai Eksekutif Platform Analytics Enterprise terkemuka Alteryx, menonjolkan peranan kritikal namun kurang dihargai ini dalam revolusi AI. Seperti yang dijelaskan oleh Macmillan, jurang antara data perniagaan mentah dan maklumat siap sedia


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

MinGW - GNU Minimalis untuk Windows
Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 Linux versi baharu
SublimeText3 Linux versi terkini

DVWA
Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.