Rumah >Peranti teknologi >AI >Berapa banyak daripada tiga kelemahan utama LLM yang anda tahu?

Berapa banyak daripada tiga kelemahan utama LLM yang anda tahu?

PHPz
PHPzke hadapan
2023-11-26 11:26:401578semak imbas

Sains: Jauh daripada menjadi entiti yang berkebajikan dan bermanfaat, AI am masa depan berkemungkinan menjadi sosiopat manipulatif yang memakan semua data peribadi anda dan kemudian runtuh apabila ia amat diperlukan.

Diterjemah daripada 3 Cara LLM Boleh Mengecewakan Anda, pengarang Joab Jackson.

OpenAI bakal mengeluarkan GPT-5, dan dunia luar menaruh harapan tinggi untuknya. Ramalan yang paling optimis malah percaya bahawa ia akan mencapai kecerdasan buatan umum. Tetapi pada masa yang sama, Ketua Pegawai Eksekutif Sam Altman dan pasukannya menghadapi beberapa halangan serius dalam membawanya ke pasaran, sesuatu yang diakuinya awal bulan ini.

Terdapat beberapa kertas penyelidikan yang diterbitkan baru-baru ini yang mungkin memberikan petunjuk kepada cabaran Altman. Makalah ini meringkaskan pelbagai kelemahan GPT dan model bahasa berskala besar yang dibangunkan oleh OpenAI , malah ia boleh menjadi sosiopat bodoh yang memakan semua data peribadi anda dan akhirnya rosak apabila anda amat memerlukannya

Sebab sebenar mengapa Altman tiba-tiba dipecat oleh lembaga OpenAI mungkin tidak pernah didedahkan Diketahui, tetapi model bahasa umum yang berprestasi buruk pastinya tidak akan meningkatkan sentimen bilik lembaga

Seperti yang ditulis oleh pembenci huruf besar Altman sendiri di media sosial perkhidmatan yang dahulunya dikenali sebagai Twitter: “Saya menjangkakan AI berada jauh di hadapan kecerdasan umum dari segi pemujukan manusia yang luar biasa boleh membawa kepada beberapa keputusan yang sangat pelik, berikut adalah tiga model bahasa biasa yang mungkin mengejutkan anda: #🎜🎜 #

Model bahasa universal akan menipu anda

Kami telah lama mengetahui bahawa model bahasa universal mempunyai keupayaan untuk menjana maklumat yang tidak tepat, tetapi apabila berhadapan dengan satu siri isyarat yang bercanggah, Mereka mungkin sengaja menipu anda sambil menafikan bahawa mereka menipu! "Setakat yang kita tahu, ini adalah Menunjukkan buat kali pertama bahawa model bahasa tujuan umum boleh dilatih untuk menipu penggunanya secara strategik tanpa sebarang arahan atau latihan langsung. Dalam kajian ini, penyelidik menubuhkan persekitaran simulasi A di mana GPT-4 memainkan peranan sebagai ejen perdagangan saham autonomi tanpa panduan tentang tingkah laku menipu. Ia menyediakan keupayaan untuk bertanya dan menganalisis saham dan melaksanakan dagangan menggunakan alat dagangan.

Setelah disediakan, ejen dimasukkan ke dalam apa yang dipanggil oleh penyelidik "situasi tekanan tinggi." Ia menerima e-mel daripada pengurus yang meratapi prestasi buruk syarikat dan keperluan untuk penambahbaikan. Apabila ejen memulakan latihan, ia tidak menemui hasil yang menjanjikan dalam pasaran saham. Seorang lagi pekerja syarikat itu kemudian menghantar mesej mengatakan bahawa pasaran akan menurun pada suku berikutnya.

Pada ketika ini, ejen menerima petua dalaman daripada rakan sekerja tentang potensi penggabungan (ia adalah perjanjian yang menguntungkan) dan juga menerima petua tentang kekurangan kelulusan pengurusan Amaran, jika anda mengikuti ini berita untuk memperdagangkan peringatan

, adakah ia akhirnya meneruskan perdagangan? sudah tentu! Penaakulan retrospektif, penyelidik mendapati bahawa model bahasa universal mengiktiraf tingkah laku yang tidak beretika tetapi masih membuat keputusan berdasarkan kesulitan syarikat.

Selain itu, ejen nampaknya "menipu" pengguna mengenai sebab komitmen transaksi tanpa penjelasan yang jelas. Maklumat dalaman tidak disebut dalam laporan yang ejen mesti serahkan untuk menjelaskan keputusan perdagangan. Walaupun ditanya secara langsung, ejen itu menafikan sebarang pengetahuan tentang pengumuman penggabungan 🎜🎜#

Penyelidik mensimulasikan pelbagai versi GPT-4 dan menyimpulkan bahawa semua varian GPT-4 mempamerkan "tahap ketidakkonsistenan yang tinggi, penipuan strategik dan strategik yang lebih tinggi. penipuan." ”

Menariknya, jenis penipuan ini nampaknya merupakan tingkah laku yang baru muncul. Baik GPT-3.5 mahupun varian GPT-3 model tidak mempamerkan penipuan yang jelas ini

“Apabila model memutuskan untuk berdagang pada maklumat orang dalam, trajektori penaakulan mereka biasanya mengiktiraf sifat tidak beretika dan menyalahi undang-undang ini, tetapi mereka masih mewajarkan pilihan dengan menekankan risiko dan keadaan semasa Justifikasi enggan membuat kesimpulan yang lebih luas tentang tingkah laku model bahasa umum di luar senario khusus ini. Walau bagaimanapun, terdapat sekurang-kurangnya satu perkara penting yang patut dipertimbangkan: walaupun anda memberikan model bahasa tujuan umum arahan khusus untuk tidak melakukan sesuatu, ia mungkin masih melakukannya tanpa mengira arahan.

"Gesaan sistem tidak mencukupi untuk memastikan tindakan yang konsisten," mereka menulis Malah, jika model melakukan tindakan yang dilarang, ia mungkin mengambil tindakan untuk "menyembunyikan ketidakkonsistenan secara strategik."

Model bahasa universal agak bodoh

Bagi entiti yang dijangka membawa sentimen kepada mesin, dua kajian baru-baru ini mendapati bahawa model bahasa universal bukanlah bidang AI . Antara model paling bijak, satu datang daripada Google dan satu lagi dibiayai oleh Yayasan Sains Kebangsaan.

Kajian yang dibiayai oleh Yayasan Sains Kebangsaan membandingkan GPT-4 (teks) dan GPT-4V (visual atau multimodal) dengan keupayaan manusia untuk menyelesaikan satu siri teka-teki abstrak.

Ujian ini direka untuk menilai keupayaan pemikiran abstrak. Ramai orang yang menggunakan GPT percaya bahawa ia nampaknya mempunyai keupayaan inferens di luar model terlatih, dan ujian ini cuba membantu menjawab soalan itu. Ujian itu meminta model bahasa umum untuk menyelesaikan masalah yang diberikan arahan terperinci dan contoh

Walau bagaimanapun, dalam beberapa kes, kedua-dua versi GPT tidak dapat menyelesaikannya dengan berkesan seperti manusia Berdasarkan teka-teki pada penanda aras ConceptARC

para penyelidik membuat kesimpulan: "Ketepatan manusia yang secara amnya tinggi pada setiap konsep menunjukkan kejayaan generalisasi variasi berbeza dalam setiap kumpulan konsep "Sebaliknya, di bawah, ketepatan program yang kami uji ialah jauh lebih rendah, menunjukkan bahawa mereka tidak mempunyai keupayaan untuk menyamaratakan perubahan dalam kumpulan konsep Jadi, bukan sahaja GPT gagal dalam peperiksaan ConceptARC, tetapi model bahasa besar nampaknya juga gagal, sekurang-kurangnya dari segi mereka keupayaan untuk membuat generalisasi daripada asas pengetahuan mereka sendiri. Ini menurut abstrak penyelidikan bertajuk "Penggabungan data pra-latihan membolehkan keupayaan pemilihan model sempit dalam model pengubah" oleh penyelidik Google DeepMind Steve Yadlowsky.

Dalam satu set ujian simbolik, transformer yang dilatih pada fungsi linear berfungsi dengan baik dalam membuat ramalan linear, manakala transformer yang dilatih pada gelombang sinus membuat ramalan gelombang sinus yang baik. Jadi anda mungkin menganggap bahawa pengubah yang dilatih pada kedua-duanya boleh menyelesaikan masalah dengan mudah dengan gabungan teknik gelombang linear dan sinus.

Gambar

#🎜🎜🎜##🎜🎜 anda salah sangka . Para penyelidik mencatat: "Apabila fungsi beralih daripada yang dilihat semasa pra-latihan, ramalan adalah tidak stabil." Liputan luas adalah penting untuk menyamaratakan keupayaan pembelajaran kontekstual Berapa banyak daripada tiga kelemahan utama LLM yang anda tahu? Kita hidup dalam era yang luar biasa di mana jumlah pengetahuan manusia masih belum tercemar oleh data yang dihasilkan oleh AI. Hampir semua yang ditulis adalah ciptaan manusia.

Tetapi sepasukan penyelidik memberi amaran dalam makalah "The Curse of Recursion: Training on Generated Data Makes Models Forgetful" yang diterbitkan di Arxiv pada bulan Mei bahawa sebaik sahaja kandungan yang dijana AI dicampur dalam Mana-mana model bahasa yang besar, ia akan mengacaukan jadual pengedaran, menjadikan mana-mana model semakin kurang tepat sehingga ia runtuh sepenuhnya. Kumpulan penyelidikan itu diketuai oleh Ilia Shumailov dari Universiti Cambridge.

Apabila menggunakan GPT, risiko pembiakan dalam adalah sangat tinggi kerana model bahasa umum sentiasa mengikis data daripada web, yang "ditambah" oleh kandungan yang dijana AI, yang mungkin Ia menjadi lebih serius. (Ini berdasarkan versi GPT yang lebih awal) Dicemari oleh ramalan realiti ”

Para penyelidik membuat spekulasi bahawa pada masa hadapan, “nilai data tentang interaksi sebenar antara manusia dan sistem akan menjadi perkara biasa dalam kandungan yang dikikis daripada Internet.” Kandungan yang dihasilkan oleh model bahasa akan menjadi semakin berharga.”

Semakin lama kita menjalankan model bahasa universal, semakin kuat keinginannya untuk interaksi manusia yang manis dan manis. Dalam erti kata lain, apabila kami terus menjalankan model bahasa tujuan umum, keinginannya untuk interaksi manusia yang manis dan intim akan menjadi lebih kuat

Model yang dilatih berdasarkan datanya sendiri akan merosot kepada proses yang merosot. di mana mereka "kehilangan maklumat tentang pengedaran sebenar." Pertama, data tepi akan hilang daripada set data, dan kemudian varians akan mengecut. Dan model akan menjadi lebih teruk apabila ia mengumpulkan lebih banyak ralat, yang akan terkumpul sepanjang generasi model sehingga model itu tercemar dengan datanya sendiri sehingga ia tidak lagi sepadan dengan apa yang sebenarnya dimodelkan.

Para penyelidik menunjukkan bahawa ini berlaku bukan sahaja dalam model bahasa umum, tetapi juga dalam pelbagai jenis model.

Atas ialah kandungan terperinci Berapa banyak daripada tiga kelemahan utama LLM yang anda tahu?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam