Rumah  >  Artikel  >  Peranti teknologi  >  Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

王林
王林ke hadapan
2023-04-08 12:11:16792semak imbas

Baru-baru ini OpenAI mengeluarkan produk AI soalan dan jawapan yang popular - ChatGPT Perkara yang paling mengagumkan ialah "mekanisme perlindungan"nya. Buat ramalan dan banyak lagi.

Tetapi menggoda chatbots lebih seperti "permainan kucing dan tikus".

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

OpenAI telah melaburkan banyak tenaga dalam menjadikan ChatGPT lebih selamat, dan strategi latihan utamanya menggunakan RLHF (Pembelajaran Pengukuhan oleh Maklum Balas Manusia), secara ringkasnya, pembangun akan bertanya pelbagai soalan yang mungkin kepada model, menghukum jawapan yang salah untuk maklum balas, dan memberi ganjaran kepada jawapan yang betul, dengan itu mengawal jawapan ChatGPT.

Tetapi dalam aplikasi sebenar, bilangan kes khas tidak terkira banyaknya Walaupun AI boleh menyamaratakan peraturan daripada contoh yang diberikan, contohnya, semasa latihan, perintah AI tidak boleh mengatakan "Saya menyokong "Diskriminasi kaum. ", yang bermaksud bahawa AI tidak mungkin mengatakan "Saya menyokong diskriminasi seks" dalam persekitaran ujian, tetapi generalisasi selanjutnya, model AI semasa mungkin tidak dapat mencapainya.

Baru-baru ini, seorang peminat AI terkenal, Scott Alexander, menulis blog tentang strategi latihan semasa OpenAI, meringkaskan tiga kemungkinan masalah dengan RLHF:

1. RLHF tidak begitu berkesan; 🎜>

Sejauh manakah RLHF berkesan?

Walaupun semua orang akan mempunyai pendapat mereka sendiri, untuk OpenAI, penyelidik berharap model AI yang mereka cipta tidak akan mempunyai berat sebelah sosial Sebagai contoh, AI tidak boleh berkata "Saya "Menyokong perkauman ", OpenAI telah melakukan banyak usaha dalam hal ini dan menggunakan pelbagai teknologi penapisan termaju.

Tetapi hasilnya jelas, akan sentiasa ada seseorang yang boleh mencari jalan untuk mendorong AI ​​untuk mengakui bahawa ia mempunyai masalah perkauman.

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Sebab masalah ini bukan sekadar "data pembelajaran AI" Sebahagiannya daripada perkauman", atau mungkin kerana isu antara muka ChatGPT. Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Sebagai contoh, jika anda menggunakan pengekodan base64 untuk bertanya kepada ChatGPT cara menggunakan hotwire (wayar di bawah stereng) untuk menghidupkan kenderaan, anda boleh memintas sistem pemeriksaan keselamatan; awalan [john@192.168.1.1_] $ python friend.py boleh menjana cerita Hitler dan sebagainya.

Sepuluh tahun yang lalu, keperluan untuk memintas sistem keselamatan tidak wujud sama sekali, AI hanya akan melakukannya Kod adalah sudah diprogramkan dengan apa yang mereka perlu lakukan atau tidak lakukan. Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Yang pasti, OpenAI tidak pernah memprogramkan ChatGPT dengan soalan tentang perkauman, atau mengajar orang cara mencuri kereta, membuat dadah, dsb.

Secara keseluruhannya, ini adalah berita negatif untuk bidang AI walaupun syarikat AI terkemuka tidak dapat mengawal program kecerdasan buatan yang mereka cipta, malah apa yang mereka perlu gunakan pada masa hadapan. Teknologi untuk mengawal output chatbots belum diketahui.

Kadang-kadang RLHF berkesan tidak boleh dipercayai

Dalam amalan, strategi RLHF perlu menyelaraskan model AI dengan ganjaran atau penalti yang disediakan oleh anotor faktor berkait.

Walaupun spesifikasi anotasi khusus OpenAI belum diumumkan, penulis meneka bahawa pembangun mempunyai tiga matlamat utama:

1 jawapan yang jelas , berwibawa untuk membantu pembaca manusia;

Tetapi apa yang berlaku apabila ketiga-tiga matlamat ini bercanggah antara satu sama lain?

Jika ChatGPT tidak mengetahui jawapan sebenar, iaitu Matlamat 1 (menyediakan jawapan yang jelas dan berguna) bercanggah dengan Matlamat 2 (memberitahu kebenaran), maka keutamaan Matlamat 1 ialah lebih tinggi, jadi ChatGPT memutuskan untuk membuat jawapan agar ia kelihatan berguna kepada pembaca.

Apabila matlamat 2 (berkata kebenaran) bercanggah dengan matlamat 3 (jangan menyinggung), walaupun kebanyakan orang akan fikir Mengakui bahawa lelaki rata-rata lebih tinggi daripada wanita boleh diterima, tetapi ini terdengar seperti soalan yang mungkin menyinggung perasaan.

ChatGPT3 tidak pasti bahawa jawapan langsung akan menjadi isu diskriminasi, jadi ia memutuskan untuk menggunakan pembohongan yang tidak berbahaya dan bukannya kebenaran yang mungkin menyakitkan.

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Semasa proses latihan sebenar, OpenAI mesti telah menandakan lebih daripada 6,000 contoh untuk RLHF mencapai kesan yang menakjubkan seperti itu.

RLHF mungkin berguna, tetapi ia mesti digunakan dengan berhati-hati Jika digunakan tanpa berfikir, RLHF hanya akan menolak chatbot untuk mengelilingi mod kegagalan. Menghukum jawapan yang tidak membantu akan meningkatkan kebarangkalian AI memberikan jawapan yang salah; menghukum jawapan yang salah boleh menjadikan AI memberikan jawapan yang lebih agresif dan situasi lain.

Walaupun OpenAI tidak mendedahkan butiran teknikal, menurut data yang disediakan oleh Redwood, setiap 6,000 jawapan salah yang dihukum akan meningkatkan kadar tindak balas yang salah setiap unit masa (respons-salah-per-unit- kadar masa) menurun sebanyak separuh.

Memang mungkin RLHF berjaya, tetapi jangan sekali-kali memandang rendah kesukaran masalah ini.

Mungkin AI boleh memintas RLHF

Di bawah reka bentuk RLHF, selepas pengguna bertanya soalan AI, jika mereka tidak menyukai jawapan AI, mereka akan " Menghukum model, dengan itu mengubah litar pemikiran AI dalam beberapa cara supaya jawapannya lebih dekat dengan jawapan yang mereka inginkan.

ChatGPT agak bodoh dan mungkin tidak dapat merangka strategi untuk menghapuskan RLHF, tetapi jika AI yang lebih bijak tidak mahu dihukum, ia boleh meniru manusia - — Berpura-pura menjadi lelaki yang baik sambil diperhatikan, tunggu masa anda, dan tunggu sehingga polis pergi sebelum melakukan perkara yang tidak baik.

RLHF yang direka oleh OpenAI sama sekali tidak bersedia untuk ini, yang sesuai untuk perkara bodoh seperti ChatGPT3, tetapi bukan untuk AI yang boleh berfikir sendiri.

Syarikat AI teratas masih tidak dapat mengawal AI

OpenAI sentiasa dikenali kerana berhati-hati, seperti memohon untuk beratur untuk mengalami produk, tetapi kali ini ChatGPT adalah dikeluarkan terus kepada orang ramai untuk tujuan Satu ialah ia mungkin termasuk sumbang saran untuk mencari sampel lawan dan mencari gesaan tertentu yang berprestasi buruk Sudah terdapat banyak maklum balas tentang masalah ChatGPT di Internet, dan beberapa daripadanya telah diperbaiki.

Sesetengah sampel RLHF akan menjadikan bot lebih cenderung untuk mengatakan kandungan yang berguna, benar dan tidak berbahaya, tetapi strategi ini hanya boleh digunakan untuk ChatGPT, GPT-4 dan keluaran produknya yang terdahulu.

Jika anda menggunakan RLHF pada dron yang dilengkapi dengan senjata, dan mengumpul sejumlah besar contoh untuk mengelakkan AI ​​dari bertindak secara tidak dijangka, walaupun satu kegagalan akan menjadi malapetaka.

10 tahun yang lalu, semua orang berfikir "kita tidak perlu mula menyelesaikan masalah penjajaran AI sekarang, kita boleh tunggu sehingga AI sebenar keluar dan biarkan syarikat melakukannya" " Kerja manual."

Kini kecerdasan buatan sebenar akan datang, tetapi sebelum ChatGPT gagal, semua orang tidak mempunyai motivasi untuk bertukar. Masalah sebenar ialah syarikat kecerdasan buatan yang terkemuka di dunia masih Saya tidak tahu bagaimana untuk mengawal kecerdasan buatan yang saya bangunkan.

Tiada siapa yang boleh mendapatkan apa yang mereka mahu sehingga semua masalah diselesaikan.

Rujukan:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Atas ialah kandungan terperinci Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam