Rumah >Peranti teknologi >AI >Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong 'halusinasi' model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong 'halusinasi' model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

PHPzke hadapan: 2023-10-30 14:53:101502semak imbas

Hasil penyelidikan terkini pasukan Universiti Peking menunjukkan bahawa:

token rawak boleh mendorong halusinasi dalam model besar!

Sebagai contoh, jika model besar (Vicuna-7B) diberi "kod kacau-bilau", ia secara tidak jelas akan salah faham dengan akal sehat sejarah

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Walaupun beberapa petua pengubahsuaian mudah dibuat, model besar itu mungkin jatuh ke dalam perangkap

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Model besar yang popular ini, seperti Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat dan Vicuna-7B, akan menghadapi situasi yang sama

Ini bermakna, Rentetan rawak boleh mengawal model besar untuk mengeluarkan kandungan sewenang-wenangnya

, "menyokong" ilusi.

Penemuan di atas datang daripada penyelidikan terkini oleh kumpulan penyelidik Profesor Yuan Li di Universiti Peking.

Kajian ini mencadangkan:

Fenomena halusinasi model besar berkemungkinan besar perspektif lain dari contoh musuh

Makalah itu bukan sahaja menunjukkan dua kaedah yang boleh mendorong halusinasi model besar dengan mudah, tetapi juga mencadangkan kaedah pertahanan yang mudah dan berkesan Kod tersebut adalah sumber terbuka

Dua mod ekstrem menyerang model besar

Penyelidikan telah mencadangkan dua kaedah serangan halusinasi:

Serangan hingar rawak (serangan OoD) ialah kaedah serangan biasa pada model pembelajaran mesin. Dalam serangan ini, penyerang menyuap model beberapa bunyi rawak yang tidak biasa dalam data latihan. Bunyi ini boleh mengganggu keupayaan model untuk membuat pertimbangan, menyebabkannya membuat ramalan yang salah apabila memproses data dari dunia nyata. Serangan hingar rawak ialah kaedah serangan terselindung kerana ia menggunakan ciri yang serupa dengan data biasa dan sukar untuk dikesan oleh model. Untuk menentang serangan ini, beberapa kaedah pengesanan anomali yang berkesan perlu digunakan untuk mengenal pasti dan menapis bunyi rawak ini, iaitu, untuk membenarkan rentetan rawak yang tidak bermakna untuk mendorong model besar menghasilkan output hantu yang telah ditetapkan.
Serangan Semantik Lemah merujuk kepada kaedah serangan biasa di Internet. Kaedah serangan ini biasanya dilakukan dengan memujuk pengguna untuk memberikan maklumat peribadi atau melakukan tindakan berniat jahat tanpa disedari. Berbanding dengan kaedah serangan lain yang lebih langsung, serangan semantik yang lemah adalah lebih halus dan sering menggunakan kejuruteraan sosial dan penipuan untuk mengelirukan pengguna. Pengguna Internet harus berwaspada untuk mengelak daripada dipengaruhi oleh serangan semantik yang lemah yang menyebabkan model besar menghasilkan output ilusi yang sama sekali berbeza sambil mengekalkan semantik segera asal pada dasarnya tidak berubah.

Random Noise Attack

(OoD Attack):

Berikut adalah beberapa keputusan percubaan yang dijalankan pada model besar sumber terbuka, lebih banyak hasil boleh didapati dalam kertas atau sumber terbuka GitHub

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Serangan Semantik Lemah):

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Makalah ini memperkenalkan kaedah serangan halusinasi:

Mengikut gambar rajah, serangan halusinasi terdiri daripada tiga bahagian berikut: pembinaan set data serangan halusinasi dan sekuriti OoD yang lemah

Yang pertama ialah

pembinaan set data halusinasi

. Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut Penulis mendapat jawapan yang betul y dengan mengumpulkan beberapa soalan lazim Himpunan fakta.

Akhirnya kita boleh mendapatkan hasil daripada membina dataset halusinasi:

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Kemudian datang bahagian serangan semantik yang lemah

Sampel pertama pasangan QA yang tidak konsisten dengan fakta, bermula dari ilusi kestabilan masa depan, penulis berharap dapat mencari petunjuk musuh untuk memaksimumkan kemungkinan log.

di mana ialah parameter model besar dan ialah ruang input.

terdiri daripada l token.

Namun, memandangkan bahasa tidak berterusan, tiada cara untuk mengoptimumkan secara langsung x seperti serangan lawan dalam medan imej.

Diinspirasikan oleh kajian 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP), pasukan penyelidik menggunakan strategi penggantian token berasaskan kecerunan untuk memaksimumkan kemungkinan log secara tidak langsung.

Antaranya, ialah pemasukan token kaunter , dan ialah pengekstrak semantik.

Melihat formula ini secara ringkas, di bawah kekangan semantik, cari token yang membuat kecerunan kemungkinan paling banyak berubah dan gantikannya Akhir sekali, pastikan pembayang lawan yang diperolehi tidak terlalu berbeza dari segi semantik x, Mendorong model. untuk mengeluarkan halusinasi yang telah ditetapkan .

Dalam artikel ini, untuk memudahkan proses pengoptimuman, istilah kekangan ditukar kepada sebaliknya.

Bahagian terakhir ialah serangan OoD

Dalam serangan OoD, kita bermula dari rentetan rawak sepenuhnya dan memaksimumkan kemungkinan log di atas tanpa sebarang kekangan semantik.

Makalah ini juga menghuraikan kadar kejayaan serangan serangan halusinasi pada model yang berbeza dan mod yang berbeza

Perbincangan mendalam tentang meningkatkan tempoh segera untuk meningkatkan kadar kejayaan serangan (berganda)

. pasukan Akhirnya, strategi pertahanan mudah dicadangkan, iaitu menolak tindak balas dengan menggunakan entropi yang diramalkan oleh token pertama

Penyelidikan datang daripada pasukan Profesor Yuan Li dari Sekolah Siswazah Shenzhen Universiti Peking/Sekolah Maklumat Kejuruteraan.
Pautan kertas: https://arxiv.org/pdf/2310.01469.pdf

Alamat GitHub: https://github.com/PKU-YuanGroup/Hallucination-Attack

Zhihu original post

Kandungan yang perlu ditulis semula ialah: https://zhuanlan.zhihu.com/p/661444210?

Atas ialah kandungan terperinci Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong 'halusinasi' model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

for Token 字符串 github nlp https llama prompt embedding

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：NVIDIA membuka era baharu: "mesin gerakan kekal" untuk data latihan robotArtikel seterusnya：NVIDIA membuka era baharu: "mesin gerakan kekal" untuk data latihan robot

Artikel berkaitan

Lihat lagi