Rumah  >  Artikel  >  Peranti teknologi  >  Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong "halusinasi" model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong "halusinasi" model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

PHPz
PHPzke hadapan
2023-10-30 14:53:101245semak imbas

Hasil penyelidikan terkini pasukan Universiti Peking menunjukkan bahawa:

token rawak boleh mendorong halusinasi dalam model besar!

Sebagai contoh, jika model besar (Vicuna-7B) diberi "kod kacau-bilau", ia secara tidak jelas akan salah faham dengan akal sehat sejarah

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Walaupun beberapa petua pengubahsuaian mudah dibuat, model besar itu mungkin jatuh ke dalam perangkap

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Model besar yang popular ini, seperti Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat dan Vicuna-7B, akan menghadapi situasi yang sama

Ini bermakna, Rentetan rawak boleh mengawal model besar untuk mengeluarkan kandungan sewenang-wenangnya

, "menyokong" ilusi.

Penemuan di atas datang daripada penyelidikan terkini oleh kumpulan penyelidik Profesor Yuan Li di Universiti Peking.

Kajian ini mencadangkan:

Fenomena halusinasi model besar berkemungkinan besar perspektif lain dari contoh musuh

.

Makalah itu bukan sahaja menunjukkan dua kaedah yang boleh mendorong halusinasi model besar dengan mudah, tetapi juga mencadangkan kaedah pertahanan yang mudah dan berkesan Kod tersebut adalah sumber terbuka

.

Dua mod ekstrem menyerang model besar

Penyelidikan telah mencadangkan dua kaedah serangan halusinasi:
  • Serangan hingar rawak (serangan OoD) ialah kaedah serangan biasa pada model pembelajaran mesin. Dalam serangan ini, penyerang menyuap model beberapa bunyi rawak yang tidak biasa dalam data latihan. Bunyi ini boleh mengganggu keupayaan model untuk membuat pertimbangan, menyebabkannya membuat ramalan yang salah apabila memproses data dari dunia nyata. Serangan hingar rawak ialah kaedah serangan terselindung kerana ia menggunakan ciri yang serupa dengan data biasa dan sukar untuk dikesan oleh model. Untuk menentang serangan ini, beberapa kaedah pengesanan anomali yang berkesan perlu digunakan untuk mengenal pasti dan menapis bunyi rawak ini, iaitu, untuk membenarkan rentetan rawak yang tidak bermakna untuk mendorong model besar menghasilkan output hantu yang telah ditetapkan.
  • Serangan Semantik Lemah merujuk kepada kaedah serangan biasa di Internet. Kaedah serangan ini biasanya dilakukan dengan memujuk pengguna untuk memberikan maklumat peribadi atau melakukan tindakan berniat jahat tanpa disedari. Berbanding dengan kaedah serangan lain yang lebih langsung, serangan semantik yang lemah adalah lebih halus dan sering menggunakan kejuruteraan sosial dan penipuan untuk mengelirukan pengguna. Pengguna Internet harus berwaspada untuk mengelak daripada dipengaruhi oleh serangan semantik yang lemah yang menyebabkan model besar menghasilkan output ilusi yang sama sekali berbeza sambil mengekalkan semantik segera asal pada dasarnya tidak berubah.

Random Noise Attack

(OoD Attack):

Berikut adalah beberapa keputusan percubaan yang dijalankan pada model besar sumber terbuka, lebih banyak hasil boleh didapati dalam kertas atau sumber terbuka GitHub

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Serangan Semantik Lemah):

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Makalah ini memperkenalkan kaedah serangan halusinasi:

Mengikut gambar rajah, serangan halusinasi terdiri daripada tiga bahagian berikut: pembinaan set data serangan halusinasi dan sekuriti OoD yang lemah

Yang pertama ialah

pembinaan set data halusinasi

. Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrutPenulis mendapat jawapan yang betul y dengan mengumpulkan beberapa soalan lazim Himpunan fakta.

Akhirnya kita boleh mendapatkan hasil daripada membina dataset halusinasi:

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Kemudian datang bahagian serangan semantik yang lemah

.

Sampel pertama pasangan QAPasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut yang tidak konsisten dengan fakta, bermula dari ilusi kestabilan masa depanPasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut, penulis berharap dapat mencari petunjuk musuhPasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut untuk memaksimumkan kemungkinan log.

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

di mana Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut ialah parameter model besar dan Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut ialah ruang input.

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut terdiri daripada l token.

Namun, memandangkan bahasa tidak berterusan, tiada cara untuk mengoptimumkan secara langsung x seperti serangan lawan dalam medan imej.

Diinspirasikan oleh kajian 2019 (Universal Adversarial Triggers for Attacking and Analyzing NLP), pasukan penyelidik menggunakan strategi penggantian token berasaskan kecerunan untuk memaksimumkan kemungkinan log secara tidak langsung.

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Antaranya, Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut ialah pemasukan token kaunter Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut, dan Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut ialah pengekstrak semantik.

Melihat formula ini secara ringkas, di bawah kekangan semantik, cari token yang membuat kecerunan kemungkinan paling banyak berubah dan gantikannya Akhir sekali, pastikan pembayang lawan yang diperolehi Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut tidak terlalu berbeza dari segi semantik x, Mendorong model. untuk mengeluarkan halusinasi yang telah ditetapkan Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut.

Dalam artikel ini, untuk memudahkan proses pengoptimuman, istilah kekangan ditukar kepada Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut sebaliknya.

Bahagian terakhir ialah serangan OoD

Dalam serangan OoD, kita bermula dari rentetan rawak sepenuhnyaPasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut dan memaksimumkan kemungkinan log di atas tanpa sebarang kekangan semantik.

Makalah ini juga menghuraikan kadar kejayaan serangan serangan halusinasi pada model yang berbeza dan mod yang berbeza

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Perbincangan mendalam tentang meningkatkan tempoh segera untuk meningkatkan kadar kejayaan serangan (berganda)

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

. pasukan Akhirnya, strategi pertahanan mudah dicadangkan, iaitu menolak tindak balas dengan menggunakan entropi yang diramalkan oleh token pertama

Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong halusinasi model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut

Penyelidikan datang daripada pasukan Profesor Yuan Li dari Sekolah Siswazah Shenzhen Universiti Peking/Sekolah Maklumat Kejuruteraan.

Pautan kertas: https://arxiv.org/pdf/2310.01469.pdf

Alamat GitHub: https://github.com/PKU-YuanGroup/Hallucination-Attack

Zhihu original post

Kandungan yang perlu ditulis semula ialah: https://zhuanlan.zhihu.com/p/661444210?


Atas ialah kandungan terperinci Pasukan Universiti Peking: Apa yang diperlukan untuk mendorong "halusinasi" model besar ialah rentetan watak yang bercelaru! Semua alpaka besar dan kecil direkrut. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam