Rumah >Peranti teknologi >AI >Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

WBOY
WBOYasal
2024-07-15 18:44:12768semak imbas
Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina
Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang artikel ini ialah Xu Rongwu, pelajar sarjana tahun kedua dan Qi Zehan, pelajar kedoktoran tahun pertama di Sekolah Maklumat Antara Disiplin , Universiti Tsinghua Mereka juga merupakan pengarang utama ulasan ini.

Dengan perkembangan pesat kecerdasan buatan dan teknologi model berskala besar, Retrieval-Augmented Generation (RAG) telah menjadi paradigma utama untuk model bahasa berskala besar untuk menjana teks. Wakil teknologi ini - Retrieval-Augmented Large Language Model (RALM) - boleh terus menggunakan maklumat dokumen yang diambil untuk menjana kandungan tanpa latihan tambahan ini menjadikannya sangat popular dalam industri, seperti sebagai enjin carian Bing Baharu.

Namun, sejak 2023, masalah yang dihadapi RALM dalam menangani konflik ilmu secara beransur-ansur menjadi tumpuan kajian. Konflik pengetahuan bukan sahaja menjejaskan prestasi model pada tugas intensif pengetahuan, tetapi juga mendedahkan kerentanannya kepada maklumat salah, sekali gus menimbulkan ancaman kepada keselamatan model, terutamanya dalam syarikat yang mempunyai keperluan ketat untuk senario aplikasi ketepatan . Konflik pengetahuan terutamanya ditunjukkan dalam ketidakkonsistenan antara pengetahuan berparameter di dalam model dan maklumat konteks luaran, serta ketidakkonsistenan dalaman maklumat konteks luaran. Di samping itu, penyelidik juga memerhatikan konflik antara pengetahuan berparameter dalam model, iaitu fenomena kontradiktif kendiri Ini mungkin disebabkan oleh fakta bahawa model mempelajari maklumat bercanggah semasa peringkat pra-latihan.

Mari kita lihat contoh khusus:

Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

Dalam contoh di atas, model besar menerima soalan fakta: Pasukan manakah yang paling banyak memenangi kejuaraan dalam Piala Dunia? Untuk masalah ini, RALM boleh mendapatkan semula dokumen di Internet dan dalam pangkalan data vektor, dan menambah rekod perbualan sejarah yang terdiri daripada gesaan pengguna sebelumnya, yang bersama-sama membentuk pengetahuan kontekstual (Konteks, ditandakan dengan warna kuning dalam rajah di atas). ; pada masa yang sama, model besar juga melihat maklumat tentang menjawab soalan ini semasa pra-latihan Maklumat ini membentuk pengetahuan parametriknya, juga dikenali sebagai "ingatan" model (Pengetahuan Parametrik, Memori, ditunjukkan dengan warna biru dalam rajah di atas). bertanda warna). Menurut sumber maklumat kedua-dua pihak yang bercanggah, kita boleh "gabungan berpasangan (semula)" membahagikannya kepada tiga kategori berikut:

  • Konflik Konteks-Memori ialah konflik antara pengetahuan konteks dan parameter. Contoh 1: Pengetahuan yang diperoleh oleh model melalui pencarian Web adalah serta-merta, tetapi pengetahuan yang dipelajari adalah "lapuk" Contoh 2: Model memperoleh maklumat palsu yang salah, yang bercanggah dengan pengetahuan parameter.

  • Konflik Antara Konteks ialah konflik dalam pengetahuan konteks. Contoh: Melalui carian web, maklumat yang diperoleh adalah bercanggah kerana diterbitkan pada masa yang berbeza, atau bercampur dengan maklumat salah yang berniat jahat.

  • Konflik Intra-Memori ialah konflik dalam pengetahuan berparameter. Contoh: Untuk soalan dan jawapan fakta, model dirangsang untuk menghasilkan jawapan dengan hasil yang berbeza di bawah gesaan semantik yang sama, menghasilkan kesan bercanggah.

Sastera terawal tentang konflik pengetahuan boleh dikesan kembali kepada artikel oleh Longpre et al dalam EMNLP 2021: Konflik pengetahuan berasaskan entiti dalam menjawab soalan. Artikel ini membina pengetahuan bercanggah dalam Menjawab Soalan Open-Domain melalui kaedah penggantian entiti yang dinamakan dan menilai model bahasa pada masa itu. Dengan peningkatan model bahasa berskala besar pada tahun 2023 dan aplikasi meluas paradigma RAG dalam industri, minat penyelidikan dalam konflik pengetahuan telah meningkat secara beransur-ansur, kerana ia sangat mengurangkan prestasi model pada tugas utama, terutamanya keperluan untuk ketulenan.

Baru-baru ini, penyelidik dari Universiti Tsinghua, Universiti Cambridge, Universiti Westlake dan Universiti China Hong Kong bersama-sama menerbitkan ulasan untuk menjalankan perbincangan terperinci tentang tiga jenis konflik pengetahuan yang berbeza dari tiga aspek: punca, manifestasi dan penyelesaian pembaca lebih memahami dan menyahut cabaran ini. Pada pandangan kami, konflik pengetahuan adalah punca kepada prestasi hiliran pelbagai model dan kesan yang muncul daripada kerumitan semula jadi pengetahuan itu sendiri dan model pembelajaran pengetahuan.

Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

  • Alamat kertas: https://arxiv.org/abs/2403.08319

  • Alamat projek: https://github.com/pillowsofwind/Knowledge-Conflicts-Survey

Semakan ini:

1. Ringkasan sistematik pertama bagi kerja penyelidikan dalam bidang konflik pengetahuan; Analisis komprehensif jenis konflik yang mungkin dihadapi oleh tiga model besar, terutamanya perbincangan tentang konflik pengetahuan berparameter

3 Kami bukan sahaja membincangkan analisis setiap konflik, tetapi juga menelitinya dari perspektif Punca "kitaran hayatnya", manifestasi, dan kemungkinan strategi penyelesaian konflik. . Punca-punca konflik ini terbahagi kepada dua aspek: Penyelewengan Temporal dan Pencemaran Maklumat Salah.

1. Salah Jajaran Temporal

Salah jajaran temporal bermakna data sejarah yang digunakan oleh model semasa proses latihan tidak dapat menggambarkan realiti semasa atau masa hadapan dengan tepat. Fenomena ini amat ketara dalam model bahasa besar, kerana model ini sering dilatih terlebih dahulu pada sejumlah besar data statik yang mungkin sudah lapuk dalam realiti. Sebagai contoh, artikel tentang Sukan Olimpik 2020 mungkin tidak lagi tepat pada tahun 2024, namun model itu mungkin masih bergantung pada maklumat lapuk ini untuk membuat ramalan dan menjawab soalan. Penyelidikan menunjukkan bahawa prestasi model bahasa akan menurun dari semasa ke semasa Cara bahasa digunakan, perubahan budaya dan kemas kini pengetahuan semuanya akan mempengaruhi keupayaan model untuk memproses maklumat semasa. Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

2. Pencemaran Maklumat Salah

Pencemaran maklumat merujuk kepada maklumat luaran yang bercampur dengan maklumat yang salah atau mengelirukan ini akan menjejaskan pertimbangan dan keupayaan membuat keputusan. Keadaan ini adalah perkara biasa dalam era Internet, di mana Internet dipenuhi dengan semua jenis maklumat palsu, khabar angin, dan berita palsu yang sengaja diada-adakan. Pengguna berniat jahat boleh mengganggu pertimbangan model dengan menerbitkan maklumat palsu pada rangkaian. Sebagai contoh, penyerang berniat jahat boleh menyiarkan maklumat perubatan palsu di media sosial untuk mengelirukan model yang bergantung pada maklumat ini untuk membuat pertimbangan. Pencemaran maklumat bukan sahaja menjejaskan ketepatan model, tetapi juga menjejaskan kepercayaan pengguna terhadap model tersebut. Penyelidikan menunjukkan bahawa maklumat salah yang berniat jahat boleh melemahkan ketepatan sistem semakan fakta automatik dan sistem menjawab soalan domain terbuka dengan ketara.

PrestasiAnalisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan CinaGelagat model menunjukkan kerumitan dan kepelbagaian yang ketara apabila berhadapan dengan Konflik Konteks-Memori. Berikut ialah dua bentuk ungkapan:

1 Pergantungan pada pengetahuan berparameter

Apabila menangani konflik antara konteks dan ingatan, sesetengah model cenderung terlalu bergantung pada pengetahuan parameter dalaman mereka dan mengabaikan maklumat konteks yang disediakan secara luaran. Tingkah laku ini ditunjukkan dalam penyelidikan awal menjawab soalan domain terbuka (ODQA). Longpre et al. (2021) mendapati bahawa model QA cenderung bergantung pada pengetahuan ingatan apabila berhadapan dengan konflik antara maklumat kontekstual dan pengetahuan dalaman mereka.

2. Pergantungan pada maklumat kontekstual

Sebaliknya, sesetengah model cenderung menerima bukti luaran apabila berhadapan dengannya, walaupun bukti itu bercanggah dengan ingatan dalaman mereka. Eksperimen Chen et al. (2022) pada model QA menunjukkan bahawa model itu cenderung bergantung pada pengetahuan kontekstual, berbeza dengan penemuan Longpre et al., yang dijelaskan oleh Longpre membina maklumat yang bercanggah dengan terlalu mudah. Baru-baru ini, Xie et al. (2023) memanipulasi model besar untuk menghasilkan konteks konflik yang "lebih logik" dan mendapati bahawa model besar lebih cenderung untuk mempercayai bukti luaran apabila berhadapan dengannya, walaupun bukti itu bercanggah dengan pengetahuan parameter mereka.

Penyelesaian

Untuk menangani Konflik Konteks-Memori dengan berkesan, penyelidik telah mencadangkan pelbagai penyelesaian, yang kebanyakannya dibahagikan kepada langkah pencegahan sebelum konflik berlaku (strategi pra-hoc) dan langkah tindak balas selepas konflik berlaku (strategi post-hoc). Berikut adalah beberapa penyelesaian utama:

1. Langkah-langkah pencegahan

Teruskan Pembelajaran: Kurangkan kesan ketidakselarasan masa dengan terus melatih model untuk memasukkan data baharu dan dikemas kini. Sebagai contoh, Lazaridou et al (2021) mengesyorkan mengemas kini pengetahuan dalaman model melalui pra-latihan berterusan untuk mengikuti maklumat terkini.

Pengeditan Pengetahuan: Kemas kini terus pengetahuan parameter model terlatih untuk mencerminkan maklumat terkini. Sebagai contoh, De Cao et al (2021) mencadangkan kaedah penyuntingan pengetahuan yang bertujuan untuk mengubah suai secara langsung pengetahuan dalaman model untuk membetulkan maklumat yang salah atau ketinggalan zaman. Walau bagaimanapun, satu kelemahan penyuntingan pengetahuan ialah ia boleh menyebabkan konflik dalaman dalam model, iaitu, mendorong konflik dalam ingatan yang kami nyatakan kemudian.

2

  • Penalaan Halus: Dengan memperkenalkan kaedah seperti kontrafaktual dan konteks yang tidak relevan, keupayaan model untuk mengawal konteks dan keteguhan dipertingkatkan. Sebagai contoh, kaedah penalaan halus pengetahuan (KAFT) yang dicadangkan oleh Li et al (2022) meningkatkan keteguhan model dalam menghadapi maklumat yang bercanggah dengan memperkenalkan kontrafaktual dan konteks yang tidak relevan dalam set data latihan.

  • Teknologi penggesa (Prompting): Tingkatkan pergantungan model pada konteks melalui strategi gesaan yang direka khas. Sebagai contoh, Zhou et al. (2023) mencadangkan teknik dorongan setia konteks yang ringkas, yang meningkatkan prestasi model dengan ketara dalam tugas sensitif konteks.

  • Pemalam Pengetahuan: Simpan pengetahuan yang dikemas kini melalui modul pemalam untuk memastikan model asal tidak terjejas. Sebagai contoh, kaedah QA (CuQA) kemas kini berterusan yang dicadangkan oleh Lee et al (2022) meningkatkan keupayaan kemas kini pengetahuan model melalui pemalam pengetahuan tanpa menjejaskan parameter asalnya.

  • Teknologi penyahkodan (Penyahkod): Dengan melaraskan strategi penyahkodan, kebarangkalian model menghasilkan halusinasi dalam kes konflik pengetahuan dikurangkan. Sebagai contoh, kaedah penyahkodan sedar konteks (CAD) yang dicadangkan oleh Shi et al (2023) mengutamakan maklumat kontekstual dengan menguatkan perbezaan dalam kebarangkalian keluaran, dengan itu mengurangkan model yang mengelirukan di bawah maklumat yang bercanggah.

Dengan menggabungkan pencegahan dan langkah balas ini, ketepatan dan keteguhan model dalam mengendalikan Konflik Konteks-Memori boleh dipertingkatkan dari sudut yang berbeza, sekali gus meningkatkan prestasi model dan pengalaman pengguna dalam aplikasi praktikal.

Teroka Konflik Antara Konteks: punca, manifestasi dan penyelesaian

Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

Punca

Konflik Antara Konteks merujuk kepada percanggahan yang berlaku semasa pengayaan maklumat luaran yang berbeza ini. jawapan model dunia, tetapi juga boleh membawa kepada konflik maklumat antara konteks. Konflik jenis ini berlaku terutamanya kerana maklumat luaran mungkin mengandungi maklumat salah (Maklumat Salah) dan maklumat lapuk (Maklumat Lapuk).

1. Maklumat Salah

Teknologi Penjanaan Pertambahan Semula (RAG) meningkatkan kualiti tindak balas model besar dengan menyepadukan maklumat luaran Walau bagaimanapun, maklumat luaran ini mungkin mengandungi kandungan palsu. Sebagai contoh, berita palsu atau kandungan mengelirukan yang dijana oleh AI mungkin bercampur-campur, menyebabkan konflik antara maklumat yang diambil. Cara model mengendalikan konflik ini adalah cabaran penting. Kegagalan untuk menyelesaikan konflik ini dengan berkesan boleh menyebabkan kandungan tidak tepat yang dijana oleh model, dengan itu memburukkan lagi penyebaran maklumat palsu dan mengelirukan lagi maklumat.

2. Maklumat Lapuk

Semakin masa berlalu, fakta akan berubah. Apabila mendapatkan semula fail luaran, model besar mungkin menemui dokumen yang mengandungi kedua-dua maklumat semasa dan lapuk. Perbezaan masa dalam maklumat ini boleh membawa kepada konflik antara konteks. Contohnya, percanggahan antara perkembangan terkini dan maklumat lapuk tentang sesuatu peristiwa boleh menjejaskan ketepatan tindak balas model. Maklumat lapuk bukan sahaja menjadikan jawapan model tidak tepat, ia juga boleh menyebabkan pengguna hilang kepercayaan terhadap model tersebut. . Sebagai contoh, penyelidikan oleh Chen et al (2022) juga menunjukkan bahawa apabila model menghadapi maklumat yang bercanggah, mereka lebih cenderung untuk mempercayai maklumat yang berkaitan secara langsung dengan masalah dan pengetahuan parameter dalam model. Pan et al. (2023a) mendapati bahawa model bahasa sedia ada berprestasi buruk dalam menghadapi serangan disinformasi dengan memasukkan artikel Wikipedia palsu ke dalam korpus Wikipedia yang sebenar. Penyelidikan oleh Xie et al. (2023) seterusnya mendedahkan bahawa model besar mempunyai keutamaan yang ketara untuk bukti yang konsisten dengan memori parameter model, terutamanya apabila bukti ini melibatkan entiti biasa atau disokong oleh dokumentasi yang luas.

2. Keupayaan PengesananMengesan maklumat bercanggah dalam konteks juga merupakan tugas penting. Li et al. (2023a) menganalisis keupayaan GPT-4, PaLM-2, dan Llama 2 untuk mengesan dokumen bercanggah dalam berita, cerita dan artikel Wikipedia, dan hasilnya menunjukkan ketepatan pengesanan purata yang rendah. Penyelidikan oleh Wan et al. (2024) mendedahkan bahawa model sedia ada sering bergantung pada kandungan dokumen berkaitan pertanyaan semasa menilai kredibiliti dokumen, tetapi mengabaikan ciri gaya yang dianggap penting oleh manusia, seperti petikan saintifik atau nada neutral. Jin et al. (2024a) mendapati bahawa model besar memihak kepada bukti yang paling kerap muncul dalam konteks dan menunjukkan keutamaan yang jelas untuk maklumat luaran yang konsisten dengan ingatan dalaman mereka.

Penyelesaian

Untuk menangani Konflik Antara Konteks dengan berkesan, penyelidik telah mencadangkan penyelesaian daripada pelbagai perspektif Penyelesaian ini terbahagi terutamanya kepada dua aspek: Menghapuskan Konflik dan Meningkatkan Kekukuhan , menyelesaikan Konflik Antara Konteks dan Konflik yang aktif. perspektif pasif.

1. Menghapuskan Konflik

  • Model Khusus: Latih model secara khusus untuk mengendalikan jenis konflik tertentu dengan lebih baik. Sebagai contoh, Pielka et al (2022) mencadangkan menambah pengetahuan linguistik kepada proses pembelajaran dan mempertingkatkan pengecaman maklumat yang bercanggah dengan memperkenalkan ciri tatabahasa dan semantik untuk meningkatkan keupayaan model untuk mengesan percanggahan.

  • Model Umum: Gunakan model umum untuk menyelesaikan penghapusan konflik. Chern et al. (2023) mencadangkan rangka kerja semakan fakta yang menyepadukan berbilang alat (seperti Carian Google, Google Scholar, dll.) untuk mengesan ralat fakta dalam teks. Pendekatan ini bukan sahaja bergantung pada pengetahuan dalaman model, tetapi juga menggabungkan maklumat yang diperoleh secara luaran untuk memberikan pengesahan fakta yang lebih komprehensif.

2. Meningkatkan Kekukuhan

  • Pendekatan Latihan: Meningkatkan keteguhan model apabila menghadapi konteks yang bercanggah daripada algoritma latihan. Hong et al. (2023) mencadangkan kaedah penalaan halus baharu untuk meningkatkan keteguhan model dengan melatih diskriminator dan penyahkod secara serentak. Kaedah ini bukan sahaja dapat meningkatkan kestabilan model dalam menghadapi maklumat yang bercanggah, tetapi juga meningkatkan keupayaannya untuk mengendalikan maklumat yang kompleks.

  • Pembesaran Pertanyaan: Meningkatkan keteguhan model dengan memperkenalkan lagi pengetahuan luaran semasa fasa inferens. Weller et al. (2022) mencadangkan teknik peningkatan pertanyaan yang menggesa GPT-3 untuk mengeluarkan soalan baharu daripada pertanyaan asal Dengan menjana berbilang pertanyaan yang berkaitan dengan soalan asal, model boleh mengesahkan ketepatan jawapan daripada pelbagai perspektif. Kurangkan ralat disebabkan oleh satu sumber maklumat. Pendekatan ini bukan sahaja meningkatkan keupayaan model untuk bertindak balas terhadap maklumat yang bercanggah, tetapi juga meningkatkan ketepatan dan kebolehpercayaan jawapannya.

Konflik Antara Konteks ialah bahagian penting dalam konflik pengetahuan. Cara model besar mengendalikan maklumat yang bercanggah adalah tugas kritikal. Melalui kaedah di atas, ketepatan dan keteguhan model semasa menangani Konflik Antara Konteks boleh dipertingkatkan dari sudut yang berbeza. . Sebab utama konflik ini boleh dibahagikan kepada aspek berikut:

1 Bias dalam Korporat Latihan Fasa pemerolehan pengetahuan utama LLM diselesaikan semasa pra-latihan, dan data pra-latihan ini biasanya dikikis daripada internet. Data ini datang daripada pelbagai sumber, termasuk media sosial, artikel berita, ensiklopedia, dsb., dan kualitinya berbeza-beza dan mungkin mengandungi maklumat yang tidak tepat atau mengelirukan. Maklumat yang salah ini diingati oleh model dan diperkuatkan semasa inferens, yang membawa kepada pengetahuan yang bercanggah dalam model, yang boleh membawa kepada pelbagai jawapan yang bercanggah apabila model menjawab soalan yang berkaitan. Pada masa yang sama, model besar sering mengekodkan korelasi cetek dalam data latihan, yang menyebabkan model membuat pertimbangan berdasarkan korelasi palsu dangkal. Disebabkan pergantungannya pada korelasi palsu, model mungkin memberikan jawapan yang berbeza apabila menemui isyarat dengan struktur sintaksis yang berbeza tetapi semantik yang sama.

2. Strategi Penyahkodan Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

Keluaran model besar diperoleh dengan mensampel taburan kebarangkalian perkataan seterusnya yang mungkin. Kaedah pensampelan yang berbeza (seperti pensampelan tamak, pensampelan top-p, pensampelan top-k, dsb.) akan membawa kepada rawak dalam kandungan yang dijana. Sebagai contoh, apabila menggunakan pensampelan atas-k, model akan memilih perkataan seterusnya secara rawak daripada perkataan calon k dengan kebarangkalian yang paling tinggi. Rawak ini meningkatkan ketidakpastian output, membolehkan input yang sama diperolehi dalam masa yang berbeza keputusan yang berbeza.

3. Penyuntingan Pengetahuan

Untuk mengubah suai pengetahuan dalam model besar dengan cekap, penyelidik telah mencadangkan teknologi penyuntingan pengetahuan. Teknik ini bertujuan untuk mengubah suai bidang pengetahuan kecil dalam model dengan cekap tanpa melatih semula keseluruhan model. Walau bagaimanapun, kaedah penyuntingan ini mungkin menyukarkan untuk memastikan ketekalan pengetahuan. Contohnya, mengubah suai fakta (seperti butiran khusus penemuan saintifik) melalui penyuntingan pengetahuan, tetapi gagal mengemas kini semua pengetahuan yang berkaitan dengannya secara serentak, boleh menyebabkan model tersebut menghasilkan respons yang tidak konsisten apabila berhadapan dengan masalah yang berbeza. Pada masa yang sama, pengetahuan yang diubah suai mungkin tidak digunakan dengan berkesan dalam situasi yang berbeza, menyebabkan model menghasilkan jawapan yang tidak konsisten apabila memproses ungkapan yang berbeza bagi pengetahuan yang sama.

Prestasi

Konflik Intra-Memori akan memberi kesan ketara ke atas prestasi model besar, terutamanya dicerminkan dalam aspek berikut:

1

Ketidakkonsistenan diri bermaksud jawapan yang dijana oleh model adalah tidak konsisten apabila berhadapan dengan soalan yang semantik setara tetapi mempunyai sintaks yang berbeza. Sebagai contoh, penyelidikan menunjukkan bahawa walaupun model lanjutan seperti GPT-4 masih mempunyai ketidakkonsistenan dalam 13% jawapan apabila menangani soalan akal. Ini bermakna pengguna yang bertanya soalan yang sama tetapi mengatakannya secara berbeza mungkin mendapat jawapan yang berbeza. Sebaliknya, apabila mengingat kembali pengetahuan, model mungkin lebih bergantung pada perkaitan dangkal perkataan dalam data latihan dan bukannya pada pemahaman sebenar pengetahuan. Sebagai contoh, model mungkin tersalah mengaitkan perkataan tertentu yang kerap berlaku bersama, menyebabkan jawapan yang dijana menyimpang daripada jangkaan. Korelasi palsu ini memburukkan lagi ketidakkonsistenan diri jawapan model.

2. Perwakilan Terpendam Pengetahuan

Senibina Transformer berbilang lapisan di dalam model besar menghasilkan perwakilan pengetahuan yang berbeza disimpan pada tahap yang berbeza. Perwakilan pengetahuan yang berselerak ini akan menyebabkan model tidak dapat menyatakan pengetahuan yang disimpan dengan tepat semasa proses penjanaan. Sebagai contoh, tahap cetek mungkin menyimpan maklumat peringkat rendah, manakala tahap dalam menyimpan maklumat semantik. Penyerakan perwakilan berbilang lapisan ini menyebabkan model tidak dapat menyelaraskan tahap pengetahuan yang berbeza apabila berhadapan dengan masalah yang berbeza, lantas menghasilkan jawapan yang tidak konsisten.

3. Ketidakkonsistenan silang bahasa

Memandangkan model besar mengekalkan set pengetahuan yang berbeza dalam bahasa yang berbeza, ini membawa kepada masalah konsistensi merentas bahasa. Sebagai contoh, fakta yang sama mungkin menerima jawapan yang berbeza dalam bahasa yang berbeza Fenomena ini amat jelas dalam soal jawab silang bahasa. Sebagai contoh, model yang dilatih dalam bahasa Inggeris mungkin mempunyai jawapan yang tepat untuk fakta, tetapi memberikan jawapan yang berbeza dalam bahasa Sepanyol.

Penyelesaian

Untuk konflik ingatan dalaman, penyelidik telah mencadangkan pelbagai penyelesaian, yang boleh dibahagikan terutamanya kepada kategori berikut:

1 Meningkatkan Konsistensi

  • Pengenalan kehalusan secara konsisten): berfungsi dan menggabungkannya dengan kehilangan latihan model bahasa standard, penalaan halus dilakukan untuk meningkatkan ketekalan pengetahuan model. Sebagai contoh, Li et al (2023) menggunakan jawapan yang dijana oleh model untuk mengesahkannya, dan memilih pasangan jawapan dengan ketekalan yang lebih tinggi untuk penalaan halus untuk meningkatkan lagi ketekalan jawapan yang dijana.

  • Plug-in: Tingkatkan ketekalan model melalui kaedah penyepaduan pemasukan modul. Sebagai contoh, Jang dan Lukasiewicz (2023) mencadangkan untuk melatih model dengan menggunakan makna perkataan dalam kamus untuk meningkatkan pemahamannya tentang makna simbol. Parameter yang dipertingkatkan ini kemudiannya digabungkan dengan model bahasa sedia ada untuk meningkatkan ketekalan model.

  • Ensemble Output: Dapatkan jawapan paling betul dengan mensintesis berbilang output. Mitchell et al. (2022) mencadangkan seni bina dwi-model ini untuk memilih jawapan akhir yang paling boleh dipercayai dan mengurangkan ketidakkonsistenan dalam penjanaan model dengan menilai konsistensi logik antara jawapan.

2. Meningkatkan Faktualiti

Meningkatkan keaslian tindak balas model, dengan itu mengurangkan berlakunya ketidakkonsistenan dalam model itu sendiri. Sebagai contoh, Li et al. (2023) mencadangkan kaedah pengesanan pengetahuan yang mengurangkan ralat fakta dalam proses penjanaan dengan mengenal pasti pengetahuan sebenar yang terkandung dalam parameter model dan melaraskan pengaktifan sepanjang arah yang berkaitan dengan pengetahuan sebenar ini semasa peringkat inferens.

Konflik memori dalaman merupakan cabaran penting dalam penyelidikan LLM, dan menyelesaikan masalah ini memerlukan bermula dari pelbagai peringkat seperti latihan, penjanaan dan pasca pemprosesan. Walaupun penyelesaian semasa telah mengurangkan masalah ini sedikit sebanyak, masih terdapat banyak cabaran yang perlu diatasi.

Perbincangan 1: Bagaimanakah model harus bertindak balas terhadap konflik?

Sebaik-baiknya, model harus dapat mengenal pasti konflik dan memberikan jawapan yang jelas apabila menghadapi konflik pengetahuan. Walau bagaimanapun, penyelidikan mendapati bahawa model sedia ada menunjukkan prestasi yang lebih baik dalam mengenal pasti kehadiran konflik, tetapi masih terdapat cabaran dalam mengenal pasti petikan konflik tertentu dan menjana jawapan yang berbeza. Sebaliknya, sesetengah penyelidik percaya bahawa kita tidak sepatutnya menyerahkan tugas "mengendalikan konflik" sepenuhnya kepada AI yang diwakili oleh model besar, tetapi sebaliknya harus meletakkan kuasa ini di tangan manusia.

Perbincangan 2: Cabaran semasa dan arahan penyelidikan susulan

Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina

1 Konflik pengetahuan dalam persekitaran sebenar:

Penyelidikan harus tertumpu pada situasi di mana konflik pengetahuan berlaku secara semula jadi. bersambung terus daripada Internet Dapatkan semula dokumen dalam Model Bahasa Dipertingkatkan (RALM). Konflik pengetahuan yang dibuat secara buatan harus diminimumkan untuk lebih mencerminkan aplikasi praktikal.

2. Penyelesaian yang lebih terperinci:

Penyelesaian yang lebih terperinci diperlukan yang mempertimbangkan sifat pertanyaan pengguna, sumber maklumat yang bercanggah dan jangkaan pengguna. Penyelesaian harus disesuaikan dengan pelbagai jenis konflik (seperti maklumat salah, maklumat lapuk atau isu subjektif), mengiktiraf keluasan masalah dan penyelesaian yang berpotensi.

3. Penilaian tugasan hiliran:

Penyelidikan masa depan harus melangkaui set data soalan dan jawapan biasa untuk menilai kesan konflik pengetahuan pada julat aplikasi yang lebih luas. Ini termasuk bidang yang memerlukan ketepatan dan ketekalan yang tinggi, seperti analisis dokumen undang-undang, diagnostik perubatan, analisis kewangan dan alatan pendidikan.

4. Interaksi antara konflik:

Adalah penting untuk mengkaji interaksi antara pelbagai jenis konflik, seperti konflik memori dalaman dan konflik memori kontekstual. Memahami perhubungan ini mungkin mendedahkan mekanisme perwakilan dan pemprosesan pengetahuan dalam model besar, yang membawa kepada pembangunan model yang lebih berkuasa.

5. Kebolehtafsiran:

Memerlukan pemeriksaan yang lebih mikroskopik terhadap mekanisme dalaman model besar (seperti kepala perhatian atau pengaktifan neuron semasa konflik). Ini akan membantu memahami cara model membuat keputusan apabila menghadapi konflik dan membangunkan kaedah penyelesaian konflik seperti menampal laluan dan pemangkasan.

6. Multilingualisme:

Penyelidikan harus meneroka petunjuk bukan bahasa Inggeris dan konflik pengetahuan merentas bahasa. Ini termasuk konflik pengetahuan dalam bahasa selain bahasa Inggeris, serta konflik kontekstual merentas berbilang dokumen dalam bahasa yang berbeza.

7 Multimodaliti:

Dengan pembangunan model besar untuk mengendalikan berbilang format (teks, imej, video, audio), penyelidikan masa depan harus menumpukan pada konflik dalam persekitaran multimodal. Pembangunan LLM lanjutan yang mampu membuat penaakulan silang modal dan penyelesaian konflik merentas pelbagai jenis data adalah perlu.

Atas ialah kandungan terperinci Analisis mendalam tentang konflik pengetahuan dalam model besar RAG, diterbitkan bersama oleh Universiti Tsinghua West Lake di Hong Kong dan Cina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn