Rumah  >  Artikel  >  Peranti teknologi  >  Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

PHPz
PHPzasal
2024-06-19 05:13:08916semak imbas
Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Artikel ini telah disiapkan bersama oleh Universiti Tsinghua, Universiti Shanghai Jiao Tong, Universiti Sydney, UCSB, Universiti China Hong Kong, Universiti Sains Hong Kong dan Teknologi, dan Universiti Sains dan Teknologi Hong Kong (Guangzhou). Pengarang utama termasuk: Pan Leyi (pengarang pertama), seorang pelajar sarjana di Universiti Tsinghua, yang hala tuju penyelidikannya ialah penanda air model berskala besar, seorang pelajar kedoktoran di Universiti Tsinghua, yang hala tuju penyelidikannya adalah model berskala besar yang selamat dan boleh dipercayai; ; He Zhiwei, seorang pelajar kedoktoran di Universiti Shanghai Jiao Tong, penyelidikan Arah penyelidikannya ialah penanda air model besar, kecerdasan model besar, dan lain-lain , calon PhD UCSB, hala tuju penyelidikan adalah AI generatif yang boleh dipercayai, dll., Universiti Sains dan Teknologi Hong Kong/Sains dan Teknologi Hong Kong Beliau ialah penolong profesor di Universiti Guangzhou (Guangzhou), dan minat penyelidikannya termasuk; model besar yang selamat dan boleh dipercayai, pengekstrakan maklumat, dsb. Wen Lijie ialah profesor bersekutu tetap di Universiti Tsinghua, dan minat penyelidikannya termasuk perlombongan proses dan pemprosesan bahasa semula jadi.

Artikel ini memperkenalkan algoritma pencetakan model sumber terbuka yang dilancarkan bersama oleh Universiti Tsinghua dan universiti lain. MarkLLM menyediakan rangka kerja pelaksanaan algoritma pencetakan model bersatu, visualisasi mekanisme algoritma pencetakan intuitif, contoh, dan modul penilaian sistematik, bertujuan untuk membolehkan penyelidik mencuba, memahami dan menilai perkembangan teknologi percetakan terkini dengan mudah. Menerusi MarkLLM, penulis berharap dapat memperdalam pemahaman orang ramai tentang teknologi percetakan model di samping memberi kemudahan kepada penyelidik, dan menggalakkan pembangunan dan promosi penyelidikan berkaitan.

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

  • Teori⽂Nama: MarkLLM: Kit Alat Sumber Terbuka untuk Penanda Air LLM

  • Teori⽂Pautan: https://arxiv.org/abs/2515.100 / /github.com/THU- BPM/MarkLLM

  • ⼯Status pembangunan teknologi percetakan model besar & masalah yang masih dihadapi

⼤Percetakan model besar ialah teknologi baru muncul, yang boleh digunakan untuk mencipta model dalam model Ciri khusus ditanam dalam proses ini untuk merealisasikan pengesanan dan pengesanan sumber teks organik. Ia boleh digunakan dalam senario seperti pengesanan berita palsu, mengekalkan integriti akademik dan perlindungan hak cipta data dan model. ⽬Algoritma pencetakan model besar arus perdana semasa adalah untuk menanamkan cetakan dalam peringkat inferens model besar kaedah ini terbahagi terutamanya kepada dua keluarga algoritma utama:

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini Keluarga KGW: ditambah dengan vektor pra-pemarkahan. Cetak, bahagikan senarai perkataan ke dalam senarai merah dan hijau, tambah berat sebelah kepada perkataan hijau, supaya output lebih suka perkataan hijau

  • Keluarga Kristus: Selepas vektor pemarkahan dijana, gunakan nombor rawak pseudo untuk pra-sampel; proses, Benamkan tera air dengan menjadikan teks tera air lebih berkaitan dengan nombor rawak.

  • Walau bagaimanapun, seperti semua teknologi baru muncul, teknologi penanda air model Cina juga menghadapi beberapa cabaran dalam penggunaan dan pemahaman.

  • 1. Bagaimana cara mudah menggunakan pelbagai algoritma penanda air model besar untuk menambah dan mengesan tera air?

Pelbagai algoritma penanda air model besar sentiasa muncul. Walau bagaimanapun, pelaksanaannya kebanyakannya berdasarkan keperluan pengarang sendiri dan tidak mempunyai kelas bersatu dan reka bentuk antara muka panggilan, yang memerlukan penyelidik dan orang ramai untuk melabur banyak usaha dalam menggunakan dan menghasilkan semula algoritma ini.

2. Bagaimana untuk memahami secara intuitif mekanisme dalaman setiap algoritma penanda air model besar?

⼼Mekanisme asas algoritma penanda air model besar adalah agak kompleks, melibatkan campur tangan penjanaan vektor pemarkahan dan proses pensampelan dalam proses penjanaan teks model besar, yang tidak mudah difahami oleh penyelidik dan orang ramai.

3 Bagaimana untuk menilai pelbagai algoritma penanda air model besar dengan mudah dan menyeluruh?

Perspektif dan penunjuk penilaian adalah pelbagai (termasuk kebolehkesanan, keteguhan, kesan pada kualiti teks, dll.), dan satu penilaian melibatkan berbilang langkah, menjadikannya amat mencabar untuk menilai prestasi algoritma secara komprehensif dan pantas. .

Sumbangan utama MarkLLM boleh diringkaskan seperti berikut:

1 Rangka kerja pelaksanaan algoritma pencetakan model besar yang disatukan secara fungsional: menyokong dua keluarga algoritma pencetakan utama (keluarga KGW dan keluarga Kristus) 9 algoritma khusus.

⼼Antara muka panggilan peringkat tinggi yang konsisten dan mesra pengguna: 1 baris kod untuk melaksanakan pelbagai operasi seperti menambah tera air dan mengesan tera air.

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

  • Penyelesaian visualisasi mekanisme pencetakan air model besar yang disesuaikan: membolehkan pengguna memvisualisasikan mekanisme dalaman bagi algoritma pencetakan air model besar yang berbeza di bawah pelbagai konfigurasi.

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

  • Modul penilaian algoritma pencetakan model besar yang komprehensif dan sistematik: termasuk sejumlah 12 alat penilaian yang meliputi 3 sudut penilaian, dan dua jenis saluran paip penilaian automatik. .

3. Aspek eksperimen

: Penulis menggunakan MarkLLM sebagai alat penyelidikan dan menjalankan 3 eksperimen komprehensif dari sudut penilaian pada 9 algoritma yang disokong, sambil membuktikan kepraktisan MarkLLM, ia juga menyediakan data yang berharga rujukan. Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

4 Kesan kepada komuniti sumber terbuka⼒: MarkLLM telah menerima banyak perhatian sejak ia dilancarkan di GitHub Ia mempunyai 140+ bintang

dan telah menarik rakan sekerja untuk menyumbang kod , Pull Request. dan berkomunikasi serta berbincang dalam ruangan isu.

Pengarang sangat berharap kit alat MarkLLM bukan sahaja akan memberikan kemudahan kepada penyelidik, tetapi juga meningkatkan pemahaman dan penyertaan orang ramai dalam teknologi penanda air model bahasa besar, dan menggalakkan komunikasi antara komuniti akademik dan orang ramai mengenai teknologi, menggalakkan pembangunan lanjut penyelidikan dan aplikasi tera air model bahasa besar, dan menyumbang kepada penggunaan selamat model bahasa besar. Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini

Pengarang dengan ikhlas mengalu-alukan semua orang untuk memberikan pendapat yang berharga, bertukar-tukar dan belajar antara satu sama lain, dan juga mengalu-alukan sumbangan kod melalui permintaan tarik, untuk mengekalkan ekosistem teknologi penanda air model besar yang lebih baik melalui usaha bersama semua orang!

Atas ialah kandungan terperinci Universiti Tsinghua dan universiti lain melancarkan kit alat penanda air model besar sumber terbuka pertama MarkLLM, yang menyokong hampir 10 algoritma penanda air terkini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn