Rumah >Peranti teknologi >AI >Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

WBOY
WBOYke hadapan
2023-04-22 20:22:091217semak imbas

Isih perenggan ialah topik yang sangat penting dan mencabar dalam bidang pencarian maklumat, dan telah mendapat perhatian meluas daripada ahli akademik dan industri. Keberkesanan model pemeringkatan perenggan boleh meningkatkan kepuasan pengguna enjin carian dan membantu aplikasi berkaitan pencarian maklumat seperti sistem soal jawab, pemahaman bacaan, dsb. Dalam konteks ini, beberapa set data penanda aras seperti MS-MARCO, DuReader_retrieval, dsb. telah dibina untuk menyokong kerja penyelidikan yang berkaitan pada pengisihan perenggan. Walau bagaimanapun, kebanyakan set data yang biasa digunakan memfokuskan pada adegan bahasa Inggeris Untuk adegan bahasa Cina, set data sedia ada mempunyai had dalam skala data, anotasi pengguna yang terperinci dan penyelesaian kepada masalah contoh negatif palsu. Dalam konteks ini, kami membina set data penanda aras kedudukan perenggan bahasa Cina baharu berdasarkan log carian sebenar: T2Kedudukan.

T2Kedudukan terdiri daripada lebih daripada 300,000 pertanyaan sebenar dan 2 juta perenggan Internet, dan termasuk maklumat yang diberikan oleh juru anotasi profesional Tahap 4 denda -anotasi korelasi berbutir. Data semasa dan beberapa model asas telah diterbitkan di Github, dan kerja penyelidikan yang berkaitan telah diterima oleh SIGIR 2023 sebagai kertas Sumber.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.


  • Maklumat kertas: Xiaohui Xie, Qian Dong, Bingning Wang, Feiyang Lv , Ting Yao, Weinan Gan, Zhijing Wu, Xiangsheng Li, Haitao Li, Yiqun Liu dan Jin Ma Kedudukan T2: Penanda Aras Cina berskala besar 2023.
  • . Alamat kertas: https://arxiv.org/abs/2304.03679
  • Alamat Github: https://github.com/THUIR/T2Ranking

Latar belakang dan kerja berkaitan

Matlamat tugas pemeringkatan perenggan adalah untuk mengingat dan mengisih koleksi perenggan berskala besar berdasarkan pertanyaan yang diberikan Penggal perenggan calon, dapatkan senarai perenggan mengikut urutan dari perkaitan tinggi ke rendah. Pengisihan perenggan secara amnya terdiri daripada dua peringkat: ingat kembali perenggan dan penyusunan semula perenggan.

Untuk menyokong tugas pengisihan perenggan, beberapa set data dibina untuk latihan dan menguji algoritma pengisihan perenggan. Kebanyakan set data yang digunakan secara meluas memfokuskan pada adegan bahasa Inggeris Sebagai contoh, set data yang paling biasa digunakan ialah set data MS-MARCO, yang mengandungi lebih daripada 500,000 istilah pertanyaan dan lebih daripada 8 juta perenggan Setiap istilah pertanyaan mempunyai atribut soalan. Untuk setiap istilah pertanyaan, pasukan keluaran data MS-MARCO merekrut pencatat untuk memberikan jawapan standard Berdasarkan sama ada perenggan tertentu mengandungi jawapan standard yang disediakan secara manual, ia dinilai sama ada perenggan ini berkaitan dengan istilah pertanyaan.

Dalam senario Cina, terdapat juga beberapa set data yang dibina untuk menyokong tugas pengisihan perenggan. Sebagai contoh, mMarco-Chinese ialah versi terjemahan bahasa Cina bagi set data MS-MARCO dan set data DuReader_retrieval menggunakan paradigma yang sama seperti MS-MARCO untuk menjana label perenggan, iaitu, korelasi pasangan perkataan-perenggan pertanyaan ialah diberikan daripada jawapan standard yang disediakan oleh manusia. Model Multi-CPR mengandungi data perolehan perenggan daripada tiga domain berbeza (e-dagang, video hiburan dan perubatan). Berdasarkan data log carian Sogou, set data seperti Sogou-SRR, Sogou-QCL dan Tiangong-PDR juga telah dicadangkan.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 1: Statistik set data yang biasa digunakan dalam tugas pengisihan perenggan

Walaupun set data sedia ada telah menggalakkan pembangunan aplikasi pengisihan perenggan, kami juga perlu memberi perhatian kepada beberapa batasan:

1) Set data ini tidak besar -skala Label atau perkaitan tidak dianotasi secara manual, terutamanya dalam senario Cina. Sogou-SRR dan Tiangong-PDR hanya mengandungi sejumlah kecil data pertanyaan. Walaupun mMarco-Chinese dan Sogou-QCL lebih besar dalam skala, yang pertama adalah berdasarkan terjemahan mesin dan yang terakhir menggunakan label perkaitan sebagai data klik pengguna. Baru-baru ini, dua set data yang agak besar, Multi-CPR dan DuReader_retrieval, telah dibina dan dikeluarkan.

2) Set data sedia ada kekurangan maklumat anotasi korelasi yang terperinci. Kebanyakan set data menggunakan anotasi korelasi binari (berbutir kasar), iaitu, berkaitan atau tidak relevan. Kerja sedia ada telah menunjukkan bahawa maklumat anotasi korelasi yang terperinci boleh membantu melombong perhubungan antara entiti yang berbeza dan membina algoritma kedudukan yang lebih tepat. Kemudian terdapat set data sedia ada yang tidak menyediakan atau hanya menyediakan sejumlah kecil anotasi berbutir halus berbilang peringkat. Sebagai contoh, Sogou-SRR atau Tiangong-PDR hanya memberikan anotasi halus tidak lebih daripada 100,000.

3) Masalah contoh negatif palsu menjejaskan ketepatan penilaian. Set data sedia ada dipengaruhi oleh masalah contoh negatif palsu, di mana sejumlah besar dokumen berkaitan ditandakan sebagai tidak berkaitan. Masalah ini disebabkan oleh bilangan anotasi manual yang kecil dalam data berskala besar, yang akan menjejaskan ketepatan penilaian dengan ketara. Contohnya, dalam Multi-CPR, hanya satu perenggan akan ditandakan sebagai relevan untuk setiap istilah pertanyaan, manakala yang lain akan ditandakan sebagai tidak berkaitan. DuReader_retrieval cuba untuk mengurangkan masalah negatif palsu dengan membenarkan anotasi memeriksa secara manual dan menganotasi semula set perenggan teratas.

Untuk menyokong model pemeringkatan perenggan yang lebih baik untuk latihan dan penilaian berkualiti tinggi, kami membina dan mengeluarkan set data penanda aras perolehan perenggan bahasa Cina baharu - T2Kedudukan .

Proses pembinaan set data

Proses pembinaan set data termasuk pensampelan perkataan pertanyaan, ingatan semula dokumen, pengekstrakan perenggan dan anotasi perkaitan yang terperinci. Pada masa yang sama, kami juga telah mereka bentuk pelbagai kaedah untuk meningkatkan kualiti set data, termasuk menggunakan kaedah segmentasi perenggan berasaskan model dan kaedah penduaan perenggan berasaskan kluster untuk memastikan integriti semantik dan kepelbagaian perenggan, dan menggunakan pembelajaran aktif- anotasi berasaskan Kaedah untuk meningkatkan kecekapan dan kualiti anotasi, dsb.

1) Proses keseluruhan

  • Persampelan perkataan pertanyaan: Kami mengambil sampel daripada log carian carian Sogou enjin Kata pertanyaan yang dikemukakan oleh pengguna sebenar telah dijadikan sampel, dan set kata pertanyaan awal diperoleh selepas penyahduplikasian dan normalisasi. Seterusnya, kami menggunakan algoritma analisis niat untuk mengalih keluar pertanyaan lucah, pertanyaan bukan soalan, pertanyaan aplikasi sumber dan pertanyaan yang mungkin mengandungi maklumat pengguna, memastikan set data pertanyaan akhir hanya mengandungi pertanyaan berkualiti tinggi dengan atribut soalan.
  • Pengingat semula dokumen: Berdasarkan syarat pertanyaan sampel, kami telah menarik balik set calon dokumen daripada berbilang enjin carian arus perdana seperti Sogou, Baidu dan Google, menyepadukan sepenuhnya pengindeksan dan Keupayaan untuk mengisih dokumen. Oleh kerana enjin carian ini dapat merangkumi bahagian data Internet yang berbeza dan mengembalikan hasil dokumen yang pelbagai, mereka boleh meningkatkan kesempurnaan set calon dokumen dan mengurangkan masalah negatif palsu pada tahap tertentu.
  • Pengestrakan perenggan: Langkah pengekstrakan perenggan melibatkan pembahagian perenggan dan penduaan. Daripada menggunakan kaedah heuristik untuk membahagikan perenggan dalam dokumen (seperti menentukan permulaan dan penghujung perenggan secara konvensional melalui pemisah baris), kami melatih model semantik perenggan untuk melaksanakan pembahagian perenggan untuk memastikan integriti semantik setiap perenggan sebanyak mungkin. Selain itu, kami juga memperkenalkan teknologi berasaskan kluster untuk meningkatkan kecekapan anotasi dan memastikan kepelbagaian perenggan beranotasi Teknologi ini boleh mengalih keluar perenggan yang sangat serupa dengan berkesan.
  • Anotasi korelasi berbutir halus: Anotasi yang diupah adalah pakar dalam mencari tugas anotasi yang berkaitan dan telah terlibat dalam kerja anotasi untuk masa yang lama. Untuk setiap pasangan perenggan pertanyaan, sekurang-kurangnya 3 anotasi memberikan anotasi. Jika hasil anotasi bagi tiga anotasi tidak konsisten, kami akan memperkenalkan anotasi tambahan untuk anotasi Jika keputusan empat anotasi tidak konsisten, kami cenderung untuk berfikir bahawa pasangan kata-perenggan pertanyaan adalah terlalu kabur, berkualiti rendah dan tidak konsisten dapat menentukan maklumat yang diperlukan, dengan itu mengecualikan pasangan istilah-perenggan pertanyaan daripada set data. Kami menentukan label perkaitan akhir dengan undian majoriti. Garis panduan anotasi perkaitan 4 peringkat yang kami pakai adalah konsisten dengan penanda aras TREC.
  • Tahap 0: Istilah pertanyaan sama sekali tidak berkaitan dengan kandungan perenggan
  • Tahap 1: Kandungan perenggan berkaitan dengan istilah pertanyaan, tetapi tidak sepadan dengan keperluan maklumat bagi istilah pertanyaan
  • Tahap 2: Kandungan perenggan berkaitan dengan istilah pertanyaan dan boleh memenuhi sebahagian keperluan maklumat istilah pertanyaan
  • Tahap 3: Kandungan perenggan dapat memenuhi sepenuhnya keperluan maklumat syarat pertanyaan dan mengandungi jawapan yang tepat.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 2: Contoh halaman Wikipedia. Dokumen yang dibentangkan mengandungi perenggan yang jelas.

2) Kaedah pembahagian perenggan berasaskan model

Dalam set data sedia ada, Perenggan biasanya dipisahkan daripada dokumen berdasarkan perenggan semula jadi (pemutus baris) atau dengan tingkap gelongsor panjang tetap. Walau bagaimanapun, kedua-dua kaedah boleh mengakibatkan perenggan yang tidak lengkap secara semantik atau terlalu panjang dan mengandungi berbilang topik berbeza. Dalam kerja ini, kami menggunakan kaedah pembahagian perenggan berasaskan model Secara khusus, kami menggunakan Ensiklopedia Sogou, Ensiklopedia Baidu dan Wikipedia Bahasa Cina sebagai data latihan, kerana struktur bahagian dokumen ini agak jelas, dan perenggan semula jadi juga diperolehi. definisi yang lebih baik. Kami melatih model pembahagian untuk menentukan sama ada perkataan tertentu perlu menjadi titik pembahagian. Kami menggunakan idea tugas pelabelan urutan dan menggunakan perkataan terakhir setiap segmen semula jadi sebagai contoh positif untuk melatih model.

3) Kaedah deduplikasi perenggan berasaskan pengelompokan

Menganotasi perenggan yang sangat serupa adalah berlebihan dan tidak bermakna untuk perenggan model kedudukan, perolehan maklumat yang dibawa oleh kandungan perenggan yang sangat serupa adalah terhad, jadi kami mereka bentuk kaedah penyahduplikasi perenggan berasaskan kluster untuk meningkatkan kecekapan anotasi. Khususnya, kami menggunakan Ward, algoritma pengelompokan hierarki, untuk melaksanakan pengelompokan tanpa diawasi bagi dokumen serupa. Perenggan dalam kelas yang sama dianggap sangat serupa, dan kami mencuba satu perenggan daripada setiap kelas untuk anotasi perkaitan. Perlu diingatkan bahawa kami hanya melakukan operasi ini pada set latihan Untuk set ujian, kami akan menganotasi sepenuhnya semua perenggan yang diekstrak untuk mengurangkan kesan contoh negatif palsu.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 3: Proses anotasi pensampelan berdasarkan pembelajaran aktif

4) Kaedah pensampelan dan anotasi data berdasarkan pembelajaran aktif

Dalam amalan, kami mendapati bahawa tidak semua sampel latihan boleh dipertingkatkan lagi Prestasi daripada model ranking. Untuk sampel latihan yang boleh diramalkan dengan tepat oleh model, bantuan latihan untuk model seterusnya adalah terhad. Oleh itu, kami meminjam idea pembelajaran aktif untuk membolehkan model memilih sampel latihan yang lebih bermaklumat untuk anotasi selanjutnya. Khususnya, kami mula-mula melatih model penyusunan semula perkataan-perenggan berdasarkan rangka kerja pengekod silang berdasarkan data latihan sedia ada Kemudian kami menggunakan model ini untuk meramalkan data lain dan mengalih keluar skor keyakinan yang berlebihan (kandungan maklumat) dan juga skor keyakinan rendah (data bising), jelaskan lagi perenggan yang disimpan, dan ulangi proses ini.

Statistik Set Data

T2Kedudukan terdiri daripada lebih 300,000 pertanyaan sebenar dan 2 juta perenggan Internet. Antaranya, set latihan mengandungi kira-kira 250,000 perkataan pertanyaan, dan set ujian mengandungi kira-kira 50,000 perkataan pertanyaan. Istilah pertanyaan boleh mencapai sehingga 40 aksara, dengan purata panjang sekitar 11 aksara. Pada masa yang sama, perkataan pertanyaan dalam set data meliputi berbilang medan, termasuk perubatan, pendidikan, e-dagang, dll. Kami juga mengira skor kepelbagaian (ILS) perkataan pertanyaan Berbanding dengan set data sedia ada, kepelbagaian pertanyaan kami adalah lebih tinggi. Lebih daripada 2.3 juta perenggan telah dijadikan sampel daripada 1.75 juta dokumen, dan setiap dokumen dibahagikan kepada 1.3 perenggan secara purata. Dalam set latihan, purata 6.25 perenggan bagi setiap istilah pertanyaan dianotasi secara manual, manakala dalam set ujian, purata 15.75 perenggan bagi setiap istilah pertanyaan dianotasi secara manual.

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 4: Taburan domain perkataan pertanyaan dalam set data

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 5: Taburan anotasi korelasi

Hasil eksperimen model yang biasa digunakan

Kami menguji prestasi beberapa model kedudukan perenggan yang biasa digunakan pada set data yang diperolehi Kami juga menilai kaedah sedia ada dalam ingatan perenggan dan penekanan perenggan kedua-dua peringkat pengisihan.

1) Percubaan ingat semula perenggan

Model ingat semula perenggan sedia ada boleh dibahagikan secara kasar kepada model ingat semula jarang dan padat ingat model.

  • Model penarikan semula jarang memfokuskan pada isyarat padanan tepat untuk mereka bentuk fungsi pemarkahan perkaitan Sebagai contoh, BM25 ialah model penanda aras yang paling mewakili.
  • Model penarikan semula padat menggunakan rangkaian saraf dalam untuk mempelajari vektor padat dimensi rendah untuk mewakili perkataan dan perenggan pertanyaan.

Kami menguji prestasi model penarikan balik berikut:

  • QL (kemungkinan pertanyaan): QL ialah wakil A model bahasa statistik yang menilai perkaitan berdasarkan kebarangkalian perenggan menjana istilah pertanyaan tertentu.
  • BM25: model penanda aras ingat jarang yang biasa digunakan.
  • DE w/ BM25 Neg: Model DPR, struktur pengekod dwi-menara (Dual-Encoder), model ini ialah penarikan semula perenggan pertama yang menggunakan model bahasa pra-latihan sebagai tulang belakang Model rangka kerja.
  • DE w/Mined Neg: Struktur Dwi Pengekod, yang meningkatkan prestasi model DPR dengan mengingat kembali contoh negatif keras daripada korpus penuh.
  • DPTDR: Model penarikan semula perenggan pertama menggunakan penalaan segera.

Antara model ini, QL dan BM25 ialah model panggil semula jarang, dan model lain ialah model ingat semula padat. Kami menggunakan penunjuk biasa seperti MRR dan Recall untuk menilai prestasi model ini Keputusan percubaan ditunjukkan dalam jadual berikut:

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 6: Prestasi Perenggan model panggil balik pada set ujian

Daripada keputusan eksperimen, dapat dilihat bahawa berbanding dengan model ranking jarang tradisional, perolehan padat model telah mencapai prestasi yang lebih baik. Pada masa yang sama, pengenalan contoh sukar-ke-negatif juga membantu untuk meningkatkan prestasi model. Perlu dinyatakan bahawa prestasi penarikan semula model eksperimen ini pada set data kami adalah lebih teruk daripada set data lain Sebagai contoh, Recall@50 BM25 pada set data kami ialah 0.492, manakala dalam MS-Marco dan Dureader_retrieval Di atas ialah 0.601 dan 0.700. . Ini mungkin disebabkan oleh fakta bahawa kami mempunyai lebih banyak perenggan yang telah diberi anotasi secara manual Dalam set ujian, kami mempunyai purata 4.74 dokumen yang berkaitan bagi setiap istilah pertanyaan, yang menjadikan tugas penarikan semula lebih mencabar dan mengurangkan negatif palsu pada tahap tertentu. masalah . Ini juga menunjukkan bahawa T2Ranking ialah set data penanda aras yang mencabar dan mempunyai ruang besar untuk penambahbaikan untuk model penarikan semula masa hadapan.

2) Percubaan penyusunan semula perenggan

Berbanding dengan peringkat ingat semula perenggan, peringkat penyusunan semula perlu dipertimbangkan Saiz perenggan adalah kecil, jadi kebanyakan kaedah cenderung menggunakan pengekod interaktif (Cross-Encoder) sebagai rangka kerja model Dalam kerja ini, kami menguji prestasi model pengekod interaktif pada tugas penyusunan semula perenggan indeks penilaian, keputusan eksperimen adalah seperti berikut:

Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.

Rajah 7: Pengekod interaktif pada tugas menyusun semula perenggan Prestasi

Hasil eksperimen menunjukkan penyusunan semula berdasarkan perenggan yang dipanggil semula oleh Dual-Encoder adalah lebih berkesan daripada penyusunan semula berdasarkan perenggan yang dipanggil semula oleh BM25 Ia boleh mencapai hasil yang lebih baik , yang konsisten dengan kesimpulan eksperimen kerja sedia ada. Sama seperti eksperimen penarikan balik, prestasi model penarafan semula pada set data kami adalah lebih teruk daripada set data lain, yang mungkin disebabkan oleh anotasi terperinci dan kepelbagaian kata pertanyaan yang lebih tinggi bagi set data kami, dan seterusnya Ia menggambarkan set data kami. adalah mencabar dan boleh mencerminkan prestasi model dengan lebih tepat.

Pengenalan kepada pasukan pelepas set data

Set data dikeluarkan bersama oleh Kumpulan Penyelidikan Pencarian Maklumat (THUIR) Jabatan Sains Komputer Universiti Tsinghua dan Pusat Teknologi Carian Pelayar QQ pasukan Tencent telah diluluskan oleh Universiti Tsinghua Tian Disokong oleh Institut Pengkomputeran Kecerdasan Buatan. Kumpulan penyelidikan THUIR memberi tumpuan kepada penyelidikan mengenai kaedah carian dan pengesyoran, dan telah mencapai keputusan tipikal dalam pemodelan tingkah laku pengguna dan kaedah pembelajaran yang boleh dijelaskan termasuk Anugerah Kertas Terbaik WSDM2022, Anugerah Pencalonan Kertas Terbaik SIGIR2020 dan Anugerah Kertas Terbaik CIKM2018 telah memenangi beberapa anugerah akademik termasuk 2020 Persatuan Maklumat Cina "Anugerah Sains dan Teknologi Pemprosesan Maklumat Cina Qian Weichang" hadiah pertama. Pasukan Pusat Teknologi Carian Pelayar QQ ialah pasukan yang bertanggungjawab untuk penyelidikan dan pembangunan teknologi carian dalam platform maklumat dan talian perkhidmatan PCG Tencent Bergantung pada ekosistem kandungan Tencent dan memacu inovasi produk melalui penyelidikan pengguna, ia menyediakan pengguna dengan grafik, maklumat, novel, panjang. dan video pendek, perkhidmatan, dsb. Keperluan maklumat orientasi dipenuhi.

Atas ialah kandungan terperinci Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam