Rumah > Artikel > Peranti teknologi > Model asas graf sumber terbuka besar HKU OpenGraph: keupayaan generalisasi yang kuat, penyebaran ke hadapan untuk meramalkan data baharu
Masalah kebuluran data dalam bidang pembelajaran graf telah diselesaikan dengan helah baharu!
OpenGraph, model berasaskan graf asas yang direka khusus untuk ramalan tangkapan sifar pada pelbagai set data graf.
Pasukan Chao Huang, ketua Makmal Perisikan Data Besar Hong Kong, turut mencadangkan teknik penambahbaikan dan pelarasan untuk model untuk meningkatkan kebolehsuaian model kepada tugasan baharu.
Pada masa ini, kerja ini telah dimuat naik ke GitHub.
Memperkenalkan teknik penambahan data ini terutamanya meneroka strategi yang mendalam untuk meningkatkan keupayaan generalisasi model grafik (terutamanya apabila terdapat perbezaan yang ketara antara data latihan dan ujian).
OpenGraph ialah model struktur graf umum yang melakukan perambatan ke hadapan melalui ramalan perambatan untuk mencapai ramalan sampel sifar data baharu.
Untuk mencapai matlamat, pasukan menyelesaikan 3 cabaran berikut:
Melalui satu siri kaedah inovatif, seperti Tokenizer BERT yang sedar topologi dan Transformer graf berasaskan anchor, OpenGraph menangani cabaran di atas dengan berkesan. Keputusan ujian pada berbilang set data menunjukkan keupayaan generalisasi model yang sangat baik dan membolehkan penilaian berkesan terhadap keupayaan generalisasi warna model.
Seni bina model OpenGraph terutamanya terdiri daripada 3 bahagian teras:
Pertama, mari bercakap tentang Tokenizer graf bersatu.
Untuk menyesuaikan diri dengan perbezaan dalam nod dan tepi dalam set data yang berbeza, pasukan membangunkan Tokenizer graf bersatu, yang menormalkan data graf ke dalam jujukan token.
Proses ini termasuk pelicinan matriks bersebelahan tertib tinggi dan pemetaan sedar topologi.
Pelicinan matriks bersebelahan tertib tinggi menggunakan kuasa tertib tinggi matriks bersebelahan untuk menyelesaikan masalah sambungan jarang, manakala pemetaan sedar topologi menukar matriks bersebelahan kepada jujukan nod dan menggunakan penguraian nilai tunggal pantas (SVD) untuk meminimumkan kehilangan maklumat, mengekalkan lebih banyak maklumat struktur graf.
Yang kedua ialah Transformer graf boleh dipanjangkan.
Selepas tokenisasi, OpenGraph menggunakan seni bina Transformer untuk mensimulasikan kebergantungan antara nod, dan terutamanya menggunakan teknologi berikut untuk mengoptimumkan prestasi dan kecekapan model:
Pertama, pensampelan jujukan token menggunakan teknologi pensampelan untuk mengurangkan bilangan perhubungan yang diperlukan model untuk memproses, dengan itu mengurangkan kerumitan masa dan ruang.
Yang kedua ialah mekanisme perhatian kendiri bagi pensampelan sauh. Kaedah ini mengurangkan lagi kerumitan pengiraan dan secara berkesan meningkatkan kecekapan latihan dan kestabilan model melalui pemindahan maklumat antara nod pembelajaran secara berperingkat.
Langkah terakhir ialah penyulingan pengetahuan model bahasa besar.
Untuk menangani isu privasi data dan kepelbagaian kategori yang dihadapi semasa melatih model graf am, pasukan mendapat inspirasi daripada pengetahuan dan keupayaan pemahaman model bahasa besar (LLM) dan menggunakan LLM untuk menjana pelbagai data struktur graf.
Mekanisme peningkatan data ini secara berkesan meningkatkan kualiti dan kepraktisan data dengan mensimulasikan ciri-ciri graf dunia sebenar.
Pasukan juga mula-mula menjana set nod yang disesuaikan dengan aplikasi tertentu, dengan setiap nod mempunyai penerangan teks untuk penjanaan tepi.
Apabila berhadapan dengan set nod berskala besar seperti platform e-dagang, penyelidik menangani perkara ini dengan membahagikan nod kepada subkategori yang lebih khusus.
Sebagai contoh, daripada "produk elektronik" kepada "telefon mudah alih" tertentu, "komputer riba", dsb., proses ini diulang sehingga nod ditapis cukup untuk mendekati kejadian sebenar.
Algoritma pokok segera membahagikan nod mengikut struktur pokok dan menjana entiti yang lebih terperinci.
Mulakan daripada kategori umum seperti "produk", secara beransur-ansur memperhalusinya kepada subkategori tertentu, dan akhirnya membentuk pepohon nod.
Bagi penjanaan kelebihan, menggunakan pensampelan Gibbs, penyelidik membentuk tepi berdasarkan set nod yang dihasilkan.
Untuk mengurangkan beban pengiraan, kami tidak terus melintasi semua tepi yang mungkin melalui LLM Sebaliknya, kami mula-mula menggunakan LLM untuk mengira persamaan teks antara nod, dan kemudian menggunakan algoritma mudah untuk menentukan hubungan nod.
Atas dasar ini, pasukan memperkenalkan beberapa pelarasan teknikal:
Langkah di atas memastikan data graf yang dihasilkan bukan sahaja kaya dan pelbagai, tetapi juga dekat dengan corak sambungan dan ciri struktur dunia sebenar.
Perlu diambil perhatian bahawa percubaan ini memfokuskan pada melatih model OpenGraph menggunakan set data yang dijana hanya oleh LLM dan mengujinya pada set data senario kehidupan sebenar yang pelbagai, meliputi pengelasan nod dan tugas ramalan pautan.
Reka bentuk eksperimen adalah seperti berikut:
Tetapan sampel sifar.
Untuk menilai prestasi OpenGraph pada data yang tidak kelihatan, kami melatih model pada set latihan yang dijana dan kemudian menilainya pada set ujian dunia sebenar yang berbeza sama sekali. Ia memastikan bahawa data latihan dan ujian tidak mempunyai pertindihan dalam nod, tepi dan ciri.
Kurang tetapan sampel.
Memandangkan sukar bagi banyak kaedah untuk melaksanakan ramalan sifar pukulan dengan berkesan, kami memperkenalkan tetapan beberapa pukulan Selepas model garis dasar dilatih terlebih dahulu pada data pra-latihan, sampel k-shot digunakan untuk penalaan halus. .
Keputusan pada 2 tugasan dan 8 set ujian menunjukkan bahawa OpenGraph dengan ketara mengatasi kaedah sedia ada dalam ramalan pukulan sifar.
Selain itu, model pra-latihan sedia ada kadangkala berprestasi lebih teruk daripada model yang dilatih dari awal mengenai tugasan silang data.
Pada masa yang sama, pasukan meneroka cara reka bentuk Tokenizer graf mempengaruhi prestasi model.
Pertama sekali, didapati melalui eksperimen bahawa tidak melakukan pelicinan matriks bersebelahan (perintah pelicinan ialah 0) akan mengurangkan prestasi dengan ketara, menunjukkan keperluan pelicinan.
Para penyelidik kemudian mencuba beberapa alternatif mudah mengetahui topologi: ID yang dikodkan satu panas merentas set data, pemetaan rawak dan perwakilan berasaskan darjah nod.
Hasil eksperimen menunjukkan bahawa prestasi alternatif ini tidak ideal.
Secara khusus, perwakilan ID merentas set data adalah yang paling teruk, dan perwakilan berasaskan darjah juga berprestasi rendah, manakala pemetaan rawak, walaupun lebih baik sedikit, mempunyai jurang prestasi yang ketara berbanding dengan pemetaan sedar topologi yang dioptimumkan.
Pasukan menyiasat kesan set data pra-latihan yang berbeza pada prestasi OpenGraph, termasuk set data yang dijana menggunakan kaedah penyulingan pengetahuan berasaskan LLM, serta beberapa set data sebenar.
Set data pra-latihan yang dibandingkan dalam eksperimen termasuk set data selepas mengalih keluar teknologi tertentu daripada kaedah penjanaan pasukan, 2 set data sebenar (Yelp2018 dan Gowalla) yang tidak berkaitan dengan set data ujian, 1 data set dengan data ujian Tetapkan set data sebenar yang serupa (ML-10M) .
Keputusan eksperimen menunjukkan bahawa set data yang dijana menunjukkan prestasi yang baik pada semua set ujian penyingkiran teknik tiga generasi dengan ketara mempengaruhi prestasi, mengesahkan keberkesanan teknik ini.
Apabila berlatih dengan set data sebenar (seperti Yelp dan Gowalla) yang tidak berkaitan dengan set ujian, prestasi kadangkala merosot, yang mungkin disebabkan oleh perbezaan taburan antara set data yang berbeza.
set data ML-10M mencapai prestasi terbaik pada set data ujian yang serupa seperti ML-1M dan ML-10M , menyerlahkan kepentingan persamaan antara set data latihan dan ujian.
Dalam bahagian eksperimen ini, pasukan penyelidik meneroka dua teknologi pensampelan yang digunakan dalam modul Transformer graf:
pensampelan jujukan token (Seq) (Anc)
Mereka menjalankan eksperimen ablasi terperinci mengenai kedua-dua kaedah pensampelan ini untuk menilai kesan khusus mereka terhadap prestasi model.
Hasil eksperimen menunjukkan bahawa sama ada ia adalah pensampelan jujukan token atau pensampelan titik anchor, kedua-duanya boleh mengurangkan kerumitan ruang dan masa model secara berkesan semasa peringkat latihan dan ujian. Ini amat penting untuk memproses data graf berskala besar dan boleh meningkatkan kecekapan dengan ketara.
Dari perspektif prestasi, pensampelan jujukan token mempunyai kesan positif ke atas prestasi keseluruhan model. Strategi pensampelan ini mengoptimumkan perwakilan graf dengan memilih token utama, dengan itu meningkatkan keupayaan model untuk mengendalikan struktur graf yang kompleks.
Sebaliknya, eksperimen pada set data ddi menunjukkan bahawa pensampelan utama mungkin mempunyai kesan negatif ke atas prestasi model. Persampelan anchor memudahkan struktur graf dengan memilih nod tertentu sebagai titik penambat, tetapi kaedah ini mungkin mengabaikan beberapa maklumat struktur graf utama, sekali gus menjejaskan ketepatan model.
Ringkasnya, walaupun kedua-dua teknik pensampelan mempunyai kelebihannya, dalam aplikasi praktikal, strategi pensampelan yang sesuai perlu dipilih dengan teliti berdasarkan set data dan keperluan tugasan tertentu.
Penyelidikan ini bertujuan untuk membangunkan rangka kerja yang boleh disesuaikan dengan tepat yang boleh mengenal pasti dan menghuraikan corak topologi kompleks pelbagai struktur graf dengan tepat.
Para penyelidik menyasarkan untuk meningkatkan dengan ketara keupayaan generalisasi model dalam tugas pembelajaran graf sifar, termasuk pelbagai aplikasi hiliran, dengan memanfaatkan sepenuhnya keupayaan model yang dicadangkan.
Model ini dibina dengan sokongan seni bina Transformer graf boleh skala dan mekanisme penambahan data yang dipertingkatkan LLM untuk meningkatkan kecekapan dan keteguhan OpenGraph.
Melalui ujian meluas pada berbilang set data standard, pasukan menunjukkan prestasi generalisasi model yang sangat baik.
Difahamkan bahawa sebagai percubaan awal untuk membina model berasaskan graf, pada masa hadapan, kerja pasukan akan menumpukan pada meningkatkan keupayaan automasi rangka kerja, termasuk mengenal pasti sambungan bising secara automatik dan menjalankan pembelajaran kontrafaktual.
Pada masa yang sama, pasukan merancang untuk mempelajari dan mengekstrak corak lazim dan boleh dipindah milik pelbagai struktur graf untuk mempromosikan lagi skop aplikasi dan kesan model.
Pautan rujukan:
[1] Kertas: https://arxiv.org/pdf/2403.01121.pdf.
[2] Pustaka kod sumber: https://github.com/HKUDS/OpenGraph.
Atas ialah kandungan terperinci Model asas graf sumber terbuka besar HKU OpenGraph: keupayaan generalisasi yang kuat, penyebaran ke hadapan untuk meramalkan data baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!