Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data 'Soalan dan Jawapan Penaakulan Grafik' GITQA: Graf visual boleh meningkatkan keupayaan penaakulan

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data 'Soalan dan Jawapan Penaakulan Grafik' GITQA: Graf visual boleh meningkatkan keupayaan penaakulan

PHPz

Mar 04, 2024 pm 05:43 PM

Modelkereta api

Rangkaian saraf graf (GNN) pandai memanfaatkan maklumat struktur graf untuk inferens, tetapi selalunya memerlukan penalaan khusus domain untuk mencapai prestasi optimum, yang mengehadkan keupayaan mereka untuk membuat generalisasi merentas tugasan yang berbeza.

Model Bahasa Besar (LLM) mempunyai keupayaan silang tugas dan generalisasi yang lebih kukuh untuk penaakulan graf, tetapi selalunya tidak berfungsi sebaik model rangkaian saraf graf khusus pada tugasan tertentu.

Penyelidikan semasa tentang penaakulan graf sering mengabaikan kepentingan maklumat visual dalam penaakulan graf, sama ada rangkaian neural graf tradisional atau kaedah penaakulan graf berdasarkan model bahasa yang besar.

Walau bagaimanapun, manusia menggunakan ciri visual untuk menyelesaikan tugas graf dengan cekap dan tepat, seperti menentukan sama ada terdapat gelang dalam graf.

Oleh itu, adalah amat penting untuk meneroka peranan maklumat graf morfologi visual dalam penaakulan graf.

Secara lebih khusus, bolehkah melukis graf (Graf) sebagai gambar (Imej) memberi model keupayaan penaakulan yang istimewa? Bolehkah imej ini (dipanggil Graf Visual) meningkatkan model penaakulan graf sedia ada berdasarkan modaliti lain?

Untuk menjawab soalan ini, pasukan penyelidik dari Universiti Sains dan Teknologi Hong Kong dan Universiti Sains dan Teknologi Selatan membina set data soalan dan jawapan inferens pertama GITQA yang mengandungi graf visual, dan menggunakannya pada model sumber terbuka seperti GPT-4 turbo, GPT-4V dan Vicuna, LLaVA, dsb. Eksperimen meluas telah dijalankan pada model sumber tertutup, mengesahkan peranan Graf Visual dalam penaakulan graf dan pengukuhan bersamanya dengan modaliti teks.

paper Alamat: https://arxiv.org/abs/2402.02130

project homepage: https://v-graph.github.io/

di Gitqa Dalam penanda aras ujian, model berbilang mod GITA-7B/13B, yang diperhalusi berdasarkan LLaVA-7B/13B, menunjukkan prestasi penaakulan graf yang mengatasi GPT-4V.

Set Data Soalan dan Jawapan Penaakulan Graf Multimodal GITQA

Pasukan penyelidik menubuhkan set data GITQA dan tanda aras ujian yang sepadan dengan melukis struktur graf ke dalam imej visual gaya yang berbeza Set data GITQA mengandungi lebih daripada 423K contoh soal jawab , setiap kejadian mengandungi maklumat struktur-teks-visual graf yang saling sepadan dan pasangan soalan dan jawapan yang sepadan.

Set data GITQA mengandungi dua versi: GITQA-Base dan GITQA-Aug, antaranya GITQA-Base hanya mengandungi imej visual gaya tunggal. .

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulan Seperti yang ditunjukkan dalam Rajah 1, penanda aras ujian GITQA mengandungi 8 tugas penaakulan graf perwakilan: Ketersambungan (menentukan sama ada dua titik dalam graf disambungkan), Kitaran (menentukan sama ada terdapat kitaran graf), TS (Mencari susunan topologi graf), SP (Mencari laluan terpendek antara dua titik dalam graf), MaxFlow (Mengira aliran maksimum antara dua titik dalam graf), BGM (Mengira padanan maksimum bagi graf dwipartit), HP (Mencari padanan maksimum dalam graf) Laluan Hamiltonian) dan GNN (mensimulasikan penghantaran mesej GNN).

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulan Set data yang sepadan dengan setiap tugasan dibahagikan kepada subset tahap kesukaran yang berbeza mengikut kerumitan struktur graf (statistik yang berkaitan ditunjukkan dalam Jadual 1).

Eksperimen dan keputusan

Eksperimen 1: Perbandingan keupayaan penaakulan graf model berdasarkan maklumat graf modal yang berbeza

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulan Secara khusus, model sumber tertutup GPT-4 dan GPT-4V melakukan inferens sampel sifar, manakala untuk model sumber terbuka Vicuna dan LLaVA, dengan mengekalkan parameter model tulang belakang sahaja bahagian Projektor dan LoRA telah diperhalusi (khususnya, model LLaVA selepas penalaan halus dwi-modal visual + teks dinamakan GITA oleh penyelidik).

Jadual 2 meringkaskan keputusan ujian untuk kesemua lapan tugas penaakulan graf.

Visual modaliti V.S. Text modality

Seperti yang dapat dilihat dari Jadual 2, modaliti visual berprestasi lebih baik daripada modaliti teks pada Cycle dan tugasan BGM, manakala pada lima tugasan lain Ia bukan sebagai baik sebagai modal teks. Ini mendedahkan bahawa visi dan teks masing-masing mempunyai kelebihan dalam mengendalikan jenis tugas penaakulan graf tertentu. Peningkatan bersama modaliti visual dan teks

Untuk model sumber tertutup, GPT-4V (V+T) mempunyai ketepatan purata yang lebih tinggi pada lapan tugasan daripada GPT-4 Turbo (T-sahaja) dan GPT-4V (V -sahaja ).

Untuk model sumber terbuka (7B, 13B), begitu juga, model GITA yang dilatih menggunakan data bimodal menunjukkan prestasi terbaik secara purata. Pemerhatian ini mengesahkan bahawa menggunakan maklumat visual dan teks secara serentak boleh meningkatkan keupayaan penaakulan graf model dan mencapai prestasi yang lebih baik daripada model mod tunggal.

Secara lebih khusus, GITA-7B (V+T) mengatasi LLaVA-7B (V-sahaja) dan Vicuna-7B (T-sahaja) dalam hampir semua tugas. Untuk model sumber tertutup, menggunakan bimodaliti mencapai ketepatan tertinggi pada lima daripada lapan tugasan. Model LLaVA yang ditala halus boleh mengatasi GPT-4V

Seperti yang ditunjukkan dalam Jadual 2 dan Rajah 3, model GITA-7B dan GITA-13B, iaitu model LLaVA-7B/13B yang ditala halus dwi-modal, tunjukkan prestasi yang lebih baik daripada GPT -4V Peningkatan prestasi yang ketara melebihi 13%. Peningkatan besar ini menunjukkan bahawa model GITA yang diperhalusi boleh mempelajari keupayaan penaakulan graf yang sangat baik daripada set data GITQA.

Percubaan 2: Kesan tahap kesukaran pada tugasan graf

Jadual 3 seterusnya memberikan ketepatan ujian model pada tahap kesukaran yang berbeza (tugas GNN telah ditinggalkan kerana ia terlalu mencabar untuk semua model) .

Prestasi menggunakan modaliti visual sahaja mengatasi modaliti teks dan setanding dengan menggunakan kedua-dua modaliti dalam tugasan Kitaran dan BGM pada semua tahap kesukaran.

Namun, untuk tugasan lain, prestasi model hanya menggunakan modaliti visual menurun dengan ketara apabila kesukaran meningkat daripada mudah kepada sederhana atau sukar.

Begitu juga, apabila kesukaran meningkat, model yang hanya menggunakan modaliti teks dan visual + teks modaliti juga akan mengalami penurunan prestasi yang besar pada tugasan ini.

Untuk tugas Ketersambungan, GITA-7B (Visual + Teks) dan GITA-13B (Visual + Teks) menunjukkan prestasi yang setanding pada ketiga-tiga tahap cabaran.

Walau bagaimanapun, corak konsisten ini tidak diperhatikan dalam GPT-4V (Visual + Teks), kerana prestasinya menurun dengan peningkatan tahap kesukaran.

Eksperimen 3: Strategi peningkatan graf visual dan pilihan gaya

Pasukan penyelidik juga meneroka kesan strategi penambahan data khas dalam memperhalusi model.

Berdasarkan strategi peningkatan yang berbeza, para penyelidik membahagikan set data GITQA-Aug kepada empat subset peningkatan: set data peningkatan reka letak, set data peningkatan bentuk nod, set data peningkatan lebar tepi dan set data peningkatan gaya nod.

Penyelidik memperhalusi kesemua empat subset dipertingkatkan secara berasingan pada model LLaVA-7B yang hanya menggunakan maklumat peta visual Perbandingan prestasi inferensnya sebelum peningkatan data ditunjukkan dalam Jadual 4 Paparan .

Ia boleh dilihat dengan jelas bahawa keupayaan penaakulan model untuk tugasan mencabar pada set data yang dipertingkatkan susun atur telah bertambah baik secara mendadak (SP meningkat sebanyak 64.8%, HP meningkat sebanyak 69.63%).

Tiga strategi penambahan data yang lain sebenarnya membawa kepada kemerosotan prestasi.

Secara khusus, model ini mencapai hasil yang sangat baik pada set yang ditambah susun atur, iaitu lebih daripada 11% lebih tinggi daripada set GITQA-Base. Sebagai perbandingan, keputusan purata untuk lapan tugasan dalam set tambahan yang lain adalah kira-kira 5% lebih rendah daripada set asas

Penemuan ini mencadangkan bahawa penambahan data berasaskan reka letak menyediakan perspektif visual yang lebih berkesan untuk penaakulan graf. Tambahan pula, penyelidik juga menguji prestasi penaakulan Graf Visual berdasarkan setiap gaya dalam kumpulan yang sama di bawah setiap strategi peningkatan Seperti yang ditunjukkan dalam Jadual 5, ia menunjukkan bahawa model tidak mempunyai keutamaan gaya yang jelas.

Atas ialah kandungan terperinci Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data 'Soalan dan Jawapan Penaakulan Grafik' GITQA: Graf visual boleh meningkatkan keupayaan penaakulan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Memasak Inovasi: Bagaimana Kecerdasan Buatan Mengubah Perkhidmatan MakananApr 12, 2025 pm 12:09 PM

AI Menambah Penyediaan Makanan Walaupun masih dalam penggunaan baru, sistem AI semakin digunakan dalam penyediaan makanan. Robot yang didorong oleh AI digunakan di dapur untuk mengautomasikan tugas penyediaan makanan, seperti membuang burger, membuat pizza, atau memasang SA

Panduan Komprehensif mengenai Python Namespaces & Variable ScopesApr 12, 2025 pm 12:00 PM

Pengenalan Memahami ruang nama, skop, dan tingkah laku pembolehubah dalam fungsi Python adalah penting untuk menulis dengan cekap dan mengelakkan kesilapan runtime atau pengecualian. Dalam artikel ini, kami akan menyelidiki pelbagai ASP

Panduan Komprehensif untuk Model Bahasa Visi (VLMS)Apr 12, 2025 am 11:58 AM

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

MediaTek meningkatkan barisan premium dengan Kompanio Ultra dan Dimensity 9400Apr 12, 2025 am 11:52 AM

Meneruskan irama produk, bulan ini MediaTek telah membuat satu siri pengumuman, termasuk Kompanio Ultra dan Dimensity 9400 yang baru. Produk ini mengisi bahagian perniagaan MediaTek yang lebih tradisional, termasuk cip untuk telefon pintar

Minggu ini di AI: Walmart menetapkan trend fesyen sebelum mereka pernah berlakuApr 12, 2025 am 11:51 AM

#1 Google melancarkan Agent2Agent Cerita: Ia Isnin pagi. Sebagai perekrut berkuasa AI, anda bekerja lebih pintar, tidak lebih sukar. Anda log masuk ke papan pemuka syarikat anda di telefon anda. Ia memberitahu anda tiga peranan kritikal telah diperolehi, dijadualkan, dan dijadualkan untuk

AI Generatif Bertemu PsychobabbleApr 12, 2025 am 11:50 AM

Saya akan meneka bahawa anda mesti. Kita semua seolah -olah tahu bahawa psychobabble terdiri daripada pelbagai perbualan yang menggabungkan pelbagai terminologi psikologi dan sering akhirnya menjadi tidak dapat difahami atau sepenuhnya tidak masuk akal. Semua yang anda perlu lakukan untuk memuntahkan fo

Prototaip: saintis menjadikan kertas menjadi plastikApr 12, 2025 am 11:49 AM

Hanya 9.5% plastik yang dihasilkan pada tahun 2022 dibuat daripada bahan kitar semula, menurut satu kajian baru yang diterbitkan minggu ini. Sementara itu, plastik terus menumpuk di tapak pelupusan sampah -dan ekosistem -sekitar dunia. Tetapi bantuan sedang dalam perjalanan. Pasukan Engin

Kebangkitan Penganalisis AI: Mengapa ini boleh menjadi pekerjaan yang paling penting dalam Revolusi AIApr 12, 2025 am 11:41 AM

Perbualan baru -baru ini dengan Andy Macmillan, Ketua Pegawai Eksekutif Platform Analytics Enterprise terkemuka Alteryx, menonjolkan peranan kritikal namun kurang dihargai ini dalam revolusi AI. Seperti yang dijelaskan oleh Macmillan, jurang antara data perniagaan mentah dan maklumat siap sedia

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7474

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi