Rumah >Peranti teknologi >AI >Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

PHPz
PHPzke hadapan
2024-04-26 17:00:30632semak imbas

Baru-baru ini, diketuai oleh Profesor Yan Shuicheng, Institut Penyelidikan Global Teknologi Kunlun 2050, Universiti Nasional Singapura, dan pasukan Universiti Teknologi Nanyang Singapura bersama-sama mengeluarkan dan bersumber terbuka Vitron sejagat tahap piksel visual model bahasa besar berbilang modal .

Ini ialah model besar multi-modal visual tugas berat yang menyokong satu siri tugasan visual daripada pemahaman visual kepada penjanaan visual, daripada tahap rendah ke tahap tinggi dan menyelesaikan masalah imej yang telah melanda model bahasa besar industri untuk jangka masa yang lama. meletakkan asas untuk model besar visual umum generasi seterusnya. Bentuk muktamad meletakkan asas dan menandakan satu lagi langkah besar ke arah kecerdasan buatan (AGI) umum untuk model besar. Vitron, sebagai model bahasa besar berbilang mod visual tahap piksel bersatu, mencapai sokongan menyeluruh untuk tugas visual daripada peringkat rendah ke peringkat tinggi ,

mampu mengendalikan tugas visual yang kompleks,

dan Fahami dan jana kandungan imej dan video, memberikan pemahaman visual yang kuat dan keupayaan pelaksanaan tugas. Pada masa yang sama, Vitron menyokong operasi berterusan dengan pengguna, membolehkan interaksi manusia-komputer yang fleksibel, menunjukkan potensi besar ke arah model universal multi-modal visual yang lebih bersatu. Kertas, kod dan tunjuk cara berkaitan Vitron semuanya telah

didedahkan kepada umum

Ia telah menunjukkan kelebihan dan potensi unik dari segi kelengkapan, inovasi teknologi, interaksi manusia-komputer dan potensi aplikasi hanya mempromosikan Ia bukan sahaja menggalakkan pembangunan model besar berbilang modal, tetapi juga menyediakan hala tuju baharu untuk penyelidikan model besar visual masa hadapan. Kunlun Wanwei 2050Institut Penyelidikan Global telah komited untuk membina

sebuah institusi penyelidikan saintifik yang cemerlang untuk dunia masa depan

, dan bekerjasama dengan komuniti saintifik untuk menyeberangi , terokai dunia yang tidak diketahui, cipta masa depan yang lebih baik. Sebelum ini, Kunlun Wanwei 2050Institut Penyelidikan Global telah mengeluarkan dan sumber terbuka kit alat penyelidikan dan pembangunan ejen digitalAgentStudio Pada masa hadapan, institut penyelidikan akan terus mempromosikan kecerdasan buatan. penemuan , menyumbang kepada pembinaan ekologi kecerdasan buatan China. Perkembangan semasa model bahasa besar visual (LLM) telah mencapai kemajuan yang memuaskan. Masyarakat semakin percaya bahawa membina model besar berbilang modal (MLLM) yang lebih umum dan berkuasa akan menjadi satu-satunya cara untuk mencapai kecerdasan buatan am (AGI). Walau bagaimanapun, masih terdapat beberapa cabaran utama dalam proses menuju ke arah model umum pelbagai modal (Generalis). Sebagai contoh, sebahagian besar kerja tidak mencapai pemahaman visual tahap piksel yang terperinci atau tidak mempunyai sokongan bersatu untuk imej dan video. Atau sokongan untuk pelbagai tugas visual tidak mencukupi, dan ia jauh dari model besar sejagat. Untuk mengisi jurang ini, baru-baru ini, Institut Penyelidikan Global Kunlun Worldwide 2050, Universiti Nasional Singapura, dan pasukan Universiti Teknologi Nanyang Singapura telah bersama-sama mengeluarkan model bahasa besar berbilang mod visual peringkat piksel universal sumber terbuka Vitron. . Vitron menyokong satu siri tugas visual daripada pemahaman visual kepada penjanaan visual, daripada tahap rendah kepada tahap tinggi, termasuk pemahaman komprehensif, penjanaan, pembahagian dan penyuntingan imej statik dan kandungan video dinamik. Vitron telah menerangkan secara komprehensif sokongan fungsian untuk empat tugas utama berkaitan penglihatan. dan kelebihan utamanya. Vitron juga menyokong operasi berterusan dengan pengguna untuk mencapai interaksi manusia-mesin yang fleksibel. Projek ini menunjukkan potensi besar untuk model am berbilang modal penglihatan yang lebih bersatu, meletakkan asas bagi bentuk muktamad model besar penglihatan am generasi seterusnya. Kertas, kod dan demo berkaitan Vitron kini semuanya terbuka.

Tajuk kertas: Vitron: Visi Tahap Pixel Bersatu LLM untuk Memahami, Menjana, Membahagikan, MengeditLaman utama projek & Demo: https://vitron-llm.github.io/

Pautan kertas: https:/ / is.gd/aGu0VV

Kod sumber terbuka: https://github.com/SkyworkAI/VitronDi bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

    0
  • 1
  • model besar
  • yang besar
  • Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah menunjukkan kuasa yang tidak pernah berlaku sebelum ini, dan telah terbukti secara beransur-ansur sebagai laluan teknikal ke AGI. Model bahasa besar multimodal (MLLM) berkembang pesat dalam banyak komuniti dan muncul dengan pantas Dengan memperkenalkan modul yang boleh melakukan persepsi visual, LLM berasaskan bahasa tulen diperluaskan kepada MLLM yang hebat dan cemerlang dalam pemahaman imej. seperti BLIP-2, LLaVA, MiniGPT-4, dsb. Pada masa yang sama, MLLM yang memfokuskan pada pemahaman video juga telah dilancarkan, seperti VideoChat, Video-LLaMA, Video-LLaVA, dsb.

    Seterusnya, penyelidik terutamanya cuba mengembangkan lagi keupayaan MLLM daripada dua dimensi. Di satu pihak, penyelidik cuba mendalami pemahaman MLLM tentang penglihatan, beralih daripada pemahaman peringkat contoh kasar kepada pemahaman terperinci imej peringkat piksel, dengan itu mencapai keupayaan kedudukan wilayah visual (Pembuatan Serantau), seperti GLaMM, PixelLM , NExT-Chat dan MiniGPT-v2 dsb. Sebaliknya, penyelidik cuba mengembangkan fungsi visual yang boleh disokong oleh MLLM. Beberapa penyelidikan telah mula mengkaji bagaimana MLLM bukan sahaja memahami isyarat visual input, tetapi juga menyokong penjanaan kandungan visual output. Contohnya, MLLM seperti GILL dan Emu boleh menjana kandungan imej secara fleksibel, dan GPT4Video dan NExT-GPT merealisasikan penjanaan video.

    Pada masa ini, komuniti kecerdasan buatan telah secara beransur-ansur mencapai kata sepakat bahawa trend masa depan MLLM visual pasti akan berkembang ke arah keupayaan yang sangat bersatu dan lebih kukuh. Walau bagaimanapun, walaupun terdapat banyak MLLM yang dibangunkan oleh komuniti, jurang yang jelas masih wujud.

    • Pertama sekali, Hampir semua LLM visual sedia ada menganggap imej dan video sebagai entiti yang berbeza dan sama ada hanya menyokong imej atau video sahaja. Para penyelidik berpendapat bahawa penglihatan harus merangkumi kedua-dua imej statik dan video dinamik-kedua-dua komponen teras dunia visual dan juga boleh ditukar ganti dalam kebanyakan senario. Oleh itu, adalah perlu untuk membina rangka kerja MLLM bersatu yang boleh menyokong modaliti imej dan video.
    • Kedua, Pada masa ini sokongan MLLM untuk fungsi visual masih tidak mencukupi. Kebanyakan model hanya mampu memahami, atau paling banyak menghasilkan imej atau video. Penyelidik percaya bahawa MLLM masa depan haruslah model bahasa besar umum yang boleh merangkumi rangkaian tugas dan operasi visual yang lebih luas, mencapai sokongan bersatu untuk semua tugas berkaitan penglihatan dan mencapai keupayaan "satu untuk semua". Ini penting untuk aplikasi praktikal, terutamanya dalam penciptaan visual yang selalunya melibatkan satu siri operasi berulang dan interaktif. Sebagai contoh, pengguna biasanya bermula dengan teks dan menukar idea kepada kandungan visual melalui gambar rajah Vincent kemudian memperhalusi idea awal dan menambah lebih banyak butiran melalui penyuntingan imej yang lebih halus kemudian mencipta kandungan dinamik dengan menghasilkan video daripada imej; pusingan interaksi berulang, seperti penyuntingan video, untuk menyempurnakan penciptaan.

    Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

    Jadual di atas hanya meringkaskan keupayaan MLLM visual sedia ada (hanya beberapa model disertakan secara representatif dan liputan tidak lengkap). Untuk merapatkan jurang ini, pasukan mencadangkan Vitron, MLLM visual peringkat piksel umum.

    02 Seni bina sistem Vitron : tiga modul utama

    Rangka kerja keseluruhan Vitron ditunjukkan dalam rajah di bawah. Vitron menggunakan seni bina yang serupa dengan MLLM berkaitan sedia ada, termasuk tiga bahagian penting: 1) modul pengekodan visual & bahasa bahagian hadapan, 2) modul pemahaman dan penjanaan teks LLM pusat, dan 3) respons pengguna dan panggilan modul belakang untuk kawalan visual modul.

    Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

    • Modul bahagian hadapan: Pengekodan visual-linguistik. Untuk melihat isyarat modal imej dan video serta menyokong input visual pengguna yang terperinci, Vitron menyepadukan pengekod imej, pengekod video dan pengekod kotak/lakaran wilayah.
    • Modul pusat: LLM Teras. Vitron menggunakan Vicuna (7B, 1.5) untuk memahami, menaakul, membuat keputusan dan berbilang pusingan interaksi pengguna.
    • Modul belakang: Respons pengguna dan panggilan modul. Vitron mengguna pakai strategi panggilan bertumpu teks dan menyepadukan beberapa modul pemprosesan imej dan video yang berkuasa dan canggih (SoTA) untuk penyahkodan dan melaksanakan satu siri tugas terminal visual daripada peringkat rendah ke peringkat tinggi. Dengan mengguna pakai kaedah panggilan penyepaduan modul bertumpu teks, Vitron bukan sahaja mencapai penyatuan sistem, tetapi juga memastikan kecekapan penjajaran dan kebolehskalaan sistem. . Latihan model terutamanya merangkumi tiga peringkat berbeza.
      • Langkah 1: Pembelajaran penjajaran keseluruhan bahasa visual. Ciri bahasa visual input dipetakan ke dalam ruang ciri bersatu, dengan itu membolehkannya memahami isyarat berbilang modal input dengan berkesan. Ini ialah pembelajaran penjajaran visual-linguistik berbutir kasar yang membolehkan sistem memproses isyarat visual masuk secara keseluruhan secara berkesan. Para penyelidik menggunakan pasangan kapsyen imej (CC3M), pasangan kapsyen video (Webvid) dan pasangan kapsyen wilayah (RefCOCO) sedia ada untuk latihan.
      • Langkah 2: Penalaan halus arahan kedudukan visual spatio-temporal. Sistem ini menggunakan modul luaran untuk melaksanakan pelbagai tugas visual tahap piksel, tetapi LLM sendiri tidak menjalani latihan visual yang terperinci, yang akan menghalang sistem daripada mencapai pemahaman visual tahap piksel sebenar. Untuk tujuan ini, penyelidik mencadangkan latihan penalaan halus arahan kedudukan visual spatiotemporal yang halus Idea terasnya adalah untuk membolehkan LLM mencari ruang butiran halus imej dan ciri temporal khusus video. Langkah 3: Penghujung output diperhalusi untuk panggilan arahan. Peringkat kedua latihan yang diterangkan di atas memberikan LLM dan pengekod bahagian hadapan keupayaan untuk memahami penglihatan pada tahap piksel. Langkah terakhir ini, penalaan halus arahan untuk seruan perintah, bertujuan untuk melengkapkan sistem dengan keupayaan untuk melaksanakan arahan dengan tepat, membolehkan LLM menjana teks seruan yang sesuai dan betul. Memandangkan tugas penglihatan terminal yang berbeza mungkin memerlukan arahan panggilan yang berbeza, untuk menyatukan ini, penyelidik mencadangkan untuk menyeragamkan output respons LLM ke dalam format teks berstruktur, yang termasuk:

      1) Output respons pengguna, membalas terus kepada pengguna input .

      2) Nama modul, menunjukkan fungsi atau tugas yang perlu dilakukan.

      3) Panggil arahan untuk mencetuskan meta-arahan modul tugas.

      4) Rantau (output pilihan) yang menentukan ciri visual terperinci yang diperlukan untuk tugasan tertentu, seperti dalam penjejakan video atau penyuntingan visual, di mana modul hujung belakang memerlukan maklumat ini. Untuk wilayah, berdasarkan pemahaman tahap piksel LLM, kotak sempadan yang diterangkan mengikut koordinat akan dikeluarkan. . Vitron menunjukkan keupayaan kukuh dalam empat kumpulan tugas visual utama (segmentasi, pemahaman, penjanaan kandungan dan penyuntingan), sementara pada masa yang sama ia mempunyai keupayaan interaksi manusia-komputer yang fleksibel. Berikut secara perwakilan menunjukkan beberapa hasil perbandingan kualitatif:

      Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

      Segmentasi Penglihatan

      Hasil pembahagian imej yang merujuk imej

      Penglihatan Berbutir halus

      • Keputusan imej merujuk kefahaman ungkapan .

      Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

      Keputusan pada QA video hasil pengeditan

        Kandungan dan butiran eksperimen yang lebih terperinci Sila beralih ke kertas.
      • 0
      5

      Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.

      Tinjauan Hala Tuju Masa Depan

      Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.Secara keseluruhannya, kerja ini menunjukkan potensi besar untuk membangunkan model besar visual multi-modal bersatu, meletakkan asas untuk generasi penyelidikan besar seterusnya . Ia mengambil bentuk baharu dan mengambil langkah pertama ke arah ini. Walaupun sistem Vitron yang dicadangkan oleh pasukan menunjukkan keupayaan umum yang kuat, ia masih mempunyai batasannya sendiri. Penyelidik berikut menyenaraikan beberapa arah yang boleh diterokai dengan lebih lanjut pada masa hadapan.

      • Seni bina sistem

      Sistem Vitron masih menggunakan pendekatan separa sendi, separa ejen untuk memanggil alat luaran. Walaupun kaedah berasaskan panggilan ini memudahkan pengembangan dan penggantian modul yang berpotensi, ini juga bermakna modul hujung belakang struktur saluran paip ini tidak mengambil bahagian dalam pembelajaran bersama modul teras hadapan dan LLM. Had ini tidak kondusif untuk pembelajaran keseluruhan sistem, yang bermaksud bahawa had atas prestasi tugas penglihatan yang berbeza akan dihadkan oleh modul bahagian belakang. Kerja masa depan harus mengintegrasikan pelbagai modul tugas visi ke dalam unit bersatu. Mencapai pemahaman bersatu dan output imej dan video sambil menyokong keupayaan penjanaan dan penyuntingan melalui paradigma generatif tunggal kekal sebagai cabaran. Pada masa ini, pendekatan yang menjanjikan adalah untuk menggabungkan tokenisasi berterusan modulariti untuk meningkatkan penyatuan sistem pada input dan output yang berbeza dan pelbagai tugas.

      • Interaktiviti pengguna

      Tidak seperti model sebelumnya yang memfokuskan pada tugas penglihatan tunggal (cth., Stable Diffusion dan SEEM), Vitron bertujuan untuk memudahkan interaksi mendalam antara LLM dan pengguna, serupa dengan OpenAI dalam industri siri DALL-E , Pertengahan, dsb. Mencapai interaktiviti pengguna yang optimum ialah salah satu matlamat teras kerja ini. Vitron memanfaatkan LLM berasaskan bahasa sedia ada, digabungkan dengan pelarasan arahan yang sesuai, untuk mencapai tahap interaktiviti tertentu. Sebagai contoh, sistem boleh bertindak balas secara fleksibel kepada sebarang input mesej yang dijangkakan oleh pengguna dan menghasilkan hasil operasi visual yang sepadan tanpa memerlukan input pengguna untuk sepadan dengan keadaan modul bahagian belakang. Walau bagaimanapun, kerja ini masih meninggalkan banyak ruang untuk penambahbaikan dari segi meningkatkan interaktiviti. Sebagai contoh, mendapat inspirasi daripada sistem Midjourney sumber tertutup, tidak kira apa keputusan yang dibuat oleh LLM pada setiap langkah, sistem harus secara aktif memberikan maklum balas kepada pengguna untuk memastikan tindakan dan keputusannya konsisten dengan niat pengguna.

      Keupayaan modal

      Pada masa ini, Vitron menyepadukan model 7B Vicuna, yang mungkin mempunyai had tertentu pada keupayaannya untuk memahami bahasa, imej dan video. Hala tuju penerokaan masa hadapan adalah untuk membangunkan sistem hujung ke hujung yang komprehensif, seperti mengembangkan skala model untuk mencapai pemahaman visi yang lebih teliti dan menyeluruh. Tambahan pula, usaha perlu dilakukan untuk membolehkan LLM menyatukan sepenuhnya pemahaman modaliti imej dan video.

Atas ialah kandungan terperinci Di bawah kepimpinan Yan Shuicheng, Institut Penyelidikan Global Kunlun Wanwei 2050 bersama-sama mengeluarkan Vitron dengan NUS dan NTU, mewujudkan bentuk muktamad model besar multimodal visual universal.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam