cari
RumahPeranti teknologiAI2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Sejak kebelakangan ini, pembantu dialog AI telah mencapai kemajuan yang besar dalam tugas bahasa. Peningkatan ketara ini bukan sahaja berdasarkan keupayaan generalisasi LLM yang kukuh, tetapi juga harus dikaitkan dengan penalaan arahan. Ini melibatkan penalaan halus LLM pada pelbagai tugas melalui pengajaran yang pelbagai dan berkualiti tinggi.

Satu sebab yang berpotensi untuk mencapai prestasi tangkapan sifar dengan penalaan arahan ialah ia menghayati konteks. Ini penting terutamanya apabila input pengguna melangkau konteks akal. Dengan menggabungkan penalaan arahan, LLM memperoleh tahap pemahaman yang tinggi tentang niat pengguna dan mempamerkan keupayaan sifar pukulan yang lebih baik walaupun dalam tugas yang tidak kelihatan sebelum ini.

Walau bagaimanapun, pembantu perbualan AI yang ideal seharusnya dapat menyelesaikan tugasan yang melibatkan pelbagai modaliti. Ini memerlukan mendapatkan arahan multimodal yang pelbagai dan berkualiti tinggi berikutan set data. Contohnya, set data LLaVAInstruct-150K (juga dikenali sebagai LLaVA) ialah arahan visual-verbal yang biasa digunakan berikut set data, yang menggunakan imej COCO, arahan dan respons berdasarkan kapsyen imej dan kotak sempadan sasaran yang diperoleh daripada GPT-4 Constructed. Walau bagaimanapun, LLaVA-Instruct-150K mempunyai tiga had: kepelbagaian visual terhad;

Untuk mempromosikan pembantu dialog AI untuk menembusi batasan ini, sarjana dari Universiti Teknologi Nanyang di Singapura dan Microsoft Research Redmond mencadangkan set data penalaan arahan kontekstual pelbagai mod MIMIC-IT , set data yang mengandungi 2.8 juta pasangan arahan-tindak balas konteks pelbagai mod, meliputi pelbagai senario kehidupan sebenar.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Alamat kertas: https://arxiv.org/pdf/2306.05425.pdf

Di samping itu, untuk menjana pasangan tindak balas arahan dengan cekap, para penyelidik juga memperkenalkan "Sythus", saluran paip automatik bagi anotasi arahan-tindak balas yang diilhamkan oleh kaedah arahan kendiri. Sythus menggunakan maklumat sistem, anotasi visual dan contoh dalam konteks untuk membimbing model bahasa (GPT-4 atau ChatGPT) untuk menjana pasangan arahan-tindak balas berdasarkan konteks visual, menyasarkan tiga keupayaan asas model bahasa visual: persepsi, penaakulan dan perancangan. Selain itu, arahan dan respons bahasa Inggeris diterjemahkan ke dalam tujuh bahasa untuk menyokong penggunaan berbilang bahasa.

Adalah wajar diberi perhatian bahawa para penyelidik melatih model berbilang mod "Otter" berdasarkan OpenFlamingo pada MIMIC-IT. Dinilai pada kedua-dua ChatGPT dan manusia, keupayaan multimodal Otter mengatasi model bahasa visual terkini yang lain.

Dalam satu siri demo, penyelidik menunjukkan keupayaan soalan dan jawapan pelbagai mod Otter:

S: Kad manakah yang akan dimainkan seterusnya? ?

J: Lapan tiub. Dengan cara ini anda boleh mengekalkan empat dan lima menunggu lurus.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

S: Saya mahu mendarat, apa yang perlu saya lakukan?

J: Tekan butang kiri bawah sekali untuk membelok ke kiri, dan tarik brek tangan di sebelah kanan apabila anda ingin mendarat.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

S: Apa seterusnya?

J: Hantar bola ke tengah, lari ke gawang, dan cari peluang menjaringkan gol.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Seterusnya, mari lihat butiran kajian.

Set Data MIMIC-IT

Set Data MIMIC-IT merangkumi 2.8 juta pasangan arahan-tindak balas pelbagai mod meliputi keupayaan asas: persepsi, penaakulan dan perancangan. Setiap arahan disertakan dengan konteks perbualan pelbagai mod, membolehkan VLM dilatih pada MIMIC-IT untuk menunjukkan kecekapan yang baik dalam arahan interaktif dan melakukan generalisasi sifar pukulan.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Berbanding dengan LLaVA, ciri-ciri MIMIC-IT termasuk:

(1) Pemandangan visual yang pelbagai, termasuk imej dan video daripada set data yang berbeza seperti adegan umum, adegan egosentrik dan imej RGB-D dalaman

(2) Lagi Satu imej (atau; video) sebagai data visual;

(3) Maklumat kontekstual berbilang modal, termasuk berbilang pasangan tindak balas arahan dan berbilang imej atau video

(4) Menyokong lapan bahasa, termasuk Inggeris, Cina, Sepanyol, Jepun, Perancis, Jerman, Korea dan Arab.

Rajah berikut menunjukkan lagi perbandingan arahan-tindak balas kedua-duanya (kotak kuning ialah LLaVA):

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Seperti yang ditunjukkan dalam Jadual 1, sumber data MIMIC-IT datang daripada tujuh set data: COCO, Spot-the-diff (SD), ScanNetV2 (SN), VisualStorytelling (VIST), DenseCaption /Kapsyen aktiviti (DC), TVCaption (TVC) dan Ego4D (E4D). "lang." dalam lajur "Konteks" mewakili bahasa, dan "vis."

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di siniSythus: Talian penjanaan pasangan arahan-tindak balas automatik

Pada masa yang sama, penyelidik mencadangkan Sythus (Rajah 3), iaitu Saluran paip automatik untuk menjana pasangan tindak balas arahan berkualiti tinggi dalam berbilang bahasa. Berdasarkan rangka kerja yang dicadangkan oleh LLaVA, penyelidik menggunakan ChatGPT untuk menjana pasangan arahan-tindak balas berdasarkan kandungan visual. Untuk memastikan kualiti pasangan arahan-tindak balas yang dijana, saluran paip menggunakan maklumat sistem, anotasi visual dan sampel dalam konteks sebagai gesaan untuk ChatGPT. Maklumat sistem mentakrifkan nada dan gaya yang dijangkakan bagi pasangan arahan-tindak balas yang dijana, manakala anotasi visual menyediakan maklumat imej asas seperti kotak sempadan dan penerangan imej. Contoh dalam konteks membantu ChatGPT belajar dalam konteks.

Memandangkan kualiti set teras akan mempengaruhi proses pengumpulan data seterusnya, para penyelidik menggunakan strategi permulaan yang dingin untuk mengukuhkan sampel dalam konteks sebelum pertanyaan berskala besar. Semasa fasa permulaan sejuk, pendekatan heuristik digunakan untuk menggesa ChatGPT mengumpul sampel dalam konteks hanya melalui maklumat sistem dan anotasi visual. Fasa ini tamat hanya selepas sampel dalam konteks yang memuaskan telah dikenal pasti. Dalam langkah keempat, setelah pasangan arahan-tindak balas diperoleh, saluran paip mengembangkannya ke dalam bahasa Cina (zh), Jepun (ja), Sepanyol (es), Jerman (de), Perancis (fr), Korea (ko) dan Arab (ar). Butiran lanjut boleh didapati dalam Lampiran C, dan gesaan tugas khusus boleh didapati dalam Lampiran D.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Penilaian Empirikal

Kemudian, penyelidik menunjukkan pelbagai aplikasi dan keupayaan potensi model bahasa visual (VLM) dilatih untuk mereka. Pertama, penyelidik memperkenalkan Otter, model penalaan arahan kontekstual yang dibangunkan menggunakan dataset MIMIC-IT. Para penyelidik kemudian meneroka pelbagai kaedah melatih Otter pada dataset MIMIC-IT dan membincangkan pelbagai senario di mana Otter boleh digunakan dengan berkesan.

Rajah 5 ialah contoh tindak balas Otter dalam senario yang berbeza. Terima kasih kepada latihan mengenai set data MIMIC-IT, Otter mampu menyampaikan pemahaman dan penaakulan situasi, pembelajaran sampel kontekstual dan pembantu visual yang egosentrik.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Akhir sekali, penyelidik menjalankan analisis perbandingan prestasi Otter dengan VLM lain dalam satu siri ujian penanda aras.

Penilaian ChatGPT

Jadual 2 di bawah menunjukkan penilaian penyelidik terhadap model bahasa visual menggunakan rangka kerja MMAGIBench [43 ] Kebolehan persepsi dan penaakulan dinilai secara meluas.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Penilaian Manusia

Multi-Modaliti Arena [32] menggunakan sistem penilaian Elo untuk menilai kegunaan dan ketekalan respons VLM. Rajah 6(b) menunjukkan bahawa Otter menunjukkan kepraktisan dan konsistensi yang unggul, mencapai penarafan Elo tertinggi dalam VLM terkini.

Penilaian tanda aras pembelajaran kontekstual beberapa pukulan

Berang-berang diperhalusi berdasarkan OpenFlamingo, alat yang direka untuk multi-modal Seni bina yang direka untuk pembelajaran konteks dinamik. Selepas penalaan halus menggunakan set data MIMIC-IT, Otter mengungguli OpenFlamingo dengan ketara pada penilaian COCO Captioning (CIDEr) [27] (lihat Rajah 6 (c)). Seperti yang dijangkakan, penalaan halus juga membawa keuntungan prestasi kecil pada penilaian sampel sifar.

2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini

Rajah 6: Penilaian pemahaman video ChatGPT.

Bincangkan

kelemahan. Walaupun penyelidik telah menambah baik mesej sistem dan contoh tindak balas perintah secara berulang, ChatGPT terdedah kepada halusinasi bahasa, jadi ia mungkin menghasilkan respons yang salah. Selalunya, model bahasa yang lebih dipercayai memerlukan penjanaan data arahan sendiri.

Masa depan kerja. Pada masa hadapan, penyelidik merancang untuk menyokong set data AI yang lebih khusus, seperti LanguageTable dan SayCan. Penyelidik juga sedang mempertimbangkan untuk menggunakan model bahasa atau teknik penjanaan yang lebih boleh dipercayai untuk menambah baik set arahan.

Atas ialah kandungan terperinci 2.8 juta pasangan tindak balas arahan berbilang mod, biasa dalam lapan bahasa, set data arahan pertama yang meliputi kandungan video MIMIC-IT ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Alat panggilan di LLMSAlat panggilan di LLMSApr 14, 2025 am 11:28 AM

Model bahasa yang besar (LLMS) telah melonjak populariti, dengan ciri-ciri alat yang secara dramatik memperluaskan keupayaan mereka di luar penjanaan teks mudah. Sekarang, LLMS dapat mengendalikan tugas automasi yang kompleks seperti penciptaan UI dinamik dan autonomi a

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalBagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan globalApr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Input PBB pada AI: Pemenang, Losers, dan PeluangInput PBB pada AI: Pemenang, Losers, dan PeluangApr 14, 2025 am 11:25 AM

"Sejarah telah menunjukkan bahawa walaupun kemajuan teknologi memacu pertumbuhan ekonomi, ia tidak sendiri memastikan pengagihan pendapatan yang saksama atau menggalakkan pembangunan manusia yang inklusif," tulis Rebeca Grynspan, Setiausaha Agung Unctad, dalam Mukadimah.

Kemahiran rundingan pembelajaran melalui AI generatifKemahiran rundingan pembelajaran melalui AI generatifApr 14, 2025 am 11:23 AM

Easy-peasy, gunakan AI Generatif sebagai tutor rundingan dan rakan kongsi sparring anda. Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menjelaskan

Ted mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaTed mendedahkan dari Openai, Google, Meta Heads to Court, selfie dengan diri sayaApr 14, 2025 am 11:22 AM

Persidangan TED2025, yang diadakan di Vancouver, membungkus edisi ke -36 semalam, 11 April. Ia menampilkan 80 penceramah dari lebih daripada 60 negara, termasuk Sam Altman, Eric Schmidt, dan Palmer Luckey. Tema Ted, "Kemanusiaan Reimagined," telah disesuaikan dibuat

Joseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIJoseph Stiglitz memberi amaran tentang ketidaksamaan yang menjulang di tengah -tengah kuasa monopoli AIApr 14, 2025 am 11:21 AM

Joseph Stiglitz adalah ahli ekonomi yang terkenal dan penerima Hadiah Nobel dalam Ekonomi pada tahun 2001. Stiglitz berpendapat bahawa AI dapat memburukkan lagi ketidaksamaan dan kuasa yang disatukan di tangan beberapa syarikat dominan, akhirnya menjejaskan ekonomi

Apakah pangkalan data graf?Apakah pangkalan data graf?Apr 14, 2025 am 11:19 AM

Pangkalan Data Graf: Merevolusi Pengurusan Data Melalui Hubungan Apabila data berkembang dan ciri -cirinya berkembang di pelbagai bidang, pangkalan data grafik muncul sebagai penyelesaian transformatif untuk menguruskan data yang saling berkaitan. Tidak seperti tradisional

LLM Routing: Strategi, Teknik, dan Pelaksanaan PythonLLM Routing: Strategi, Teknik, dan Pelaksanaan PythonApr 14, 2025 am 11:14 AM

Routing Model Besar (LLM): Mengoptimumkan Prestasi melalui Pengedaran Tugas Pintar Landskap LLM yang pesat berkembang membentangkan pelbagai model, masing -masing dengan kekuatan dan kelemahan yang unik. Beberapa cemerlang di Gen Kandungan Kreatif

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa