Rumah >Peranti teknologi >AI >ACL 2024 |. Penyelidikan audiovisual akademik terkemuka, Universiti Jiao Tong Shanghai, Universiti Tsinghua, Universiti Cambridge dan Shanghai AILAB bersama-sama mengeluarkan set data audiovisual akademik M3AV

ACL 2024 |. Penyelidikan audiovisual akademik terkemuka, Universiti Jiao Tong Shanghai, Universiti Tsinghua, Universiti Cambridge dan Shanghai AILAB bersama-sama mengeluarkan set data audiovisual akademik M3AV

WBOY
WBOYasal
2024-07-12 04:11:471088semak imbas
ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


Pengarang artikel ini adalah dari Universiti Shanghai Jiao Tong, Universiti Tsinghua, Universiti Cambridge dan Makmal Kepintaran Buatan Shanghai. Pengarang pertama, Chen Zhe, ialah pelajar PhD di Shanghai Jiao Tong University, belajar di bawah Profesor Wang Yu dari Sekolah Kecerdasan Buatan Universiti Shanghai Jiao Tong. Penulis yang sepadan ialah Profesor Wang Yu (laman utama: https://yuwangsjtu.github.io/) dan Profesor Zhang Chao dari Jabatan Kejuruteraan Elektronik Universiti Tsinghua (laman utama: https://mi.eng.cam.ac.uk /~cz277).

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

  • Pautan kertas: https://arxiv.org/abs/2403.14168
  • Laman utama projek: https://jack-zc8.github.io/M3AV
    Tajuk kertas: M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Akademik Dataset pengetahuan Kaedah dalam talian. Video ini mengandungi maklumat multimodal yang kaya, termasuk suara pembesar suara, ekspresi muka dan pergerakan badan, teks dan imej dalam slaid dan maklumat teks kertas yang sepadan. Pada masa ini terdapat
  • sangat sedikit set data yang boleh menyokong pengecaman kandungan berbilang mod secara serentak dan tugas pemahaman
  • , sebahagiannya disebabkan oleh kekurangan anotasi manusia yang berkualiti tinggi.
Kerja ini mencadangkan set data pertuturan akademik audio-visual baharu (M3AV) pelbagai mod, pelbagai jenis, pelbagai guna, yang mengandungi hampir 367 jam video daripada lima sumber, meliputi sains komputer, matematik, Perubatan dan Topik Biologi. Dengan anotasi manusia yang berkualiti tinggi, terutamanya entiti bernama bernilai tinggi, set data boleh digunakan untuk pelbagai tugas pengecaman dan pemahaman audio-visual. Penilaian tentang pengecaman pertuturan kontekstual, sintesis pertuturan, dan tugas penjanaan slaid dan skrip menunjukkan bahawa kepelbagaian M3AV menjadikannya set data yang mencabar. Kerja ini telah diterima oleh persidangan utama ACL 2024.
Maklumat set data

Data data M3AV terutamanya terdiri daripada bahagian berikut:

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV


Data data M3AV terutamanya terdiri daripada bahagian berikut:
akan disusun mengikut kedudukan kompleksnya s digabungkan.
2. Teks transkripsi pertuturan dalam bentuk lisan dan bertulis, termasuk kosa kata khas dan cap masa peringkat perkataan.
3. Teks kertas yang sepadan dengan video.

Seperti yang dapat dilihat daripada jadual di bawah, set data M3AV mengandungi
slaid, pertuturan dan sumber kertas beranotasi paling manual, jadi ia bukan sahaja menyokong
tugas pengecaman kandungan berbilang modal
, tetapi juga menyokong
lanjutan pengetahuan Memahami tugas
.

Pada masa yang sama, set data M3AV lebih kaya dengan kandungan berbanding set data akademik lain dalam semua aspek, dan ia juga merupakan sumber yang boleh diakses.
Tugas eksperimen

Set data M3AV direka bentuk dengan tiga tugas dalam persepsi dan pemahaman pelbagai mod, iaitu pengecaman pertuturan berasaskan konteks, sintesis pertuturan gaya spontan dan penjanaan slaid dan skrip.

Tugas 1: Pengecaman pertuturan berasaskan konteks

Model hujung ke hujung am mempunyai masalah dalam pengecaman perkataan yang jarang berlaku. Seperti yang dapat dilihat daripada model AED dan RNN-T dalam jadual di bawah, kadar ralat perkataan jarang (BWER) telah meningkat lebih daripada dua kali berbanding jumlah kadar ralat perkataan (WER). Dengan memanfaatkan maklumat OCR untuk pengecaman pertuturan berasaskan konteks menggunakan TCPGen, model RNN-T mencapai pengurangan relatif sebanyak 37.8% dan 34.2% dalam BWER pada set pembangunan dan ujian. . Penulis kertas kerja memperkenalkan MQTTS sebagai model eksperimen dan mendapati bahawa berbanding dengan pelbagai model pra-latihan, MQTTS mempunyai penunjuk penilaian terbaik. Ini menunjukkan bahawa pertuturan sebenar dalam set data M3AV boleh memacu sistem AI untuk mensimulasikan pertuturan yang lebih semula jadi.

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

Tugas 3: Penjanaan Slaid dan Skrip

Tugas Penjanaan Slaid dan Skrip (SSG) direka untuk mempromosikan pemahaman model AI dan membina semula proses penyelidikan akademik dengan cepat, dengan itu membantu proses penyelidikan akademik yang lebih maju mengulang bahan akademik untuk menjalankan penyelidikan akademik dengan berkesan. ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

Seperti yang dapat dilihat daripada jadual di bawah, peningkatan prestasi model sumber terbuka (LLaMA-2, InstructBLIP) adalah terhad apabila meningkat daripada 7B kepada 13B, ketinggalan daripada model sumber tertutup (GPT-4 dan GPT-4V ). Oleh itu, di samping meningkatkan saiz model, penulis kertas percaya bahawa data pra-latihan berbilang modal berkualiti tinggi juga diperlukan. Terutamanya, model besar multimodal termaju (GPT-4V) telah mengatasi model lata yang terdiri daripada berbilang model mod tunggal.

Selain itu, Retrieval Enhanced Generation (RAG) meningkatkan prestasi model dengan berkesan: Jadual di bawah menunjukkan bahawa teks kertas yang diperkenalkan juga meningkatkan kualiti slaid dan skrip yang dihasilkan.

Kesimpulan

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

Kerja ini mengeluarkan set data audiovisual (M3AV) pelbagai mod, pelbagai jenis, pelbagai guna yang merangkumi pelbagai bidang akademik. Set data mengandungi transkripsi pertuturan beranotasi manusia, slaid dan teks esei tambahan yang diekstrak, menyediakan asas untuk menilai keupayaan model AI untuk mengenali kandungan multimodal dan memahami pengetahuan akademik. Penulis kertas itu menerangkan proses penciptaan secara terperinci dan menjalankan pelbagai analisis pada set data. Tambahan pula, mereka membina penanda aras dan menjalankan berbilang eksperimen di sekitar set data. Akhirnya, pengarang kertas kerja mendapati bahawa model sedia ada masih mempunyai ruang untuk penambahbaikan dalam memahami dan memahami video kuliah akademik. ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

Antara muka anotasi separa

Atas ialah kandungan terperinci ACL 2024 |. Penyelidikan audiovisual akademik terkemuka, Universiti Jiao Tong Shanghai, Universiti Tsinghua, Universiti Cambridge dan Shanghai AILAB bersama-sama mengeluarkan set data audiovisual akademik M3AV. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn