Rumah >Peranti teknologi >AI >Penyelidikan multimodal ACM MM2024 |. NetEase Fuxi mendapat pengiktirafan antarabangsa sekali lagi, mempromosikan penemuan baharu dalam pemahaman merentas mod dalam bidang tertentu

Penyelidikan multimodal ACM MM2024 |. NetEase Fuxi mendapat pengiktirafan antarabangsa sekali lagi, mempromosikan penemuan baharu dalam pemahaman merentas mod dalam bidang tertentu

王林asal: 2024-08-07 20:16:121207semak imbas

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

1. Persidangan Antarabangsa ACM mengenai Multimedia (ACM MM) ke-32 mengumumkan keputusan penerimaan kertas, hasil penyelidikan terbaru NetEase Fuxi "Pemilihan dan Pembinaan Semula Penduduk Utama: Kaedah Mendapatkan Imej-Teks Domain Khusus Novel" telah dipilih.

Hala tuju penyelidikan kertas ini melibatkan pra-latihan bahasa visual (VLP), imej rentas mod dan perolehan teks (CMITR) dan bidang lain. Pemilihan ini menandakan pengiktirafan antarabangsa semula keupayaan berbilang modal NetEase Fuxi Lab Pada masa ini, teknologi yang berkaitan telah digunakan untuk pembantu pintar berbilang modal NetEase Fuxi yang dibangunkan sendiri "Dan Qing Yue".
ACM MM telah dimulakan oleh Association for Computing Machinery (ACM) Ia adalah persidangan antarabangsa teratas yang paling berpengaruh dalam bidang pemprosesan multimedia, analisis dan pengkomputeran Ia juga merupakan persidangan akademik antarabangsa Kelas A dalam bidang multimedia oleh Persekutuan Komputer China. Sebagai persidangan teratas dalam bidang ini, ACM MM telah mendapat perhatian meluas daripada pengilang dan sarjana terkenal di dalam dan luar negara. ACM MM tahun ini menerima sejumlah 4385 manuskrip yang sah, di mana 1149 telah diterima oleh persidangan itu, dengan kadar penerimaan 26.20%.
Sebagai institusi penyelidikan kecerdasan buatan terkemuka di China, NetEase Fuxi telah mengumpul hampir enam tahun pengalaman dalam penyelidikan model berskala besar, mempunyai algoritma yang kaya dan pengalaman kejuruteraan, dan telah mencipta berdozen teks dan Model pra-latihan pelbagai mod termasuk model besar untuk pemahaman dan penjanaan teks, model besar untuk pemahaman imej dan teks, model besar untuk penjanaan imej dan teks, dsb. Pencapaian ini bukan sahaja menggalakkan penggunaan model besar secara berkesan dalam bidang permainan, tetapi juga meletakkan asas yang kukuh untuk pembangunan keupayaan pemahaman silang modal. Keupayaan pemahaman merentas mod membantu untuk mengintegrasikan pelbagai pengetahuan domain dengan lebih baik dan menyelaraskan modaliti data dan maklumat yang kaya.

Atas dasar ini, NetEase Fuxi terus berinovasi berdasarkan model besar pemahaman imej dan teks, dan mencadangkan kaedah capaian silang modal berdasarkan pemilihan dan pembinaan semula maklumat tempatan utama untuk menyelesaikan masalah teks imej dalam bidang tertentu untuk ejen multi-modal isu-isu Interaksi meletakkan asas teknikal.

Berikut ialah ringkasan kertas yang dipilih:

"Pemilihan dan Pembinaan Semula Penduduk Utama: Kaedah Pengambilan Imej-Teks Domain Khusus Novel"

Pemilihan dan Pembinaan Semula Maklumat Tempatan Utama: Pengambilan Imej dan Teks Domain Khusus Novel Kaedah

Kata kunci: maklumat tempatan utama, terperinci, boleh ditafsir

Bidang yang terlibat: pra-latihan bahasa visual (VLP), imej rentas mod dan perolehan teks (CMITR)

Dalam beberapa tahun kebelakangan ini, dengan pra-latihan bahasa visual latihan (Vision- Dengan peningkatan model Language Pretraining (VLP), kemajuan ketara telah dicapai dalam bidang Cross-Modal Image-Text Retrieval (CMITR). Walaupun model VLP seperti CLIP berprestasi baik dalam tugas CMITR umum domain, prestasinya sering kali gagal dalam Pengambilan Teks Imej Domain Khusus (SDITR). Ini kerana domain khusus selalunya mempunyai ciri data unik yang membezakannya daripada domain umum.

Dalam domain tertentu, imej mungkin mempamerkan tahap persamaan visual yang tinggi antara mereka, manakala perbezaan semantik cenderung menumpukan pada butiran tempatan utama, seperti kawasan objek tertentu dalam imej atau perkataan yang bermakna dalam teks. Malah perubahan kecil dalam segmen tempatan ini boleh memberi impak yang besar pada keseluruhan kandungan, menonjolkan kepentingan maklumat tempatan yang kritikal ini. Oleh itu, SDITR memerlukan model untuk memfokuskan pada serpihan maklumat tempatan utama untuk meningkatkan ekspresi imej dan ciri teks dalam ruang perwakilan dikongsi, dengan itu meningkatkan ketepatan penjajaran antara imej dan teks.

Topik ini meneroka aplikasi model pra-latihan bahasa visual dalam tugas mendapatkan semula teks imej dalam bidang tertentu, dan mengkaji isu penggunaan ciri tempatan dalam tugas mendapatkan semula teks imej dalam bidang tertentu. Sumbangan utama adalah untuk mencadangkan kaedah untuk mengeksploitasi maklumat tempatan yang diskriminatif untuk mengoptimumkan penjajaran imej dan teks dalam ruang perwakilan yang dikongsi.

Untuk tujuan ini, kami mereka bentuk rangka kerja pemilihan dan pembinaan semula maklumat tempatan utama yang eksplisit dan strategi pembinaan semula segmen tempatan yang utama berdasarkan interaksi pelbagai mod Kaedah ini menggunakan maklumat tempatan yang diskriminatif secara berkesan, dengan itu meningkatkan imej dan meluas dan mencukupi dengan ketara. eksperimen tentang kualiti penjajaran teks dalam ruang kongsi menunjukkan kemajuan dan keberkesanan strategi yang dicadangkan.

Terima kasih kepada Makmal IPIU Universiti Sains dan Teknologi Elektronik Xi'an atas sokongan padu dan sumbangan penyelidikan yang penting kepada kertas kerja ini.

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

此项研究成果不仅标志着网易伏羲在多模态研究领域再次取得重要突破，也为特定领域的跨模态理解提供了全新的视角和技术支撑。优化图像与文本在特定场景下的交互准确度，这项工作为跨模态理解技术在实际应用场景中的提升奠定了坚实的基础。
目前，网易伏羲的多模态理解能力已在网易集团的多个业务部门得到广泛应用，包括网易雷火、网易云音乐、网易元气等。这些应用覆盖了诸如游戏创新性文字捏脸玩法、跨模态资源搜索、个性化内容推荐等多种场景，展现了巨大的业务价值。
未来，随着研究的深入与技术进步，该成果有望促进人工智能技术在教育、医疗、电子商务等多个行业的广泛应用，为用户提供更加个性化和智能化的服务体验。网易伏羲也将持续深化与国内外顶尖学术机构的交流与合作，在更多前沿研究领域展开深入探索，共同推动人工智能技术的发展，为构建一个更高效、更智能的社会贡献力量。
扫描下方二维码，立即体验“丹青约”，享受“更懂你”的图文并茂的多模交互体验！

ACM MM2024 | 网易伏羲多模态研究再获国际认可，推动特定领域跨模态理解新突破

Atas ialah kandungan terperinci Penyelidikan multimodal ACM MM2024 |. NetEase Fuxi mendapat pengiktirafan antarabangsa sekali lagi, mempromosikan penemuan baharu dalam pemahaman merentas mod dalam bidang tertentu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

对象算法人工智能重构

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Jika anda rasa Python lambat, penganalisis AI ini akan membantu anda mengesan dan mencadangkan pengoptimuman, dan memenangi kertas terbaik dalam OSDIArtikel seterusnya：Jika anda rasa Python lambat, penganalisis AI ini akan membantu anda mengesan dan mencadangkan pengoptimuman, dan memenangi kertas terbaik dalam OSDI

Artikel berkaitan

Lihat lagi