Rumah >Peranti teknologi >AI >CVPR 2024 |. Byte mencadangkan set data COCONut generasi baharu, yang lebih padat daripada segmentasi berbutir COCO

CVPR 2024 |. Byte mencadangkan set data COCONut generasi baharu, yang lebih padat daripada segmentasi berbutir COCO

王林
王林ke hadapan
2024-04-22 16:20:121233semak imbas
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Dengan perkembangan kecerdasan buatan, model bahasa dan model generatif telah mencapai banyak kejayaan, dan dalam proses mereka bentuk model, bilangan parameter model juga semakin meningkat. Untuk tugas pemahaman yang terperinci, bilangan parameter model juga semakin meningkat. Walau bagaimanapun, terdapat percanggahan antara skala dan ketepatan dalam set data sedia ada, contohnya, 99.1% daripada topeng dalam set data SA-1B adalah dijana oleh mesin, tetapi tiada label semantik yang lain juga mempunyai ketepatan masalah, dan ini Saiz set data secara amnya agak kecil.

Baru-baru ini, ByteDance mencadangkan set data pemahaman terperinci generasi baharu Sebagai tindak balas kepada keperluan reka bentuk model pembelajaran mendalam kontemporari, sejumlah 383K imej telah diberi anotasi secara manual untuk pembahagian panorama, dan akhirnya mencapai 5.18M. Topeng Zhang ialah set data pemahaman segmentasi panorama terbesar dengan label buatan setakat ini, dinamakan COCONut. Keputusan ini telah dipilih untuk CVPR2024.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • Pautan kertas: https://arxiv.org/abs/2404.08639
  • Pautan kod dan set data: https://xdeng7.github.io/coconut.github.io/coconut.github.
    /
Video menunjukkan kepadatan topeng dan statistik kategori semantik bagi imej tunggal COCONut Dapat dilihat bahawa semantik set data adalah kaya dan butiran pembahagian topeng adalah baik. Set data juga menyokong pelbagai tugas pemahaman, seperti pembahagian panoramik, pembahagian contoh, pembahagian semantik, pengesanan objek, penjanaan dikawal secara semantik dan pembahagian kosa kata terbuka, mencapai peningkatan prestasi yang ketara pada berbilang tugas hanya dengan menggantikan set data.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集Kaedah anotasi

Biasanya hanya menggunakan anotasi manual adalah sangat mahal, yang juga merupakan sebab penting mengapa kebanyakan set data awam sedia ada tidak boleh meningkat dalam skala. Terdapat juga beberapa set data yang secara langsung menggunakan label yang dijana oleh model, tetapi selalunya label yang dijana sedemikian tidak akan meningkatkan latihan model dengan ketara. Artikel ini juga mengesahkan perkara ini. Oleh itu, kertas kerja ini mencadangkan kaedah anotasi baru, digabungkan dengan penjanaan label separa automatik manual. Ia bukan sahaja dapat memastikan ketepatan anotasi data, tetapi juga menjimatkan kos buruh manual, di samping mempercepatkan proses anotasi.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集Perbandingan ketepatan anotasi

Para penyelidik membandingkan anotasi COCONut dan COCO pada gambar yang sama. Daripada perbandingan dalam rajah di bawah, kita dapat melihat bahawa kaedah anotasi yang dicadangkan dalam artikel ini mencapai ketepatan yang hampir sama dengan anotasi manual semata-mata menggunakan Photoshop, tetapi kelajuan anotasi meningkat lebih daripada 10 kali ganda.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集Butiran set data COCONut

Berbanding set data COCO sedia ada, taburan setiap kategori set data adalah agak serupa, tetapi jumlah keseluruhan topeng CO dalam setiap gambar set data, terutamanya apabila terdapat sejumlah besar imej tunggal dengan lebih daripada 100 topeng, yang menunjukkan bahawa anotasi COCONut lebih halus dan pembahagian berbutir lebih padat.
Pengesahan eksperimen

Selain mencadangkan set latihan yang lebih baik, penyelidik juga mendapati set pengesahan sedia ada tidak dapat mencerminkan peningkatan prestasi model, jadi artikel ini juga mencadangkan set ujian yang lebih mencabar. boleh mencerminkan penambahbaikan model dinamakan COCONut-val Seperti yang dapat dilihat daripada jadual di bawah, hanya menggantikan set data dan set latihan ketepatan yang lebih tinggi boleh membawa peningkatan yang hebat dalam model, seperti mencapai lebih daripada 4 in. pembahagian panoramik A titik PQ. Walau bagaimanapun, apabila saiz set latihan meningkat, boleh didapati bahawa ujian dengan set ujian sedia ada tidak mencerminkan peningkatan model, manakala COCONut-val boleh mencerminkan bahawa model masih mempunyai peningkatan yang jelas selepas meningkatkan jumlah latihan menetapkan data.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Rajah berikut menunjukkan perbandingan kategori semantik dan ketumpatan topeng set pengesahan Ia dapat dilihat bahawa set pengesahan yang baru dicadangkan adalah lebih mencabar dan boleh mencerminkan penambahbaikan model.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Untuk lebih banyak hasil percubaan, sila rujuk kertas asal Pasukan akan menyediakan set data dan model yang sepadan untuk muat turun awam di halaman utama GitHub.

ByteDance Intelligent Creation Team

Pasukan Penciptaan Pintar ialah ByteDance AI & pasukan teknologi multimedia, meliputi penglihatan komputer, pemprosesan audio dan video khas serta penyuntingan teknikal yang lain Senario perniagaan yang kaya, sumber infrastruktur dan suasana kerjasama teknikal merealisasikan gelung tertutup algoritma canggih - sistem kejuruteraan - produk, bertujuan untuk menyediakan pemahaman kandungan terkemuka industri, penciptaan kandungan dan interaksi untuk pelbagai perniagaan dalam syarikat dalam pelbagai bentuk . Keupayaan pengalaman dan penggunaan serta penyelesaian industri.

Pada masa ini, pasukan penciptaan pintar telah membuka keupayaan teknikal dan perkhidmatannya kepada perusahaan melalui Volcano Engine, platform perkhidmatan awan yang dimiliki oleh ByteDance. Lebih banyak kedudukan yang berkaitan dengan algoritma model besar sedang dibuka.

Atas ialah kandungan terperinci CVPR 2024 |. Byte mencadangkan set data COCONut generasi baharu, yang lebih padat daripada segmentasi berbutir COCO. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam