Rumah >Peranti teknologi >AI >Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023
Dalam beberapa tahun kebelakangan ini, China Telecom terus bekerja keras ke arah teknologi kecerdasan buatan. Pada 28 November 2023, Cawangan Teknologi Perisikan Digital Telecom China secara rasmi menukar namanya kepada China Telecom Artificial Intelligence Technology Co., Ltd. (selepas ini dirujuk sebagai "Syarikat AI Telekom"). Pada tahun 2023, Syarikat AI Telecom memenangi anugerah berturut-turut dalam 21 pertandingan AI domestik dan asing yang terkemuka, memohon lebih daripada 100 paten, dan menerbitkan lebih daripada 30 kertas kerja dalam persidangan dan jurnal teratas seperti CVPR, ACM MM, dan ICCV, yang menunjukkan prestasi perusahaan pusat milik negara. Keputusan awal dalam bidang teknologi kecerdasan buatan
Sebagai sebuah syarikat profesional untuk China Telecom untuk menjalankan perniagaan kecerdasan buatan, Syarikat AI Telecom ialah perusahaan berasaskan teknologi, berasaskan keupayaan dan berasaskan platform. Syarikat itu komited untuk menakluki teknologi kecerdasan buatan teras, menyelidik teknologi termaju dan mempromosikan pengembangan ruang industri, bertujuan untuk menjadi penyedia perkhidmatan kecerdasan buatan peringkat puluhan bilion. Dalam dua tahun yang lalu, Syarikat AI Telecom telah berjaya membangunkan satu siri hasil aplikasi inovatif secara bebas, seperti Platform Pemerkasaan Gudang Algoritma AI Galaxy, Platform Kuasa Pengkomputeran Nebula AI Level 4 dan Model Besar Asas Universal Star. Kini, syarikat itu mempunyai lebih daripada 800 pekerja dengan purata umur 31 tahun, 80% daripadanya adalah kakitangan R&D, dan 70% daripada syarikat Internet utama dalam dan luar negara serta syarikat AI terkemuka. Untuk mempercepatkan kemajuan R&D dalam era model besar, syarikat itu mempunyai lebih daripada 2,500 kad latihan dengan kuasa pengkomputeran setara A100 dan lebih daripada 300 kakitangan anotasi data sepenuh masa. Pada masa yang sama, syarikat itu juga bekerjasama dengan institusi penyelidikan saintifik seperti Makmal Kepintaran Buatan Shanghai, Universiti Xi'an Jiaotong, Universiti Pos dan Telekomunikasi Beijing, dan Institut Penyelidikan Zhiyuan untuk bersama-sama mencipta teknologi dan teknologi kecerdasan buatan bertaraf dunia untuk China. 60 juta rangkaian video Telecom dan ratusan juta senario pengguna
Seterusnya, kami akan menyemak dan berkongsi beberapa hasil penyelidikan saintifik penting yang dicapai oleh syarikat AI telekomunikasi pada tahun 2023. Perkongsian ini akan memperkenalkan pencapaian teknikal pasukan algoritma CV Pusat R&D AI yang memenangi kejuaraan trek Penyetempatan Tindakan Temporal dalam acara ICCV 2023. ICCV adalah salah satu daripada tiga persidangan teratas dalam bidang visi komputer antarabangsa Ia diadakan setiap dua tahun dan mempunyai reputasi tinggi dalam industri. Artikel ini akan berkongsi idea dan penyelesaian algoritma yang diterima pakai oleh pasukan dalam cabaran ini
ICCV 2023 Ujian Persepsi Challenge-Time Action Juara Kedudukan Juara Perkongsian Teknologi
Gambaran keseluruhan pertandingan dan latar belakang pasukan
Cabaran ujian persepsi pertama ICCV 2023 yang dilancarkan oleh DeepMind bertujuan untuk menilai keupayaan model dalam mod video, audio dan teks. Pertandingan ini merangkumi empat bidang kemahiran, empat jenis penaakulan, dan enam tugas pengiraan untuk menilai secara menyeluruh keupayaan model persepsi pelbagai mod. Antaranya, tugas teras trek Penyetempatan Tindakan Temporal adalah untuk menjalankan pemahaman yang mendalam dan kedudukan tindakan yang tepat bagi kandungan video yang tidak diedit Teknologi ini sangat penting kepada pelbagai senario aplikasi seperti sistem pemanduan autonomi dan analisis pengawasan video
.Dalam pertandingan ini, pasukan yang mengambil bahagian adalah terdiri daripada ahli dari arah algoritma trafik syarikat AI telekomunikasi tersebut dipanggil CTCV. Syarikat AI Telekom telah menjalankan penyelidikan mendalam dalam bidang teknologi penglihatan komputer dan mengumpul pengalaman yang kaya. Pencapaian teknologinya telah digunakan secara meluas dalam banyak bidang perniagaan seperti tadbir urus bandar dan keselamatan lalu lintas, dan terus memberi perkhidmatan kepada sejumlah besar pengguna
Pengenalan adalah permulaan artikel dan bertujuan untuk menarik minat pembaca dan memberikan maklumat latar belakang. Pengenalan yang baik menarik perhatian pembaca, meringkaskan topik artikel, dan memberi inspirasi kepada pembaca untuk terus membaca. Semasa menulis pengenalan, anda perlu memberi perhatian kepada bahasa yang ringkas dan jelas serta kandungan yang tepat dan berkuasa. Tujuan pengenalan adalah untuk membimbing pembaca ke dalam topik artikel, jadi adalah perlu untuk memetik fakta, data atau soalan yang menimbulkan pemikiran yang relevan. Pendek kata, pengenalan adalah pintu masuk kepada artikel dan boleh memutuskan sama ada pembaca akan terus membaca
Masalah yang mencabar dalam pemahaman video ialah tugas menyetempatkan dan mengklasifikasikan tindakan dalam video, iaitu Temporal Action Localization (TAL)
Teknologi TAL telah mencapai kemajuan yang ketara baru-baru ini. Contohnya, TadTR dan ReAct mengguna pakai penyahkod berasaskan Transformer yang serupa dengan DETR untuk pengesanan tindakan, memodelkan contoh tindakan sebagai set yang boleh dipelajari. TallFormer menggunakan pengekod berasaskan Transformer untuk mengekstrak perwakilan video
Walaupun kaedah di atas telah mencapai hasil yang baik dalam penyetempatan tindakan temporal, terdapat beberapa batasan dalam keupayaan persepsi video. Untuk menyetempatkan contoh tindakan dengan lebih baik, perwakilan ciri video yang boleh dipercayai adalah penting. Pasukan kami mula-mula menggunakan rangka kerja VideoMAE-v2, menambahkan lapisan penyesuai+linear, melatih model ramalan kategori tindakan dengan dua rangkaian tulang belakang yang berbeza dan menggunakan lapisan sebelumnya lapisan klasifikasi model untuk mengekstrak ciri untuk tugas TAL. Seterusnya, kami melatih tugasan TAL menggunakan rangka kerja ActionFormer yang dipertingkatkan dan mengubah suai kaedah WBF untuk menyesuaikan diri dengan tugasan TAL. Pada akhirnya, kaedah kami mencapai peta 0.50 pada set penilaian, kedudukan pertama, 3 mata peratusan di hadapan pasukan tempat kedua dan 34 mata peratusan lebih tinggi daripada model garis dasar yang disediakan oleh Google DeepMind
2 Penyelesaian Pertandingan
Gambaran keseluruhan algoritma ditunjukkan dalam rajah di bawah:
2.1 Peningkatan Data
Dalam runut Penyetempatan Tindakan Temporal, set data yang digunakan oleh pasukan CTCV ialah video yang tidak dipangkas untuk penyetempatan tindakan, mempunyai peleraian tinggi dan mengandungi ciri berbilang tika tindakan. Dengan menganalisis set data, didapati set latihan kekurangan tiga label kategori berbanding set pengesahan. Untuk memastikan kecukupan pengesahan model dan memenuhi keperluan pertandingan, pasukan mengumpul sejumlah kecil data video dan menambahkannya pada set data latihan untuk memperkayakan sampel latihan. Pada masa yang sama, untuk memudahkan proses anotasi, setiap pratetap video hanya mengandungi satu tindakan
Sila rujuk sampel video yang dikumpul sendiri dalam Rajah 2
2.2 Pengecaman tindakan dan pengekstrakan ciri
Dalam beberapa tahun kebelakangan ini, banyak model asas berdasarkan latihan data berskala besar telah muncul Model ini menggunakan keupayaan generalisasi yang berkuasa bagi model asas kepada pelbagai tugas hiliran melalui pengecaman sampel sifar, pengesanan linear, penalaan halus segera, penalaan halus. dan kaedah lain, dengan berkesan Menggalakkan kemajuan dalam banyak aspek bidang kecerdasan buatan
Penyetempatan gerakan dan pengecaman dalam trek TAL sangat mencabar. Sebagai contoh, dua tindakan "berpura-pura mengoyakkan sesuatu" dan "mengoyakkan sesuatu" adalah sangat serupa, yang sudah pasti membawa cabaran yang lebih besar kepada tahap ciri. Oleh itu, kesan penggunaan terus model sedia ada yang terlatih untuk mengekstrak ciri adalah tidak ideal
Oleh itu, pasukan kami menukar set data TAL kepada set data pengecaman tindakan dengan menghuraikan fail anotasi JSON. Kemudian, kami menggunakan Vit-B dan Vit-L sebagai rangkaian tulang belakang, menambah lapisan penyesuai dan lapisan linear untuk pengelasan selepas rangkaian VideoMAE-v2 dan melatih pengelas tindakan dalam domain data yang sama. Kami juga mengalih keluar lapisan linear daripada model klasifikasi tindakan dan menggunakannya untuk pengekstrakan ciri video. Dimensi ciri model VitB ialah 768, manakala dimensi ciri model ViTL ialah 1024. Apabila kami menggabungkan kedua-dua ciri ini pada masa yang sama, kami menjana ciri baharu dengan dimensi 1792, yang akan digunakan sebagai alternatif untuk melatih model penyetempatan tindakan temporal. Pada peringkat awal latihan, kami mencuba ciri audio, tetapi keputusan percubaan mendapati bahawa indeks mAP merosot. Oleh itu, dalam percubaan seterusnya, kami tidak mengambil kira ciri audio
2.3 Kedudukan tindakan berurutan
Actionformer ialah model bebas sauh yang direka dengan kedudukan tindakan mengikut masa. Ia menggabungkan ciri berbilang skala dan perhatian kendiri tempatan dalam dimensi temporal. Dalam pertandingan ini, pasukan CTCV memilih Actionformer sebagai model penanda aras untuk kedudukan tindakan, yang digunakan untuk meramalkan sempadan (masa mula dan tamat) dan kategori kejadian tindakan
Pasukan CTCV pemprosesan bersatu regresi sempadan tindakan dan tugas klasifikasi tindakan. Berbanding dengan struktur latihan asas, ciri video mula-mula dikodkan ke dalam Transformer berskala. Kemudian lapisan piramid ciri diperkenalkan dalam cabang utama regresi dan klasifikasi model untuk meningkatkan keupayaan ekspresi ciri rangkaian Cawangan kepala setiap langkah masa menjana calon tindakan. Pada masa yang sama, dengan menambah bilangan kepala kepada 32 dan memperkenalkan struktur fpn1D, kedudukan dan keupayaan pengecaman model dipertingkatkan lagi
1-D's 2.4 WBF
Weighted Boxes Fusion (WBF) ialah kaedah gabungan bingkai pengesanan yang inovatif. Kaedah ini menggunakan keyakinan semua bingkai pengesanan untuk membina bingkai ramalan akhir dan menunjukkan hasil yang baik dalam pengesanan sasaran imej. Tidak seperti kaedah NMS dan soft-NMS, gabungan kotak berwajaran tidak membuang sebarang ramalan, tetapi menggunakan skor keyakinan semua kotak sempadan yang dicadangkan untuk membina kotak purata. Kaedah ini meningkatkan ketepatan meramal segi empat tepat
Diinspirasikan oleh WBF, pasukan CTCV menganalogikan kotak sempadan satu dimensi tindakan kepada segmen garisan satu dimensi dan mengubah suai kaedah WBF untuk menjadikannya sesuai untuk tugasan TAL. Keputusan eksperimen menunjukkan keberkesanan kaedah ini, seperti yang ditunjukkan dalam Rajah 3
Rajah WBF satu dimensi yang dipertingkatkan ditunjukkan dalam Rajah 3
3 hasil percubaan
3.1 Penunjuk penilaian. Kriteria penilaian
Metrik penilaian ialah mAP, yang digunakan untuk cabaran ini. mAP ditentukan dengan mengira ketepatan purata merentas kategori tindakan yang berbeza dan ambang IoU. Pasukan CTCV menilai ambang IoU dalam kenaikan 0.1, antara 0.1 hingga 0.5
3.2 Butiran eksperimen ditulis semula seperti berikut:
Untuk mendapatkan model yang pelbagai, pasukan CTCV menyampel semula 80% set data latihan, sebanyak 5 kali. Ciri-ciri Vit-B, Vit-L dan concat telah digunakan untuk latihan model, dan 15 model pelbagai telah berjaya diperolehi. Akhir sekali, keputusan penilaian model ini adalah input kepada modul WBF, dan berat gabungan yang sama diberikan kepada setiap hasil model
Hasil eksperimen adalah seperti berikut:
Perbandingan prestasi ciri yang berbeza ditunjukkan dalam Jadual 1. Baris pertama dan kedua menunjukkan keputusan menggunakan ciri ViT-B dan ViT-L. Baris ketiga menunjukkan hasil lata ciri ViT-B dan ViT-L
Semasa percubaan, pasukan CTCV mendapati bahawa purata ketepatan (mAP) ciri lata adalah lebih rendah sedikit daripada ViT-L, tetapi masih lebih baik daripada ViT-B. Namun begitu, melalui prestasi pelbagai kaedah pada set pengesahan, kami menggabungkan hasil ramalan ciri yang berbeza dalam set penilaian dengan bantuan WBF, dan akhirnya mAP yang diserahkan kepada sistem ialah 0.50
Isi kandungan yang perlu ditulis semula ialah: 4 Kesimpulan
Pasukan CTCV menggunakan beberapa strategi untuk meningkatkan prestasi dalam pertandingan ini. Pertama, mereka menambah data latihan dengan kelas yang hilang dalam set pengesahan melalui pengumpulan data. Kedua, mereka menggunakan rangka kerja VideoMAE-v2 untuk menambah lapisan penyesuai untuk melatih pengekstrak ciri video, dan melatih tugas TAL melalui rangka kerja ActionFormer yang dipertingkatkan. Tambahan pula, mereka mengubah suai kaedah WBF untuk menggabungkan keputusan ujian dengan cekap. Pada akhirnya, pasukan CTCV mencapai peta 0.50 pada set penilaian, kedudukan pertama. Syarikat AI Telekom sentiasa berpegang kepada falsafah pembangunan "teknologi datang daripada perniagaan dan pergi ke perniagaan". Mereka menganggap pertandingan sebagai platform penting untuk menguji dan meningkatkan keupayaan teknikal, dan terus mengoptimumkan dan menambah baik penyelesaian teknikal melalui penyertaan dalam pertandingan untuk menyediakan pelanggan dengan perkhidmatan berkualiti tinggi. Pada masa yang sama, menyertai pertandingan itu juga menyediakan peluang pembelajaran dan pertumbuhan yang berharga untuk ahli pasukan
Atas ialah kandungan terperinci Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!