Penyelidikan terkini oleh Meta AI dan Universiti Amsterdam telah menunjukkan bahawa transformer, seni bina rangkaian saraf yang popular, boleh beroperasi secara langsung pada piksel individu imej tanpa bergantung pada kecenderungan induktif lokaliti yang terdapat dalam kebanyakan model penglihatan komputer moden.
Meta AI dan penyelidik dari Universiti Amsterdam telah menunjukkan bahawa transformer, seni bina rangkaian saraf yang popular, boleh beroperasi secara langsung pada piksel individu bagi imej, tanpa bergantung pada kecenderungan induktif lokaliti yang terdapat dalam kebanyakan model penglihatan komputer moden.
Mereka kajian, bertajuk "Transformers on Individual Pixels," mencabar kepercayaan yang telah lama dipegang bahawa lokaliti – tanggapan bahawa piksel jiran lebih berkaitan berbanding piksel yang jauh – merupakan keperluan asas untuk tugas penglihatan.
Secara tradisinya, seni bina penglihatan komputer seperti Rangkaian Neural Konvolusi (ConvNets) dan Vision Transformers (ViTs) telah menggabungkan kecenderungan lokaliti melalui teknik seperti kernel convolutional, operasi pengumpulan dan patchifikasi, dengan mengandaikan piksel jiran lebih berkaitan.
Sebaliknya, penyelidik memperkenalkan Pixel Transformers (PiTs), yang merawat setiap piksel sebagai token individu, mengalih keluar sebarang andaian tentang struktur grid 2D imej. Anehnya, PiT mencapai hasil berprestasi tinggi merentas pelbagai tugas.
Sebagai contoh, apabila PiT digunakan pada tugas penjanaan imej menggunakan ruang token terpendam daripada VQGAN, mereka mengatasi rakan sejawatan berat sebelah lokaliti mereka pada metrik kualiti seperti Fréchet Inception Distance (FID) dan Inception Score (IS).
Walaupun PiT, yang beroperasi pada baris Perceiver IO Transformers, boleh menjadi mahal dari segi pengiraan disebabkan oleh jujukan yang lebih panjang, ia mencabar keperluan untuk kecenderungan lokaliti dalam model penglihatan. Apabila kemajuan dalam mengendalikan panjang jujukan yang besar dibuat, PiT mungkin menjadi lebih praktikal.
Kajian ini akhirnya menyerlahkan potensi manfaat mengurangkan bias induktif dalam seni bina saraf, yang boleh membawa kepada sistem yang lebih serba boleh dan berkebolehan untuk tugas penglihatan dan modaliti data yang pelbagai.
Sumber berita:https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html
Atas ialah kandungan terperinci Pixel Transformers (PiTs) Mencabar Keperluan untuk Bias Lokaliti dalam Model Penglihatan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!