Rumah >Peranti teknologi >AI >Gambar tidak boleh dimuatkan untuk masa yang lama dan adakah mozek? Model sumber terbuka Google mengutamakan memaparkan bahagian imej yang paling menarik
Apabila memerhati imej, apakah kandungan dalam imej yang akan anda perhatikan dahulu, atau kawasan mana dalam imej yang akan menarik perhatian anda terlebih dahulu bolehkah mesin mempelajari bentuk perhatian manusia ini? Dalam kajian daripada Google, model pusat perhatian sumber terbuka mereka boleh melakukan perkara itu. Dan model itu boleh digunakan pada format imej JPEG XL.
Sebagai contoh, rajah di bawah ialah beberapa contoh ramalan model pusat perhatian, dengan titik hijau ialah titik pusat perhatian yang diramalkan bagi imej.
Imej daripada dataset imej Kodak: http://r0k.us/graphics/kodak/
Saiz model pusat perhatian ialah 2MB dan formatnya ialah TensorFlow Lite. Ia mengambil imej RGB sebagai input dan mengeluarkan titik 2D yang merupakan titik pusat perhatian yang diramalkan pada imej.
Untuk melatih model meramal pusat perhatian, anda memerlukan beberapa data sebenar daripada pusat perhatian terlebih dahulu. Memandangkan imej, beberapa titik perhatian boleh dikumpul menggunakan penjejak mata atau didekati dengan mengklik pada imej dengan tetikus. Kajian ini mula-mula melakukan penapisan temporal pada titik perhatian ini, mengekalkan hanya titik perhatian awal, dan kemudian menggunakan penapisan spatial untuk mengeluarkan bunyi. Akhir sekali, pusat mata perhatian yang tinggal dikira sebagai pusat perhatian kebenaran tanah. Contoh ilustrasi proses mendapatkan nilai kebenaran ditunjukkan di bawah.
Alamat projek: https://github.com/google/attention-center
Model pusat perhatian ialah rangkaian saraf dalam yang mengambil imej sebagai input dan menggunakan rangkaian pengelasan terlatih seperti ResNet, MobileNet, dsb. . Beberapa lapisan perantaraan keluaran daripada rangkaian tulang belakang digunakan sebagai input kepada modul ramalan pusat perhatian. Lapisan perantaraan yang berbeza ini mengandungi maklumat yang berbeza, contohnya, lapisan cetek biasanya mengandungi maklumat tahap yang lebih rendah seperti keamatan/warna/tekstur, manakala lapisan yang lebih dalam biasanya mengandungi maklumat yang lebih tinggi dan lebih semantik seperti bentuk/objek.
Ramalan pusat perhatian menggunakan operator pelarasan belitan dan penyahkonvolusi, digabungkan dengan fungsi pengagregatan dan sigmoid, untuk menjana peta berat pusat perhatian. Kemudian operator (dalam contoh operator penjumlahan Einstein) boleh digunakan untuk mengira pusat daripada graf berwajaran. Norma L2 antara pusat perhatian yang diramalkan dan pusat perhatian sebenar digunakan sebagai kehilangan latihan.
Selain itu, JPEG XL ialah format imej baharu yang membolehkan pengguna mengekod imej dengan cara yang bahagian yang menarik ditunjukkan terlebih dahulu. Kelebihan ini ialah apabila pengguna menyemak imbas dalam talian, bahagian imej yang menarik boleh dipaparkan terlebih dahulu, iaitu bahagian yang dilihat oleh pengguna terlebih dahulu, sebaik sahaja pengguna melihat seluruh imej, bahagian itu imej akan dipaparkan terlebih dahulu bahagian lain sudah ada dan dinyahkod.
Dalam JPEG XL, imej biasanya dibahagikan kepada matriks bersaiz 256 x 256, pengekod JPEG XL akan memilih kumpulan permulaan dalam imej dan kemudian menjana kumpulan sepusat di sekeliling kumpulan itu segi empat sama. Chrome menambah penyahkodan progresif imej JPEG XL pada versi 107. Pada masa ini, JPEG XL masih merupakan produk percubaan dan boleh didayakan dengan mencari jxl dalam chrome://flags.
Untuk memahami kesan pemuatan progresif imej JPEG XL, anda boleh melawati URL untuk melihat:
https://google. github. io/pusat-perhatian/
Atas ialah kandungan terperinci Gambar tidak boleh dimuatkan untuk masa yang lama dan adakah mozek? Model sumber terbuka Google mengutamakan memaparkan bahagian imej yang paling menarik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!