Rumah > Artikel > Peranti teknologi > Menskalakan pembelajaran mendalam sfera kepada data input resolusi tinggi
Penterjemah |. Zhu Xianzhong
Penyemak | Sun Shujuan
CNN sfera tradisional tidak boleh dilanjutkan kepada Tugas klasifikasi resolusi tinggi . Dalam kertas ini, kami memperkenalkan lapisan serakan sfera, jenis lapisan sfera baharu yang boleh mengurangkan dimensi data input sambil mengekalkan maklumat yang berkaitan, dan juga mempunyai sifat kesetaraan putaran.
Rangkaian taburan berfungsi dengan menggunakan penapis lilitan yang dipratentukan daripada analisis wavelet, dan bukannya mempelajari penapis lilitan dari awal. Memandangkan pemberat lapisan serakan direka khusus dan bukannya dipelajari, lapisan serakan boleh digunakan sebagai langkah prapemprosesan sekali, dengan itu mengurangkan resolusi data input. Pengalaman kami sebelum ini menunjukkan bahawa CNN sfera yang dilengkapi dengan lapisan serakan awal boleh berskala kepada resolusi berpuluh-puluh juta piksel, satu pencapaian yang sebelum ini tidak dapat dicapai dengan lapisan CNN sfera tradisional.
Spherical CNN (dokumentasi 1, 2, 3) sangat berguna untuk menyelesaikan pelbagai jenis masalah dalam pembelajaran mesin , kerana kebanyakan masalah ini mempunyai sumber data yang tidak boleh diwakili secara semula jadi pada pesawat (untuk pengenalan pengenalan kepada ini, lihat artikel kami sebelum ini di : https://towardsdatascience.com/geometric- deep-learning-for-spherical- data-55612742d05f).
Ciri utama CNN sfera ialah ia setara dengan putaran data sfera (dalam artikel ini, kami menumpukan pada kaedah setara putaran). Dalam amalan, ini bermakna CNN sfera mempunyai sifat generalisasi yang mengagumkan, membolehkan mereka melakukan perkara seperti mengklasifikasikan jejaring objek 3D tanpa mengira cara ia diputarkan (dan sama ada mereka melihat jejaring semasa melatih putaran berbeza).
Kami menerangkan dalam artikel baru-baru ini yang diterbitkan oleh >KagenovaPasukanSatu siri kemajuan yang dibangunkan untuk meningkatkan kecekapan pengiraan CNN sferaPencapaian(Alamat rujukan :https: //towardsdatascience.com/efficient-generalized-spherical-cnns-1493426362ca). Kaedah yang kami pakai - CNN sfera umum yang cekap - kedua-duanya mengekalkan tradisi Ciri varians yang sama bagi sfera CNN, manakala menjadikan pengiraan lebih cekap (Dokumen 1). Walau bagaimanapun, walaupun kemajuan dalam kecekapan pengiraan ini, CNN sfera masih terhad kepada data resolusi yang agak rendah. Ini bermakna , Spherical CNNpada masa ini tidak boleh digunakan pada pergolakan yang biasanya melibatkan data resolusi lebih tinggi Popular senario aplikasi ialah , seperti analisis data kosmologi dan penglihatan komputer 360 darjah untuk realiti maya dan medan lain . Dalam keluaran baru-baru ini kami memperkenalkan rangkaian lapisan penyerakan sfera untuk dengan mudah melaraskan CNN sfera universal yang cekap kepada tingkatkan peleraian (dokumen 4), dalam artikel ini kami akan menyemak kandungannya. Kaedah hibrid untuk menyokong data input resolusi tinggiSemasa membangunkan CNN sfera universal yang cekap (Rujukan 1), kami menemui cara yang sangat berkesan untuk membina sfera A pendekatan hibrid kepada seni bina CNN. CNN Sfera Hibrid boleh menggunakan gaya lapisan CNN sfera yang berbeza dalam rangkaian yang sama, membolehkan pembangun mendapat manfaat pelbagai jenis lapisan pada peringkat pemprosesan yang berbeza.
Gambar di atas menunjukkan contoh seni bina CNN sfera hibrid (sila ambil perhatian: lapisan ini bukan satu, tetapi beberapa gaya lapisan CNN sfera).
Scattering Networks on Spheres meneruskan pendekatan hibrid ini dan memperkenalkan lapisan CNN sfera baharu yang boleh dipalamkan ke dalam seni bina sfera sedia ada. Untuk memanjangkan CNN sfera am yang cekap kepada dimensi yang lebih tinggi, lapisan baharu ini perlu mempunyai ciri-ciri berikut:
Kami menentukan bahawa lapisan rangkaian serakan mempunyai potensi untuk memenuhi semua ciri yang dinyatakan di atas.
Rangkaian serakan yang pertama kali dicadangkan oleh Mallat (Rujukan 5) dalam persekitaran Euclidean boleh dianggap sebagai mempunyai penapisan lilitan tetap Untuk CNN, ini penapis diperoleh daripada analisis wavelet. Rangkaian taburan telah terbukti sangat berguna untuk penglihatan komputer tradisional (Euclidean), terutamanya apabila data terhad - di mana mempelajari penapis konvolusi adalah sukar. Seterusnya, kami membincangkan secara ringkas kerja dalaman lapisan rangkaian penyerakan, cara ia memenuhi keperluan yang ditakrifkan dalam bahagian sebelumnya, dan cara ia boleh dibangunkan untuk analisis data sfera.
Pemprosesan data dalam lapisan serakan dilakukan oleh tiga operasi asas. Blok binaan pertama ialah lilitan wavelet tetap, yang serupa dengan lilitan pembelajaran biasa yang digunakan dalam Euclidean CNN. Selepas lilitan wavelet, rangkaian serakan menggunakan pendekatan tak linear modular kepada perwakilan yang terhasil. Akhir sekali, penyerakan menggunakan fungsi penskalaan yang melaksanakan algoritma purata tempatan dengan beberapa persamaan dengan lapisan pengumpulan dalam CNN biasa. Penggunaan berulang bagi tiga blok binaan ini menyerakkan data input ke dalam pepohon pengiraan dan mengekstrak perwakilan yang terhasil (serupa dengan saluran CNN) daripada pepohon pada peringkat pemprosesan yang berbeza. Skema ringkas operasi ini ditunjukkan di bawah.
Rajah ini menggambarkan rangkaian penyerakan sfera bagi isyarat sfera f. Isyarat disebarkan melalui transformasi wavelet sfera berlatarkan digabungkan dengan fungsi pengaktifan nilai mutlak yang diwakili oleh nod merah. Output rangkaian serakan diperolehi dengan menayangkan isyarat ini pada fungsi penskalaan wavelet sfera, menghasilkan pekali serakan yang diwakili oleh nod biru.
Dari perspektif pembelajaran mendalam tradisional, operasi rangkaian terdesentralisasi nampaknya agak kabur. Walau bagaimanapun, setiap operasi pengiraan yang diterangkan mempunyai tujuan khusus - bertujuan untuk mengeksploitasi hasil teori yang boleh dipercayai bagi analisis wavelet.
Konvolusi wavelet dalam rangkaian hamburan diperoleh dengan teliti untuk mengekstrak maklumat yang berkaitan daripada data input. Contohnya, untuk imej semula jadi, wavelet ditakrifkan untuk mengekstrak maklumat secara khusus berkaitan dengan tepi pada frekuensi tinggi dan bentuk umum objek pada frekuensi rendah. Oleh itu, dalam tetapan planar, penapis rangkaian berselerak mungkin mempunyai beberapa persamaan dengan penapis CNN tradisional. Perkara yang sama berlaku untuk tetapan sfera, di mana kita menggunakan wavelet diskret skala (lihat Rujukan 4 untuk butiran).
Oleh kerana penapis wavelet ditetapkan, lapisan serakan awal hanya perlu digunakan sekali dan tidak perlu digunakan berulang kali sepanjang proses latihan (seperti lapisan awal dalam CNN tradisional) . Ini menjadikan rangkaian taburan berskala secara pengiraan, memenuhi keperluan Ciri 1 di atas. Tambahan pula, lapisan serakan mengurangkan dimensi data inputnya, yang bermaksud bahawa hanya ruang storan terhad perlu digunakan untuk cache perwakilan serakan semasa melatih lapisan CNN hiliran.
Kaedah tak linear modulus digunakan di sebalik lilitan wavelet. Pertama, ini menyuntik ciri bukan linear ke dalam lapisan rangkaian saraf. Kedua, operasi modulus mencampurkan maklumat frekuensi tinggi dalam isyarat input ke dalam data frekuensi rendah untuk memenuhi keperluan di atas 2. Rajah di bawah menunjukkan taburan kekerapan bagi perwakilan wavelet bagi data sebelum dan selepas pengiraan modulus tak linear.
Rajah di atas menunjukkan taburan pekali wavelet pada frekuensi sfera berbeza l sebelum dan selepas operasi modular. Tenaga dalam isyarat input bergerak dari frekuensi tinggi (panel kiri) ke frekuensi rendah (panel kanan). dengan f ialah isyarat masukan dan Ψ mewakili wavelet penskalaan j.
Selepas menggunakan pengiraan modulus, pancarkan isyarat yang terhasil pada fungsi penskalaan. Fungsi penskalaan mengekstrak maklumat frekuensi rendah daripada hasil perwakilan, serupa dengan operasi fungsi pengumpulan dalam CNN tradisional.
Kami menguji secara empirik sifat varians sama teori bagi rangkaian penyerakan sfera. Ujian dilakukan dengan memutar isyarat dan menyuapnya melalui rangkaian penyerakan, dan kemudian membandingkan perwakilan yang terhasil kepada perwakilan data input yang terhasil selepas melalui rangkaian penyerakan dan kemudian melakukan pengiraan putaran. Ia boleh ditunjukkan daripada data dalam jadual di bawah bahawa ralat varians yang sama untuk kedalaman tertentu adalah rendah, dengan itu memenuhi keperluan di atas 3 (biasanya dalam amalan, satu kedalaman laluan tidak akan melebihi kedalaman dua laluan, kerana kebanyakan tenaga isyarat telah pun ditangkap) .
Ralat varians sama putaran rangkaian penyerakan sfera dengan kedalaman berbeza
Akhir sekali, ia terbukti secara teori Rangkaian taburan Euclidean adalah stabil kepada pembezaan kecil atau herotan (Ruj.5). Pada masa ini, hasil ini telah diperluaskan kepada rangkaian taburan pada manifold Riemannian padat (dokumen 6), terutamanya permukaan sfera Persekitaran (Dokumentasi4). Dalam amalan, kestabilan kepada morfologi perbezaan bermakna bahawa perwakilan yang dikira oleh rangkaian serakan tidak akan berbeza dengan ketara jika input diubah sedikit (lihat siaran kami sebelum ini untuk perbincangan tentang peranan kestabilan dalam pembelajaran mendalam geometri , Alamatnya ialah https://towardsdatascience.com/a-brief-introduction-to-geometric-deep-learning-dae114923ddb). Oleh itu, rangkaian taburan menyediakan ruang perwakilan yang berprestasi baik di mana pembelajaran seterusnya boleh dilaksanakan dengan cekap, memenuhi keperluan 4 di atas.
Memandangkan lapisan serakan yang diperkenalkan memenuhi semua sifat yang kami inginkan, seterusnya kami bersedia untuk menyepadukannya ke dalam CNN sfera hibrid kami. Seperti yang dinyatakan sebelum ini, lapisan serakan boleh ditetapkan pada seni bina sedia ada sebagai langkah pra-pemprosesan awal untuk mengurangkan saiz perwakilan untuk pemprosesan lapisan sfera berikutnya.
Dalam imej di atas, modul lapisan serakan (kiri garis putus-putus) ialah lapisan reka bentuk. Ini bermakna ia tidak memerlukan latihan, manakala lapisan yang tinggal (di sebelah kanan garis putus-putus) boleh dilatih. Oleh itu, ini bermakna lapisan serakan boleh digunakan sebagai langkah prapemprosesan sekali untuk mengurangkan dimensi data input.
Memandangkan Scatter Network mempunyai perwakilan tetap bagi input yang diberikan, lapisan Scatter Network boleh digunakan sekali pada keseluruhan set data pada permulaan latihan dan perwakilan dimensi rendah yang terhasil dicache ke melatih lapisan seterusnya. Nasib baik, perwakilan serakan telah mengurangkan dimensi, yang bermaksud ruang cakera yang diperlukan untuk menyimpannya agak rendah. Disebabkan kewujudan lapisan serakan sfera baharu ini, CNN sfera umum yang cekap boleh diperluaskan kepada domain masalah klasifikasi resolusi tinggi.
Bagaimanakah jirim diagihkan ke seluruh alam semesta? Ini adalah soalan penyelidikan asas untuk ahli kosmologi dan mempunyai implikasi yang signifikan untuk model teori asal usul dan evolusi alam semesta kita. Latar belakang gelombang mikro kosmik (CMB) - sisa tenaga daripada Big Bang - memetakan taburan jirim di alam semesta. Ahli kosmologi memerhatikan CMB pada sfera cakerawala, yang memerlukan kaedah pengiraan yang membolehkan analisis kosmologi dalam sfera cakerawala.
Ahli kosmologi sangat berminat dengan kaedah untuk menganalisis latar belakang gelombang mikro kosmik kerana kaedah ini dapat mengesan sifat bukan Gaussian dalam pengedaran latar belakang gelombang mikro kosmik ke seluruh angkasa, yang mempunyai implikasi penting untuk awal. teori-teori alam semesta yang sangat penting. Pendekatan analitikal ini juga perlu dipertingkatkan kepada resolusi astronomi. Kami menunjukkan bahawa rangkaian taburan kami memenuhi keperluan ini dengan mengklasifikasikan simulasi CMB sebagai Gaussian atau bukan Gaussian dengan resolusi L = 1024. Rangkaian taburan berjaya mengklasifikasikan simulasi ini dengan ketepatan 95.3%, yang jauh lebih baik daripada 53.1% yang dicapai oleh CNN sfera tradisional resolusi rendah.
Rajah di atas menunjukkan contoh simulasi resolusi tinggi Gaussian dan bukan Gaussian-like CMB, yang digunakan untuk menilai pengembangan rangkaian serakan sfera kepada keupayaan resolusi tinggi.
Dalam kertas kerja ini, kami meneroka keupayaan lapisan serakan sfera untuk memampatkan dimensi perwakilan input mereka sambil mengekalkan maklumat penting untuk tugas hiliran. Kami telah menunjukkan bahawa ini menjadikan lapisan serakan sangat berguna untuk tugas pengelasan sfera resolusi tinggi. Ini membuka pintu kepada aplikasi berpotensi yang sukar dikawal sebelum ini seperti analisis data kosmologi dan klasifikasi imej/video 360 resolusi tinggi. Walau bagaimanapun, banyak masalah penglihatan komputer seperti pembahagian atau anggaran kedalaman yang memerlukan ramalan padat memerlukan kedua-dua output dimensi tinggi dan input dimensi tinggi. Akhir sekali, cara membangunkan lapisan CNN sfera terkawal yang boleh meningkatkan dimensi perwakilan keluaran sambil mengekalkan varians yang sama ialah topik penyelidikan semasa oleh pembangun Kagenova. Ini akan dibincangkan dalam artikel seterusnya.
[1]Cobb, Wallis, Mavor-Parker, Marignier, Price, d'Avezac, McEwen, Efficient Generalized Spherical CNNs, ICLR (2021) , arXiv:2010.11661
[2] Cohen, Geiger, Koehler, Welling, Spherical CNNs, ICLR (2018), arXiv:1801.10130
3] Esteves, Allen-Blanchette, Makadia, Daniilidis, Pembelajaran SO(3) Perwakilan Setara dengan Spherical CNNs, ECCV (2018), arXiv:1711.06721
[4], McEwen, Jason Wallis, Christopher dan Mavor-Parker, Augustine N., Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs, ICLR (2022), arXiv:2102.02828
[5,] Bruna Joan, dan Stéphane Mallat, Rangkaian lilitan serakan invarian, Transaksi IEEE pada Analisis Corak dan Perisikan Mesin (2013)
[6] Perlmutter, Michael, et al., Rangkaian serakan wavelet geometri pada pancarongga Riemannian padat, Pembelajaran Mesin Matematik dan Saintifik (2020), arXiv:1905.10448
Zhu Xianzhong, pakar editor 51CTOtur blog, 51CTOtur blog. , guru komputer di sebuah universiti di Weifang, dan seorang veteran dalam industri pengaturcaraan bebas.
Tajuk asal: Menskalakan Pembelajaran Dalam Sfera kepada Data Input Resolusi Tinggi, oleh Jason McEwen, Augustine Mavor-Parker
Atas ialah kandungan terperinci Menskalakan pembelajaran mendalam sfera kepada data input resolusi tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!