Rumah >Peranti teknologi >AI >Pembahagian imej pembelajaran mendalam: gambaran keseluruhan reka bentuk struktur rangkaian
Artikel ini meringkaskan inovasi dalam struktur rangkaian apabila menggunakan CNN untuk segmentasi semantik imej Inovasi ini terutamanya termasuk reka bentuk seni bina neural baharu (kedalaman, lebar, sambungan dan topologi yang berbeza) dan reka bentuk komponen atau lapisan baharu. Yang pertama menggunakan komponen sedia ada untuk memasang rangkaian berskala besar yang kompleks, manakala yang kedua lebih suka mereka bentuk komponen asas. Mula-mula, kami memperkenalkan beberapa rangkaian segmentasi semantik klasik dan inovasinya, dan kemudian memperkenalkan beberapa aplikasi reka bentuk struktur rangkaian dalam bidang segmentasi imej perubatan.
Seni bina keseluruhan FCN
Rajah ringkasRangkaian FCN disenaraikan secara berasingan kerana rangkaian FCN ialah rangkaian pertama yang menyelesaikan masalah pembahagian semantik dari perspektif baharu sepenuhnya. Rangkaian pembahagian semantik imej sebelumnya berdasarkan rangkaian saraf menggunakan blok imej berpusat pada piksel untuk dikelaskan untuk meramalkan label piksel pusat Rangkaian ini biasanya dibina menggunakan strategi CNN+FC Jelas sekali, kaedah ini tidak boleh menggunakan maklumat konteks global imej. , dan kelajuan penaakulan piksel demi piksel adalah sangat rendah manakala rangkaian FCN meninggalkan lapisan FC yang bersambung sepenuhnya dan menggunakan lapisan konvolusi untuk membina rangkaian Melalui strategi perpindahan alih dan gabungan ciri lapisan yang berbeza output rangkaian secara langsung topeng ramalan imej input Kecekapan dan ketepatan telah dipertingkatkan.
Gambar rajah skema gabungan ciri lapisan berbeza FCN
Mata inovasi: Jumlah penuh Rangkaian produk (tidak termasuk lapisan fc);
Rangkaian SegNet
Perbandingan kaedah Upsample antara SegNet dan FCN
Rangkaian U-Net pada asalnya direka untuk imej bioperubatan, tetapi disebabkan prestasi gred keempatnya, kini UNet dan variannya Ia mempunyai telah digunakan secara meluas dalam pelbagai subbidang CV. Rangkaian UNet terdiri daripada saluran U dan sambungan langkau Saluran U adalah serupa dengan struktur pengekodan dan penyahkodan SegNet Bahagian pengekodan (laluan kontrak) melakukan pengekstrakan ciri dan menangkap maklumat konteks, dan bahagian penyahkodan (laluan berkembang. ) menggunakan ciri penyahkodan untuk meramalkan label piksel. Saluran litar pintas meningkatkan ketepatan model dan menyelesaikan masalah kehilangan kecerunan Adalah penting untuk ambil perhatian bahawa peta ciri saluran litar pintas dan peta ciri yang digunakan di atas adalah disambung dan bukannya ditambah (berbeza daripada FCN).
Rangkaian U-Net
V-Net Network Titik inovasi: Cukup Versi 3D rangkaian U-Net FC-DenseNet (rangkaian tiramisu 100 lapisan) Titik inovasi: Integrasi rangkaian DenseNet dan U-Net (dari perspektif pertukaran maklumat Lihat, sambungan padat sememangnya lebih berkuasa daripada struktur sisa) 1) DeepLabV1: Gabungan rangkaian saraf konvolusi dan model graf kebarangkalian: CNN+CRF, yang meningkatkan ketepatan pembahagian dan kedudukan; 🎜> 2) DeepLabV2: ASPP (penghimpunan piramid spatial yang diperluaskan); 3) DeepLabV3: ASPP yang dipertingkatkan, menambahkan lilitan 1*1 dan kumpulan purata global membandingkan kesan lilitan atrus berlatarkan dan selari. Parallel Atrous Convolution (ASPP) 4) DeepLabV3+: Tambahkan idea seni bina pengekodan dan penyahkod, tambah modul penyahkod untuk memanjangkan DeepLabv3 menggunakan konvolusi boleh dipisahkan secara mendalam pada ASPP dan penyahkod modul; Xception yang dipertingkatkan sebagai Tulang Belakang. DeepLabV3+ Secara amnya, Sumbangan teras siri DeepLab: lilitan diluaskan; dan V2 menggunakan CRF. Sepatutnya V3 dan V3+ menyelesaikan masalah sempadan segmentasi kabur melalui rangkaian dalam, dan kesannya lebih baik daripada menambah CRF) Rangkaian PSPNet Titik inovasi: Berbilang skala penggabungan, menggunakan pengetahuan sedia ada peringkat imej global dengan lebih baik untuk memahami pemandangan yang kompleks Rangkaian RefineNet Titik inovasi: Perhalusi modul Terdapat juga banyak kerja khusus untuk mengurangkan kerumitan pengiraan rangkaian segmentasi semantik. Beberapa kaedah untuk memudahkan struktur rangkaian dalam: penguraian tensor / pemangkasan rangkaian; Ada juga yang menggunakan NAS (Neural Architecture Search) untuk menggantikan reka bentuk manual untuk mencari struktur modul atau keseluruhan rangkaian Sudah tentu, sumber GPU yang diperlukan oleh AutoDL akan menghalang sebilangan besar orang. Oleh itu, sesetengah orang menggunakan carian rawak untuk mencari modul ASPP yang lebih kecil, dan kemudian membina keseluruhan model rangkaian berdasarkan modul kecil. Reka bentuk rangkaian yang ringan adalah konsensus dalam industri Untuk penggunaan mudah alih, adalah mustahil untuk melengkapkan setiap mesin dengan 2080ti Selain itu, penggunaan kuasa, storan dan isu lain juga akan mengehadkan promosi dan aplikasi model. Walau bagaimanapun, jika 5G menjadi popular, semua data boleh diproses dalam awan, yang akan menjadi sangat menarik. Sudah tentu, dalam jangka pendek (sepuluh tahun), kami tidak tahu sama ada penggunaan skala penuh 5G boleh dilaksanakan. Mekanisme perhatian boleh ditakrifkan sebagai: menggunakan maklumat peta lapisan/ciri seterusnya untuk memilih dan mencari yang paling menilai (atau menonjol) dalam peta ciri input ) bahagian. Ia boleh dianggap sebagai cara peta ciri pemberat (berat dikira melalui rangkaian Mengikut fungsi pemberat yang berbeza, ia boleh dibahagikan kepada mekanisme perhatian saluran (CA) dan mekanisme perhatian ruang (PA). . Rangkaian FPA (Perhatian Piramid Ciri) ialah rangkaian pembahagian semantik berdasarkan mekanisme perhatian, yang menggabungkan mekanisme perhatian dan piramid spatial untuk mengekstrak ciri tepat untuk pelabelan tahap piksel tanpa menggunakan rangkaian dekoder Konvolusi dan rekaan manusia. Goodfellow et al mencadangkan kaedah adversarial untuk mempelajari model generatif mendalam pada tahun 2014. Rangkaian adversarial generatif (GAN) perlu melatih dua pada masa yang sama. Model: model generatif G yang menangkap taburan data, dan model diskriminatif D yang menganggarkan kebarangkalian sampel datang daripada data latihan. ● G ialah rangkaian generatif, yang menerima hingar rawak z (nombor rawak), dan menghasilkan imej melalui hingar ini ● D ialah rangkaian diskriminatif, yang menentukan sama ada imej itu Bukan "sebenar". Parameter inputnya ialah x (gambar), dan output D(x) mewakili kebarangkalian bahawa x ialah gambar sebenar Jika ia adalah 1, ia bermakna 100% ialah gambar sebenar, dan output ialah 0, yang bermaksud ia tidak boleh menjadi gambar sebenar. Prosedur latihan G adalah untuk memaksimumkan kebarangkalian ralat D. Ia boleh dibuktikan bahawa dalam ruang mana-mana fungsi G dan D, terdapat penyelesaian unik seperti G menghasilkan semula pengedaran data latihan, dan D=0.5. Semasa proses latihan, matlamat rangkaian generasi G adalah untuk cuba menjana gambar sebenar untuk menipu rangkaian diskriminasi D. Matlamat D adalah untuk cuba membezakan imej palsu yang dihasilkan oleh G daripada imej sebenar. Dengan cara ini, G dan D membentuk "proses permainan" dinamik, dan titik keseimbangan akhir ialah titik keseimbangan Nash. Dalam kes di mana G dan D ditakrifkan oleh rangkaian saraf, keseluruhan sistem boleh dilatih dengan perambatan balik. Gambar rajah struktur rangkaian GAN Diinspirasikan oleh GAN, Luc et al melatih rangkaian pembahagian semantik (G) dan konfrontasi Rangkaian (D), rangkaian lawan membezakan peta pembahagian daripada kebenaran tanah atau rangkaian pembahagian semantik (G). G dan D terus bermain permainan dan belajar, dan fungsi kehilangan mereka ditakrifkan sebagai: Fungsi kehilangan GAN Semak fungsi kehilangan GAN asal: Fungsi kehilangan GAN merangkumi idea permainan jumlah sifar Fungsi kehilangan GAN asal adalah seperti berikut: Kedudukan pengiraan kerugian adalah pada output D (diskriminator), dan output D pada umumnya adalah penghakiman palsu/benar, jadi keadaan keseluruhan boleh dianggap sebagai fungsi entropi silang binari. Dapat dilihat dari bentuk kehilangan fungsi GAN bahawa latihan terbahagi kepada dua bahagian: Yang pertama ialah bahagian maxD, kerana latihan secara umumnya melatih D sambil mengekalkan G (penjana) tidak berubah. Matlamat latihan D adalah untuk membezakan palsu/benar dengan betul Jika kita menggunakan 1/0 untuk mewakili benar/palsu, maka untuk item pertama E, kerana input diambil daripada data sebenar, kita menjangkakan D(x) mendekati 1. , iaitu yang pertama Item adalah lebih besar. Dengan cara yang sama, item kedua E input sampel data yang dijana daripada G, jadi kami menjangkakan D(G(z)) mendekati 0 lebih baik, yang bermaksud item kedua lebih besar lagi. Jadi bahagian ini adalah jangkaan bahawa latihan akan menjadikan keseluruhannya lebih besar, iaitu maksud maxD. Bahagian ini hanya mengemas kini parameter D. Bahagian kedua mengekalkan D tidak berubah (tiada kemas kini parameter) dan melatih G. Pada masa ini, hanya item kedua E yang berguna, kerana kita ingin mengelirukan D, jadi pada masa ini label ditetapkan kepada 1 (kita tahu ia adalah palsu, jadi ia dipanggil kekeliruan). ialah minG. Sudah tentu, diskriminator tidak begitu mudah untuk menipu, jadi pada masa ini diskriminator akan menghasilkan ralat yang agak besar Ralat akan mengemas kini G, dan kemudian G akan menjadi lebih baik kali ini, jadi saya boleh hanya bekerja lebih keras lain kali (Dipetik daripada https://www.cnblogs.com/walter-xh/p/10051634.html). Pada masa ini, hanya parameter G dikemas kini. Melihat GAN dari perspektif lain, diskriminator (D) adalah bersamaan dengan fungsi kehilangan khas (terdiri daripada rangkaian saraf, berbeza daripada L1, L2, entropi silang dan fungsi kehilangan lain) tradisional. Selain itu, GAN mempunyai kaedah latihan khas, dan terdapat masalah seperti kehilangan kecerunan dan keruntuhan mod (nampaknya ada cara untuk menyelesaikannya pada masa ini), tetapi idea reka bentuknya sememangnya merupakan ciptaan yang hebat dalam era pembelajaran mendalam. Kebanyakan model segmentasi semantik imej berdasarkan pembelajaran mendalam mengikut seni bina penyahkod pengekod, seperti U-Net. Hasil penyelidikan dalam beberapa tahun kebelakangan ini telah menunjukkan bahawa konvolusi diluaskan dan pengumpulan ciri piramid boleh meningkatkan prestasi rangkaian gaya U-Net. Dalam Bahagian 2, kami meringkaskan cara kaedah ini dan variannya boleh digunakan pada pembahagian imej perubatan. Bahagian ini memperkenalkan beberapa hasil penyelidikan mengenai aplikasi inovasi struktur rangkaian dalam segmentasi imej perubatan 2D/3D. Untuk mencapai pemprosesan masa nyata imej perubatan 2D/3D resolusi tinggi (seperti imej CT, MRI dan histopatologi, dsb.), penyelidik telah mencadangkan pelbagai kaedah model mampatan. Weng et al menggunakan teknologi NAS untuk digunakan pada rangkaian U-Net dan memperoleh rangkaian kecil dengan prestasi pembahagian organ/tumor yang lebih baik pada imej CT, MRI dan ultrasound. Brugger mereka bentuk semula seni bina U-Net dengan menggunakan normalisasi kumpulan dan Leaky-ReLU (fungsi ReLU bocor) untuk menjadikan kecekapan storan rangkaian untuk pembahagian imej perubatan 3D lebih cekap. Sesetengah orang juga telah mereka bentuk modul konvolusi diluaskan dengan parameter yang lebih sedikit. Beberapa kaedah pemampatan model lain termasuk pengkuantitian berat (enam belas bit, lapan bit, kuantisasi binari), penyulingan, pemangkasan, dsb. Drozdal mencadangkan kaedah yang menggunakan CNN mudah untuk menormalkan imej input asal sebelum menyuapnya ke dalam rangkaian pembahagian, mempertingkatkan Memperbaik ketepatan pembahagian singleton pembahagian imej mikroskop, CT hati, dan MRI prostat. Gu mencadangkan kaedah menggunakan lilitan diluaskan dalam rangkaian tulang belakang untuk mengekalkan maklumat kontekstual. Vorontsov mencadangkan rangka kerja rangkaian graf-ke-graf yang menukar imej dengan ROI kepada imej tanpa ROI (contohnya, imej dengan tumor ditukar kepada imej sihat tanpa tumor), dan kemudian tumor yang dikeluarkan oleh model ditambah kepada imej sihat baharu . , untuk mendapatkan struktur terperinci objek. Zhou et al. mencadangkan kaedah untuk melangkau penyambungan semula rangkaian U-Net dan melaksanakannya pada pembahagian nodul dalam imbasan CT dos rendah dada, pembahagian nuklear dalam imej mikroskop, pembahagian hati dalam imbasan CT perut, dan Kolonoskopi telah diuji pada tugas pembahagian polip dalam video peperiksaan. Goyal menggunakan DeepLabV3 pada pembahagian imej warna dermoskopik untuk mengekstrak kawasan lesi kulit. Nie mencadangkan model perhatian yang boleh membahagikan prostat dengan lebih tepat berbanding model asas (V-Net dan FCN). SinHa mencadangkan rangkaian berdasarkan mekanisme perhatian berbilang lapisan untuk pembahagian organ perut dalam imej MRI. Qin et al mencadangkan modul konvolusi yang diluaskan untuk mengekalkan lebih banyak butiran imej perubatan 3D. Terdapat banyak kertas lain mengenai pembahagian imej darah berdasarkan mekanisme perhatian. Khosravan mencadangkan rangkaian latihan adversarial untuk segmentasi pankreas daripada imbasan CT. Son menggunakan rangkaian musuh generatif untuk pembahagian imej retina. Xue menggunakan rangkaian konvolusi sepenuhnya sebagai rangkaian pembahagian dalam rangka kerja permusuhan generatif untuk membahagikan tumor otak daripada imej MRI. Terdapat kertas lain yang berjaya menggunakan GAN untuk masalah pembahagian imej perubatan, jadi saya tidak akan menyenaraikannya satu demi satu. Rangkaian saraf berulang (RNN) digunakan terutamanya untuk memproses data jujukan Rangkaian ingatan jangka pendek (LSTM) ialah versi RNN yang dipertingkatkan gelung kendiri (self-loops) membolehkan aliran kecerunan dikekalkan untuk jangka masa yang lama. Dalam bidang analisis imej perubatan, RNN digunakan untuk memodelkan kebergantungan temporal dalam jujukan imej. Bin et al. mencadangkan algoritma pembahagian jujukan imej yang mengintegrasikan rangkaian saraf konvolusi sepenuhnya dan RNN, dan menggabungkan maklumat dalam dimensi masa ke dalam tugasan pembahagian. Gao et al menggunakan CNN dan LSTM untuk memodelkan hubungan temporal dalam urutan hirisan MRI otak untuk meningkatkan prestasi pembahagian dalam imej 4D. Li et al mula-mula menggunakan U-Net untuk mendapatkan peta kebarangkalian pembahagian awal, dan kemudian menggunakan LSTM untuk membahagikan pankreas daripada imej CT 3D, yang meningkatkan prestasi pembahagian. Terdapat banyak lagi kertas kerja yang menggunakan RNN untuk segmentasi imej perubatan, jadi saya tidak akan memperkenalkannya satu persatu. Bahagian kandungan ini terutamanya mengenai penggunaan algoritma segmentasi dalam segmentasi imej perubatan, jadi tidak banyak titik inovasi Ia terutamanya mengenai format yang berbeza (CT atau RGB , julat piksel, resolusi imej, dsb.) dan ciri bahagian data yang berbeza (bunyi, bentuk objek, dsb.), rangkaian klasik perlu dipertingkatkan untuk data yang berbeza menyesuaikan diri dengan format dan ciri data input, jadi bahawa ia boleh menyelesaikan tugas pembahagian dengan lebih baik. Walaupun pembelajaran mendalam adalah kotak hitam, reka bentuk keseluruhan model masih mempunyai peraturan yang perlu diikuti. Apakah strategi yang menyelesaikan masalah dan masalah yang ditimbulkannya boleh dipilih berdasarkan masalah segmentasi tertentu untuk mencapai prestasi segmentasi yang optimum. 1.Segmentasi Semantik Dalam Imej Semulajadi dan Perubatan: Satu Tinjauan 2.NAS-Unet: Neural carian seni bina untuk pembahagian imej perubatan. Akses IEEE, 7:44247–44257, 2019. 3.Meningkatkan segmentasi dengan pengawasan yang lemah daripada terjemahan imej-ke-imej arXiv: 1904.01636 , 2019 4.Perhatian berpandu berbilang skala untuk pembahagian imej perubatan arXiv pracetak arXiv:1906.02849,2019. 5.Seg. Rangkaian lawan dengan kehilangan L1 berbilang skala untuk pembahagian imej perubatan. 6. Rangkaian LSTM berstruktur konvolusi sepenuhnya untuk pembahagian imej perubatan 4D bersama Pada 2018 IEEE7 https://www.cnblogs. com/walter-xh/p/10051634.html1.3 Mengurangkan kerumitan pengiraan struktur rangkaian
1.4 Struktur rangkaian berdasarkan mekanisme perhatian
1.5 Struktur rangkaian berdasarkan pembelajaran adversarial
1.6 Ringkasan
2. Aplikasi inovasi struktur rangkaian dalam segmentasi imej perubatan
2.1 Kaedah pembahagian berdasarkan pemampatan model
2.2 Kaedah pembahagian struktur pengekodan-penyahkodan
2.3 Kaedah pembahagian berdasarkan mekanisme perhatian
2.4 Rangkaian pembahagian berdasarkan pembelajaran adversarial
Model segmentasi berasaskan 2.5 RNN
2.6 Ringkasan
Beberapa rujukan:
Atas ialah kandungan terperinci Pembahagian imej pembelajaran mendalam: gambaran keseluruhan reka bentuk struktur rangkaian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!