Rumah > Artikel > Peranti teknologi > Algoritma pembelajaran ensemble mendalam untuk pengelasan imej retina
Penterjemah |. Zhu Xianzhong
Sun Shujuan
Gambar 1 : Muka depan projek Iluminado yang direka oleh pengarang asal sendiri
Pada tahun 2019, Pertubuhan Kesihatan Sedunia menganggarkan terdapat kira-kira 2.2 bilion orang cacat penglihatan di dunia, yang mana sekurang-kurangnya 1 bilion boleh dicegah atau masih mengalami masalah penglihatan. Apabila bercakap tentang penjagaan mata, dunia menghadapi banyak cabaran, termasuk ketidaksamaan dalam liputan dan kualiti perkhidmatan pencegahan, terapeutik dan pemulihan. Terdapat kekurangan kakitangan penjagaan mata terlatih dan perkhidmatan penjagaan mata kurang disepadukan ke dalam sistem kesihatan utama. Matlamat saya adalah untuk memberi inspirasi kepada tindakan untuk menangani cabaran ini bersama-sama. Projek yang dibentangkan dalam artikel ini adalah sebahagian daripada Iluminado, projek batu penjuru sains data semasa saya.
Tujuan mencipta projek ini adalah untuk melatih model ensemble pembelajaran mendalam, dan akhirnya menjadikannya sangat mudah untuk keluarga berpendapatan rendah untuk melaksanakan model ini tersedia, dan diagnosis risiko penyakit awal boleh dilakukan dengan kos yang rendah. Dengan menggunakan prosedur model saya, pakar oftalmologi boleh menentukan sama ada campur tangan segera diperlukan berdasarkan fotografi fundus retina.
OphthAI menyediakan set data imej pelbagai penyakit fundus (Retinal Fundus Multi-Disease Image Dataset, dirujuk sebagai "RFMiD") tersedia secara umum set data imej, set data ini mengandungi 3200 imej fundus yang ditangkap oleh tiga kamera fundus berbeza dan dijelaskan oleh dua pakar retina kanan berdasarkan konsensus yang diputuskan.
Imej ini diekstrak daripada beribu-ribu pemeriksaan yang dilakukan sepanjang 2009-2010, dengan pilihan kedua-dua imej berkualiti tinggi dan agak sedikit kualiti rendah, menjadikan Set Data lebih mencabar.
Set data dibahagikan kepada tiga bahagian, termasuk set latihan (60% atau 1920 imej), set penilaian (20% atau 640 imej) dan set ujian (20% dan 640 foto ). Secara purata, perkadaran orang yang mempunyai penyakit dalam set latihan, set penilaian dan set ujian masing-masing adalah 60±7%, 20±7% dan 20±5%. Tujuan asas set data ini adalah untuk menangani pelbagai penyakit mata yang timbul dalam amalan klinikal harian, dengan sejumlah 45 kategori penyakit/patologi dikenal pasti. Label ini boleh didapati dalam tiga fail CSV, iaitu RFMiD_Training_Labels.CSV, RFMiD_Validation_Labels.SSV dan RFMiD_Testing_Labels.CSV.
Imej di bawah diambil menggunakan alat yang dipanggil kamera fundus. Kamera fundus ialah mikroskop berkuasa rendah khusus yang dipasang pada kamera denyar yang digunakan untuk mengambil gambar fundus, lapisan retina di bahagian belakang mata.
Kini, kebanyakan kamera fundus adalah pegang tangan, jadi pesakit hanya perlu melihat terus ke dalam kanta. Antaranya, bahagian kilat yang terang menunjukkan bahawa imej fundus telah diambil.
Kamera pegang tangan mempunyai kelebihannya kerana ia boleh dibawa ke lokasi yang berbeza dan boleh menempatkan pesakit berkeperluan khas, seperti pengguna kerusi roda. Selain itu, mana-mana pekerja yang mempunyai latihan yang diperlukan boleh mengendalikan kamera, membolehkan pesakit diabetes yang kurang mendapat perkhidmatan membuat pemeriksaan tahunan mereka dengan cepat, selamat dan cekap.
Situasi fotografi sistem pengimejan retina fundus:
Rajah 2: Imej yang diambil berdasarkan ciri visual masing-masing : (a) retinopati diabetik (DR), (b) degenerasi makula berkaitan usia (ARMD) dan (c) jerebu sederhana (MH).
Proses saringan awal boleh dibantu dengan pembelajaran mendalam, tetapi diagnosis akhir dibuat oleh pakar oftalmologi menggunakan pemeriksaan slit lamp.
Proses ini juga dikenali sebagai diagnosis biomikroskopik, dan ia melibatkan pemeriksaan sel hidup. Doktor boleh melakukan pemeriksaan mikroskopik untuk menentukan sama ada terdapat sebarang kelainan pada mata pesakit.
Rajah 3: Ilustrasi pemeriksaan lampu celah
Berbeza daripada algoritma pembelajaran mesin tradisional, neural Konvolusi yang mendalam rangkaian (CNN) boleh menggunakan model berbilang lapisan untuk mengekstrak dan mengelaskan ciri secara automatik daripada data mentah.
Baru-baru ini, komuniti akademik telah menerbitkan sejumlah besar artikel mengenai penggunaan rangkaian neural convolutional (CNN) untuk mengenal pasti pelbagai penyakit mata, seperti retinopati diabetik dan hasil yang tidak normal (AUROC) >0.9) glaukoma, dsb.
Skor AUROC meringkaskan keluk ROC kepada nombor yang menerangkan prestasi model apabila mengendalikan berbilang ambang serentak. Perlu diingat bahawa skor AUROC 1 mewakili skor sempurna, manakala skor AUROC 0.5 sepadan dengan tekaan rawak.
Rajah 4: Perwakilan skematik keluk ROC
Entropi silang sering digunakan sebagai fungsi kehilangan dalam pembelajaran mesin. Entropi silang ialah metrik dalam bidang teori maklumat yang membina definisi entropi dan biasanya digunakan untuk mengira perbezaan antara dua taburan kebarangkalian, manakala entropi silang boleh dianggap sebagai mengira jumlah entropi antara dua taburan.
Entropi silang juga berkaitan dengan kehilangan logistik, yang dipanggil kerugian logaritma. Walaupun kedua-dua ukuran ini datang daripada sumber yang berbeza, apabila digunakan sebagai fungsi kerugian untuk model klasifikasi, kedua-dua kaedah mengira kuantiti yang sama dan boleh digunakan secara bergantian.
(Untuk butiran khusus, sila rujuk: https://machinelearningmastery.com/logistic-regression-with-maximum-likelihood-estimation/)
Entropi silang ialah ukuran perbezaan antara dua taburan kebarangkalian untuk set pembolehubah rawak atau peristiwa tertentu. Anda mungkin ingat bahawa maklumat mengukur bilangan bit yang diperlukan untuk mengekod dan menghantar peristiwa. Peristiwa berkemungkinan rendah cenderung mengandungi lebih banyak maklumat, manakala peristiwa berkemungkinan tinggi mengandungi kurang maklumat.
Dalam teori maklumat, kami suka menerangkan "kejutan" sesuatu peristiwa. Semakin kecil kemungkinan sesuatu peristiwa itu berlaku, semakin mengejutkannya, yang bermaksud ia mengandungi lebih banyak maklumat.
Memandangkan kebarangkalian kejadian P(x), maklumat h(x) boleh dikira untuk peristiwa x, seperti berikut:
h(x) = -log(P(x))
Rajah 4: Ilustrasi sempurna (Sumber imej: Vlastimil Martinek)
Entropi diperoleh daripada taburan kebarangkalian Bilangan bit diperlukan untuk menghantar acara yang dipilih secara rawak. Taburan condong mempunyai entropi yang lebih rendah, manakala taburan dengan kebarangkalian kejadian yang sama umumnya mempunyai entropi yang lebih tinggi.
Rajah 5: Ilustrasi sempurna nisbah sasaran kepada kebarangkalian yang diramalkan (Sumber imej: Vlastimil Martinek)
Taburan kebarangkalian yang condong mempunyai "kejutan" yang lebih sedikit dan seterusnya mempunyai entropi yang lebih rendah kerana kemungkinan peristiwa mendominasi. Secara relatifnya, taburan keseimbangan adalah lebih mengejutkan dan mempunyai entropi yang lebih tinggi kerana peristiwa itu berkemungkinan sama berlaku.
Entropi H(x) boleh dikira untuk pembolehubah rawak dengan set x keadaan diskret x dan kebarangkaliannya P(x), seperti yang ditunjukkan dalam rajah di bawah:
Rajah 6: Formula rentas entropi pelbagai peringkat (Sumber imej: Vlastimil Martinek)
Pengkelasan berbilang kategori - kami gunakan Entropi silang kategori ialah kes aplikasi khusus bagi entropi silang di mana sasaran menggunakan skema vektor pengekodan satu panas. (Pembaca yang berminat boleh merujuk artikel Vlastimil Martinek)
Rajah 7: Gambar rajah penguraian sempurna pengiraan kehilangan panda dan kucing (Sumber imej: Vlastimil Martinek)
Rajah 8: Penguraian sempurna bagi nilai kerugian 1 (Sumber imej: Vlastimil Martinek)
Rajah 9: Penguraian sempurna bagi nilai kehilangan Rajah 2 (Sumber imej: Vlastimil Martinek)
Rajah 9: Visual perwakilan tentang kebarangkalian dan kerugian (Sumber imej: Vlastimil Martinek)
Rajah 10: Ilustrasi formula rentas entropi kategori (Sumber imej: Vlastimil Martinek)
Dalam kami projek Kami memilih untuk menggunakan klasifikasi binari - skema silang entropi binari, iaitu, skema silang entropi dengan sasaran 0 atau 1. Jika kita menukar sasaran kepada vektor pengekodan panas masing-masing [0,1] atau [1,0] dan meramalkan, maka kita boleh menggunakan formula entropi silang untuk mengira.
Rajah 11: Ilustrasi formula pengiraan entropi silang binari (Sumber imej: Vlastimil Martinek)
Dalam persekitaran model berbilang label biasa, ciri set data mungkin mempunyai bilangan label positif dan negatif yang tidak seimbang. Pada ketika ini, kecenderungan set data untuk memihak kepada label negatif mempunyai pengaruh yang dominan pada proses pengoptimuman dan akhirnya membawa kepada kurang penekanan kecerunan label positif, sekali gus mengurangkan ketepatan keputusan ramalan.
Ini betul-betul situasi yang dihadapi oleh set data yang saya gunakan sekarang.
Algoritma kehilangan asimetri yang dibangunkan oleh BenBaruch et al (rujuk Rajah 12) digunakan dalam projek ini. Ini adalah kaedah untuk menyelesaikan klasifikasi berbilang label, tetapi terdapat juga yang serius masalah dalam kategori situasi pengagihan tidak seimbang.
Cara yang saya fikirkan ialah mengurangkan berat bahagian label negatif dengan mengubah suai komponen positif dan negatif entropi silang secara tidak simetri, dan akhirnya menyerlahkan positif yang dinyatakan di atas label yang lebih sukar diproses.
Rajah 12: Algoritma pengelasan berbilang label asimetri (2020, pengarang: Ben-Baruch et al.)
Untuk meringkaskan, projek ini menggunakan seni bina yang ditunjukkan dalam rajah:
Rajah 13 (Sumber gambar: Sixu)
Algoritma utama yang digunakan dalam seni bina di atas terutamanya termasuk:
, oleh Cathy KamAtas ialah kandungan terperinci Algoritma pembelajaran ensemble mendalam untuk pengelasan imej retina. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!