ホームページ > 記事 > テクノロジー周辺機器 > 網膜画像分類のためのディープアンサンブル学習アルゴリズム
翻訳者 | Zhu Xianzhong
改訂 | Sun Shujuan
写真 1 :原作者自身がデザインしたイルミナド プロジェクトの表紙
2019 年、世界保健機関は、世界には視覚障害のある人が約 22 億人いると推定し、そのうち少なくとも 1 人は視覚障害者であると推定しました。 10億人が予防できたかもしれない、あるいは今も視覚障害に苦しんでいる。眼科医療に関しては、世界は予防、治療、リハビリテーションサービスの適用範囲や質の不平等など、多くの課題に直面しています。訓練を受けた眼科医療スタッフが不足しており、眼科医療サービスは主要な医療システムに十分に統合されていません。私の目標は、これらの課題に一緒に対処するための行動を促すことです。この記事で紹介するプロジェクトは、私の現在のデータ サイエンスの頂点プロジェクトである Iluminado の一部です。
このプロジェクトを作成する目的は、深層学習アンサンブル モデルをトレーニングし、最終的にはそのモデルを低コストで非常に簡単に実装することです。所得世帯が利用でき、低コストで初期の疾病リスク診断が可能です。私のモデル手順を使用することで、眼科医は網膜眼底写真に基づいて即時の介入が必要かどうかを判断できます。
OphthAI は、複数の疾患に対応した眼底画像データ セット (網膜眼底複数疾患画像データセット、「RFMiD」と呼ばれる) を提供しています。一般公開されています。画像データセット。このデータセットには、3 台の異なる眼底カメラで撮影され、2 人の上級網膜専門家によって判断されたコンセンサスに基づいて注釈が付けられた 3,200 枚の眼底画像が含まれています。
これらの画像は、2009 年から 2010 年の間に実施された数千件の検査から抽出され、高品質の画像とかなりの数の低品質の画像の両方を選択してデータセットをより困難にしました。
データセットは、トレーニング セット (60% または 1920 枚の画像)、評価セット (20% または 640 枚の画像)、テスト セット (20% または 640 枚の写真) の 3 つの部分に分割されています。 )。平均して、トレーニングセット、評価セット、およびテストセットにおける疾患のある人の割合は、それぞれ60±7%、20±7%、および20±5%でした。このデータセットの基本的な目的は、日常の臨床診療で発生するさまざまな眼疾患に対処することであり、合計 45 のカテゴリの疾患/病状が特定されています。これらのラベルは、RFMiD_Training_Labels.CSV、RFMiD_Validation_Labels.SSV、RFMiD_Testing_Labels.CSV という 3 つの CSV ファイルにあります。
下の画像は、眼底カメラと呼ばれるツールを使用して撮影されました。眼底カメラは、フラッシュ カメラに取り付けられた特殊な低倍率顕微鏡で、眼底、つまり目の奥の網膜層を撮影するために使用されます。
現在、ほとんどの眼底カメラは手持ち式なので、患者はレンズを直接見るだけで済みます。このうち、明るいフラッシュ部分は眼底像が撮影されたことを示している。
ハンドヘルド カメラには、さまざまな場所に持ち運べ、車椅子ユーザーなど特別なニーズを持つ患者にも対応できるという利点があります。さらに、必要なトレーニングを受けた従業員であれば誰でもカメラを操作できるため、十分な治療を受けていない糖尿病患者が迅速、安全、効率的に年次検査を受けることができます。
眼底イメージングシステムの撮影状況:
図 2: それぞれの視覚特性に基づいて撮影された画像:(a)糖尿病性網膜症(DR)、(b)加齢黄斑変性症(ARMD)、および(c)中程度のヘイズ(MH)。
最初のスクリーニングプロセスはディープラーニングによって支援されますが、最終的な診断は細隙灯検査を使用して眼科医によって行われます。
生体顕微鏡診断としても知られるこのプロセスには、生きた細胞の検査が含まれます。医師は顕微鏡検査を行って、患者の目に異常があるかどうかを判断します。
図 3: 細隙灯検査の図
#網膜画像分類における深層学習の応用従来の機械学習アルゴリズムとは異なり、深さ畳み込みニューラルネットワーク (CNN) は、多層モデルを使用して、生データから特徴を自動的に抽出して分類できます。
最近、学術コミュニティは、糖尿病性網膜症や異常転帰 (AUROC) などのさまざまな眼疾患を特定するための畳み込みニューラル ネットワーク (CNN) の使用に関する多数の論文を発表しました。 >0.9) 緑内障など
データ メトリクスAUROC スコアは、ROC 曲線を数値に要約し、複数のしきい値を同時に処理するときにモデルがどの程度うまく機能するかを示します。 AUROC スコア 1 は完全なスコアを表し、AUROC スコア 0.5 はランダムな推測に対応することに注意してください。
#図 4: ROC 曲線表示の概略図使用した方法 - クロスエントロピー損失関数
クロス エントロピーは、機械学習の損失関数としてよく使用されます。クロス エントロピーは、エントロピーの定義に基づいた情報理論の分野の指標であり、通常 2 つの確率分布間の差を計算するために使用されます。一方、クロス エントロピーは 2 つの分布間の合計エントロピーを計算するものと考えることができます。クロスエントロピーは、対数損失と呼ばれるロジスティック損失にも関連します。これら 2 つの測定値は異なるソースから得られますが、分類モデルの損失関数として使用される場合、どちらの方法も同じ数量を計算するため、互換的に使用できます。
(具体的な詳細については、https://machinelearningmastery.com/logistic-regression-with-maximum-likelihood-estimation/ を参照してください)
クロスエントロピーとは?
クロスエントロピーは、確率変数または一連のイベントが与えられた場合の 2 つの確率分布間の差の尺度です。情報は、イベントのエンコードと送信に必要なビット数を数値化したものであることを思い出してください。低確率のイベントにはより多くの情報が含まれる傾向がありますが、高確率のイベントには含まれる情報が少なくなります。情報理論では、出来事の「驚き」を表現することが好きです。出来事が起こる可能性が低いほど、その出来事はより驚くべきものであり、より多くの情報が含まれていることを意味します。
h(x) = -log(P(x))
図 4: 完璧な図 (画像提供: Vlastimil Martinek)
エントロピーは、確率分布からのランダム性の伝達です。選択したイベントに必要なビット。歪んだ分布はエントロピーが低くなりますが、イベントの確率が等しい分布は一般にエントロピーが高くなります。
# 図 5: ターゲット確率と予測確率の比率の完璧な図 (画像提供: Vlastimil Martinek)
歪んだ確率分布では「驚き」が少なく、起こり得る出来事が支配的になるため、エントロピーが低くなります。相対的に言えば、平衡分布はより驚くべきものであり、イベントが発生する可能性が等しいため、エントロピーが高くなります。
歪んだ確率分布 (当然のこと): エントロピーが低い。
図 6: マルチレベルのクロスエントロピー式 (画像出典: Vlastimil Martinek)
マルチカテゴリー分類 - 私たちは複数のカテゴリカル クロス エントロピーの使用は、ターゲットがワンホット エンコーディング ベクトル スキームを使用するクロス エントロピーの特定のアプリケーション ケースです。 (興味のある読者は Vlastimil Martinek の記事を参照してください)
図 7: パンダとネコの損失計算の完全な分解図 (画像出典: Vlastimil Martinek)
#図 8: 損失値の完全な分解図 1 (画像出典: Vlastimil Martinek)
##図 9: 損失値の完全な分解図 2 (画像出典: Vlastimil Martinek)
図 9:確率と損失の視覚的表現 (画像出典: Vlastimil Martinek)
バイナリのクロスエントロピーについてはどうですか?図 10: カテゴリカルクロスエントロピー式の図 (画像ソース: Vlastimil Martinek)
プロジェクト 私たちはバイナリ分類、つまりバイナリ クロス エントロピー スキーム、つまりターゲットが 0 または 1 のクロス エントロピー スキームを使用することを選択しました。ターゲットをそれぞれ [0,1] または [1,0] のホット エンコーディング ベクトルに変換して予測すると、クロス エントロピー式を使用して計算できます。
図 11: バイナリ クロス エントロピー計算式の図 (画像提供: Vlastimil Martinek)
非対称性の使用損失アルゴリズムは不均衡なデータを処理します典型的なマルチラベル モデル環境では、データ セットの特徴に不均衡な数の正のラベルと負のラベルが含まれる可能性があります。この時点で、負のラベルを好むデータセットの傾向が最適化プロセスに大きな影響を及ぼし、最終的には正のラベルの勾配が強調されなくなり、予測結果の精度が低下します。
これは、私が現在選択しているデータセットが直面している状況とまったく同じです。
このプロジェクトでは、BenBaruch らが開発した非対称損失アルゴリズムを使用しています (図 12 を参照)。これは、マルチラベル分類を解決する手法ですが、重大な問題もあります。カテゴリー. 偏った分布状況。
私が考える方法は、クロスエントロピーの正と負の成分を非対称に変更することで、負のラベル部分の重みを減らし、最終的に上記のことを強調することです。処理がより困難なポジティブラベル。
#図 12: 非対称マルチラベル分類アルゴリズム (2020、著者: Ben-Baruch et al.)テスト対象のアーキテクチャ
要約すると、この記事のプロジェクトでは、次の図に示すアーキテクチャが使用されます。
##図 13 (画像提供: Sixu)
上記のアーキテクチャで使用される主要なアルゴリズムには、主に次のものが含まれます。
さらに、上記のアルゴリズム関連のコンテンツは、この記事の Capstone プロジェクトを完了した後に必ず更新されます。興味のある読者はぜひご期待ください!
Zhu Xianzhong 氏、51CTO コミュニティ編集者、51CTO エキスパートブロガー、講師、濰坊市の大学のコンピューター教師、そしてフリーランスプログラミング業界のベテラン。
#元のタイトル: ##網膜画像分類のための深層アンサンブル学習 (CNN) キャシー・カム著
以上が網膜画像分類のためのディープアンサンブル学習アルゴリズムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。