ホームページ >テクノロジー周辺機器 >AI >メタのセグメントを探索する医療イメージングのモデルは何でも
MetaのセグメントAnything Model(SAM)は、画像のさまざまな領域のオブジェクトを検出する能力を実証しています。このモデルのアーキテクチャは柔軟であり、ユーザーはさまざまなプロンプトでガイドできます。トレーニング中、データセットにないオブジェクトをセグメント化できます。
これらの機能により、このモデルは、あらゆる目的でオブジェクトを検出およびセグメント化するための非常に効果的なツールになります。このツールは、自動運転車やロボット工学などの業界ベースのアプリケーションで見たように、特定のセグメンテーションタスクにも使用できます。このモデルのもう1つの重要な詳細は、マスクと境界ボックスを使用して画像をセグメント化する方法です。これは、医療目的で機能する方法に不可欠です。
ただし、メタのセグメント医療イメージングのモデルは、スキャンされた画像の異常の診断と検出に大きな役割を果たします。 Medsamは、さまざまなソースから収集された画像マスクペアでモデルを訓練します。このデータセットは、15を超える画像モダリティと30を超える癌タイプもカバーしています。
このモデルが、境界ボックスを使用して医療画像からオブジェクトを検出する方法について説明します。
この記事は、データサイエンスブログソンの一部として公開されました。
SAMは、メタによって開発された画像セグメンテーションモデルで、画像のほぼすべての領域でオブジェクトを識別します。このモデルの最良の属性は、その汎用性であり、画像を検出するときに一般化できるようになります。
このモデルは、魅力的な1100万の実世界の画像でトレーニングされましたが、さらに興味深いことに、データセットに存在しないオブジェクトをセグメント化できます。
さまざまな構造を持つ多くの画像セグメンテーションとオブジェクト検出モデルがあります。このようなモデルはタスク固有またはベースモデルになる可能性がありますが、「セグメント」モデルであるサムは、何百万もの画像を検出しながら微調整の余地を残すための基礎的な背景を持っているため、両方になります。それは、メッサムと同じように、研究者がさまざまなアイデアを持ってやってくる場所です。
SAMの能力のハイライトは、適応する能力です。また、プロンプトベースのセグメンテーションモデルでもあります。つまり、セグメンテーションタスクを実行する方法に関する情報を受信できます。これらには、前景、背景、粗いボックス、境界ボックス、マスク、テキスト、およびモデルが画像をセグメント化するのに役立つその他の情報が含まれます。
このモデルのアーキテクチャの基本原則は、画像エンコーダー、プロンプトエンコーダー、およびマスクエンコーダーです。 3つのコンポーネントはすべて、セグメンテーションタスクの実行に大きな役割を果たします。画像とプロンプトエンコーダーは、画像を生成し、プロンプトの埋め込みに役立ちます。マスクエンコーダーは、プロンプトを使用してセグメント化する画像用に生成されたマスクを検出します。
セグメントを使用して、医療目的でモデルをすべて試す価値がありました。また、このモデルには大きなデータセットとさまざまな機能があります。なぜなら、なぜ医療画像はないのですか?ただし、医療セグメンテーションへの適用には、医療画像の性質と、モデルが画像内の不確実な境界ボックスに対処する方法に関する問題のために、いくつかの制限がありました。医療画像の画像マスクの性質からの課題により、専門化の必要性が不可欠になります。そのため、Samのアーキテクチャに基づいて構築されたセグメンテーションモデルであるが、医療画像に合わせたメドサムの革新をもたらしました。
このモデルは、解剖学的構造とさまざまな画像インスタンスのさまざまなタスクを処理できます。医療イメージングは、このモデルで効果的な結果をもたらします。 15のイメージングモダリティと30を超える癌タイプは、Medsamに関与する大規模な医療画像セグメンテーショントレーニングを示しています。
Medsamは、事前に訓練されたSAMモデルに基づいて構築されました。フレームワークには、ターゲット画像上のエンコードマスクの埋め込みを生成する画像とプロンプトエンコーダが含まれます。
セグメントの画像エンコーダーAnythingモデルは、多くのコンピューティングパワーを必要とする位置情報を処理します。プロセスをより効率的にするために、このモデルの研究者は、画像エンコーダーとプロンプトエンコーダーの両方を「フリーズ」することを決定しました。つまり、トレーニング中にこれらの部品の更新または変更を停止しました。
SAMのBounding-Boxエンコーダーのデータを使用してオブジェクトの位置を理解するのに役立つプロンプトエンコーダーも変更されませんでした。これらのコンポーネントを凍結することにより、必要なコンピューティング能力を低下させ、システムをより効率的にしました。
研究者は、このモデルのアーキテクチャを改善して、より効率的にしました。モデルを促す前に、繰り返し計算を避けるために、トレーニング画像の画像埋め込みを計算しました。マスクエンコーダー(微調整された唯一の微調整)は、境界ボックスがセグメントの領域を明確に定義するのに役立つため、3つではなく1つのマスクエンコーダーを作成します。このアプローチにより、トレーニングがより効率的になりました。
このモデルの仕組みのグラフィカルなイラストは次のとおりです。
このモデルは機能するためにいくつかのライブラリが必要になり、画像上で医療画像セグメンテーションタスクを実行する方法について飛び込みます。
このモデルを実行するには、さらにいくつかのライブラリが必要です。プロンプトの一部として境界ボックスにラインを描画する必要があるからです。まず、リクエスト、Numpy、およびMetaplotから始めます。
リクエストをインポートします npとしてnumpyをインポートします pltとしてmatplotlib.pyplotをインポートします PILインポート画像から Sammodel、Sammodel、Samprocessorのトランスから トーチをインポートします
「リクエスト」ライブラリは、ソースから画像を取得するのに役立ちます。 「numpy」ライブラリは、境界ボックスの座標を含む数値操作を実行するため有用になります。 PILとメタプロットは、それぞれ画像処理と表示を支援します。 SAMモデルに加えて、プロセッサとトーチ(以下のコードで定義されている計算の処理)は、このモデルを実行するための重要なパッケージです。
device = "cuda" if torch.cuda.is_available()else "cpu"
Model = sammodel.from_pretrained( "flaviagiammarino/medsam-vit-base")。to(device) processor = samprocessor.from_pretrained( "flaviagiammarino/medsam-vit-base"))
したがって、事前に訓練されたモデルは通常、GPUやCPUなどの最も適切なコンピューティングデバイスを使用します。この操作は、モデルのプロセッサをロードし、画像入力データ用に準備する前に行われます。
img_url = "https://huggingface.co/flaviagiammarino/medsam-vit-base/resolve/main/scripts/input.png" raw_image = image.open(requests.get(img_url、stream = true).raw).convert( "rgb")) input_boxes = [95.、255.、190.、350。]
特に環境にあるライブラリでは、画像にURLをロードするのは簡単です。また、画像を開いて、処理のために互換性のある形式に変換することもできます。 「input_boxes」リストは、境界ボックスを座標で定義します[95、255、190、350]。この数字は、関心のある領域の画像の左上および右下の角の角を表しています。境界ボックスを使用して、特定の領域に焦点を当てたセグメンテーションタスクを実行できます。
次に、画像入力を処理し、セグメンテーションモデルを実行し、出力マスクを準備します。モデルプロセッサは、生の画像と入力ボックスを準備し、処理に適した形式に変換します。その後、マスクの確率を予測するために、処理された入力が実行されます。このコードは、セグメント化された領域の洗練された確率ベースのマスクをもたらします。
inputs = processor(raw_image、input_boxes = [[input_boxes]]、return_tensors = "pt")。to(device) outputs = model(** inputs、multimask_output = false) probs = processor.image_processor.post_process_masks(outputs.pred_masks.sigmoid()。cpu()、inputs ["original_sizes"]。cpu()、inputs ["reshaped_input_sizes"]。
def show_mask(マスク、ax、random_color): if random_color: color = np.concatenate([np.random.random(3)、np.array([0.6])]、axis = 0) それ以外: color = np.Array([251/255、252/255、30/255、0.6]) h、w = mask.shape [-2:] mask_image = mask.reshape(h、w、1) * color.reshape(1、1、-1) ax.imshow(mask_image)
ここでは、 'axを使用して画像に色付きのマスクを表示しようとします。見せる。' show_mask関数には、プロットにセグメンテーションマスクが表示されます。ランダムな色またはデフォルトの黄色を使用できます。マスクは、画像に合わせてサイズ変更され、選択した色でオーバーレイされ、「ax.show」を使用して視覚化されます。
その後、関数は座標とその位置を使用して長方形を描画します。このプロセスは、以下に示すように実行されます。
def show_box(box、ax): x0、y0 = box [0]、box [1] w、h = box [2] - box [0]、box [3] - box [1] ax.add_patch(plt.rectangle((x0、y0)、w、h、edgecolor = "blue"、facecolor =(0、0、0、0)、lw = 2)))
図、ax = plt.subplots(1、2、figsize =(10、5)) ax [0] .imshow(np.array(raw_image))) show_box(input_boxes、ax [0]) ax [0] .set_title( "入力画像と境界ボックス")) ax [0] .axis( "off") ax [1] .imshow(np.array(raw_image)) show_mask(mask = probs [0]> 0.5、ax = ax [1]、random_color = false) show_box(input_boxes、ax [1]) ax [1] .set_title( "medsamセグメンテーション") ax [1] .axis( "off") plt.show()
このコードは、2つの並んでサブプロットを備えた図を作成し、境界ボックスと結果を含む入力画像を表示します。最初のサブプロットには、境界ボックスが付いた元の画像が表示され、2番目のサブプロットはマスクのオーバーレイと境界ボックスを備えた画像を示しています。
SAM、基礎モデルは多目的ツールです。その高い一般化機能と、実際の画像からの数百万のデータセットトレーニングにより、このモデルができることがたくさんあります。このモデルの一般的なアプリケーションは次のとおりです。
Medsamは、モデルのユースケースであらゆるセグメントの大きなマイルストーンです。医療イメージングは、通常の画像よりも複雑です。このモデルは、このコンテキストを理解するのに役立ちます。さまざまな診断アプローチを使用して、医療イメージングで癌の種類や他の細胞を検出すると、このモデルがタスク固有の検出のためにより効率的になります。
メタのセグメントモデルの汎用性は何でも大きな可能性を示しています。その医療イメージング能力は、ヘルスケア業界の診断と関連するタスクに革命をもたらす上で重要なマイルストーンです。境界ボックスを統合すると、さらに効果的になります。医療イメージングは、SAMベースモデルが進化するにつれて改善することができます。
A.サムは、メタによって開発された画像処理技術であり、オブジェクトを検出し、画像内のあらゆる領域にセグメント化します。また、モデルのデータセットでトレーニングされていないオブジェクトをセグメント化することもできます。このモデルは、プロンプトとマスクで動作するように訓練されており、さまざまなドメインで適応可能です。
Q2。 Medsamは元のSAMモデルとどのように違いますか?A. Medsamは、医療イメージング専用に設計されたSAMの微調整バージョンです。 SAMは汎用ですが、Medsamは医療イメージングの複雑な性質を処理するために最適化されており、これはさまざまなイメージングのモダリティとがんの検出につながります。
Q3。サムはリアルタイムアプリケーションに使用できますか?A.このモデルの汎用性とリアルタイムの処理機能により、自動運転車やロボット工学など、リアルタイムアプリケーションで使用できます。画像内のオブジェクトを迅速かつ効率的に検出および理解できます。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がメタのセグメントを探索する医療イメージングのモデルは何でもの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。