ホームページ  >  記事  >  テクノロジー周辺機器  >  テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

WBOY
WBOYオリジナル
2024-06-22 07:16:49652ブラウズ

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

著者 | Bai Fan、香港中文大学

編集者 | ScienceAI

最近、香港中文大学と知源は、M3D-Data、M3D-LaMed、M3D を含む一連の研究を共同提案しました。 -ベンチは、データセットからモデル、評価まであらゆる面から3D医用画像解析の開発を推進します。

(1) M3D-Data は現在最大の 3D 医療画像データセットであり、M3D-Cap (120K 3D 画像とテキストのペア)、M3D-VQA (510K の質問と回答のペア)、M3D-Seg (150K 3D マスク) が含まれます。 , M3D-RefSeg (3K 推論セグメンテーション) には 4 つのサブデータセットがあります。

(2) M3D-LaMed は現在最も汎用性の高い 3D 医療マルチモーダル大型モデルであり、テキスト (疾患診断、画像検索、視覚的な質疑応答、レポート生成など)、位置決め (ターゲット検出、視覚的) を解決できます。ポジショニングなど) とセグメンテーション (セマンティック セグメンテーション、参照セグメンテーション、推論セグメンテーションなど) の 3 種類の医療分析タスク。

(3) M3D-Bench は、テキスト、位置決め、セグメンテーションの 3 つの側面をカバーする 8 つのタスクを包括的かつ自動的に評価でき、手動で検証されたテスト データを提供します。

データセット、モデル、コードは早ければ 2024 年 4 月にリリースされる予定です。

最近、より小型で強力な M3D-LaMed-Phi-3-4B モデルを提供し、誰もが体験できるオンライン デモを追加しました。

最新の進捗状況については、GitHub ライブラリの更新にご注意ください。ご質問やご提案がございましたら、いつでもお気軽にご連絡ください。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

  • ペーパーリンク:https://arxiv.org/abs/2404.00578
  • コード:https://github.com/BAAI-DCAI/M3D
  • モデル:https:// hackgingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • データセット:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • オンラインデモ: https://baai.rpailab.xyz/

医療画像に関連する研究者に何を提供できるでしょうか?

    M3D-Data、最大の 3D 医療マルチモーダル データセット、
  1. M3D-Seg、ほぼすべてのオープンソース 3D 医療セグメンテーション データ セット、合計 25 を統合します。ほとんどの機能を備えたセグメント化された 3D 医療マルチモーダル大規模モデルは、簡潔で明確なコード フレームワークを提供し、研究者は M3D-Cap 3D 画像とテキストのペアに基づいて各モジュールの設定を簡単に変更できます。画像とテキストの対比学習用の M3D-CLIP モデルを開発し、視覚的な事前トレーニング重み 3DViT
  2. M3D-Bench、包括的で明確な評価計画とコードを提供します。
  3. この記事に含まれるすべてのリソースは、研究者が共同で 3D 医用画像解析の開発を促進するのに役立つことを期待して一般に公開されています。

オンラインデモビデオ。 テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

医療画像分析は臨床診断と治療に不可欠であり、マルチモーダル大規模言語モデル (MLLM) がこれをサポートするようになっています。しかし、これまでの研究は主に 2D 医用画像に焦点を当てており、3D 画像はより豊富な空間情報を持っているにもかかわらず、十分な研究と探索が行われていませんでした。
この記事は、MLLM を使用した 3D 医療画像解析を進歩させることを目的としています。この目的を達成するために、我々は大規模な 3D マルチモーダル医療データセット M3D-Data を提案します。これには、120K の画像とテキストのペアと 662K の命令と応答のペアが含まれており、画像とテキストの検索、レポートの生成、視覚的な質問応答、ローカリゼーション、セグメンテーション。

さらに、3D 医用画像解析のための多用途マルチモーダル大規模言語モデルである M3D-LaMed を提案します。

また、8 つのタスクの自動評価を容易にする、新しい 3D マルチモーダル医療ベンチマーク M3D-Bench も導入します。包括的な評価を通じて、当社のアプローチは既存のソリューションを上回る堅牢な 3D 医用画像解析モデルであることが証明されています。すべてのコード、データ、モデルは、次の場所で公開されています。

データセット

M3D-Data には、M3D-Cap (画像とテキストのペア)、M3D-VQA (視覚的な質問と回答のペア)、M3D-RefSeg (推論セグメンテーション)、および M3D の合計 4 つのサブデータセットが含まれています。 -Seg (25 の 3D セグメンテーション データセットを統合)。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

データセットの統計。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

M3D-VQA データセットの配布。問題の種類には、主に 5 つの一般的な 3D 画像問題 (平面、位相、臓器、異常、位置) が含まれます。

ほぼすべてのオープンソース 3D 医療セグメンテーション データセットを統合して、合計 25 の M3D-Seg を形成しました。データ セットは、セマンティック セグメンテーション、推論セグメンテーション、参照セグメンテーション、および対応する検出および位置特定タスクに使用できます。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

M3D セグメント。

モデル

M3D-LaMed モデルの構造を下の図に示します。 (a) 3D 画像エンコーダは、クロスモーダル対比学習損失を通じて画像およびテキスト データから事前にトレーニングされており、画像およびテキストの検索タスクに直接適用できます。 (b) M3D-LaMed モデルでは、3D 医療画像が事前トレーニング済み 3D 画像エンコーダと効率的な 3D 空間プーリング パーセプトロンに入力され、ビジュアル トークンが LLM に挿入され、出力 [SEG] がセグメンテーションモジュールを駆動するよう求めるプロンプトが表示されます。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

M3D-LaMed モデルの構造。

実験

グラフィックとテキストの取得

3D グラフとテキストの取得では、モデルは類似性に基づいてデータセットから画像とテキストを照合することを目的とし、通常は次の 2 つのタスクを伴います: テキストから画像の取得 (TR) ) および画像からテキストへの検索 (IR)。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

2D医療の代表モデルであるPMC-CLIPを3D画像やテキスト検索に適用したところ、空間情報が不足しているため、検索がほぼ不可能であることが分かりました。 3D 画像およびテキスト検索モデルと比較します。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

レポート生成

レポート生成では、モデルは 3D 医用画像から抽出された情報に基づいてテキスト レポートを生成します。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

クローズドビジュアル質問応答

クローズドビジュアル質問応答では、A、B、C、Dなどのクローズド回答候補をモデルに提供する必要があり、モデルは選択する必要があります候補者からの正解。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

M3D-LaMedは医療分野において一般的なGPT-4Vよりも優れた性能を発揮することがわかりました。

オープンビジュアルな質問と回答

オープンなビジュアルな質問と回答では、モデルは回答のヒントや候補なしで自由回答を生成します。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

M3D-LaMedは医療分野において一般的なGPT-4Vよりも優れた性能を発揮することがわかりました。ただし、GPT-4V では現在、回答が医療関連の質問に限定されていることに注意してください。

ポジショニング

視覚言語タスク、特に入力ボックスと出力ボックスが関係するタスクでは、位置決めが重要です。指示表現理解 (REC) などの出力ボックス内のタスクは、指示表現に基づいて画像内のターゲット オブジェクトを特定することを目的としています。対照的に、参照式生成 (REG) などの入力ボックス タスクでは、モデルが画像とロケーション ボックスに基づいて特定の領域の記述を生成する必要があります。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

セグメンテーション

セグメンテーション タスクは、その認識機能と位置特定機能により、3D 医用画像解析において非常に重要です。さまざまなテキストの手がかりに対処するために、セグメンテーションは意味セグメンテーションと指示表現セグメンテーションに分割されます。セマンティック セグメンテーションの場合、モデルはセマンティック ラベルに基づいてセグメンテーション マスクを生成します。参照表現のセグメンテーションには、自然言語表現の記述に基づいたターゲットのセグメンテーションが必要であり、これにはモデルが特定の理解および推論能力を備えていることが必要です。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

配布外 (OOD) 問題のケーススタディ

OOD 会話で M3D-LaMed モデルをテストしました。これは、すべての問題がトレーニング データに関連していないことを意味します。 M3D-LaMed には強力な一般化機能があり、OOD の問題に対して意味不明な回答ではなく合理的な回答を生成できることがわかりました。各会話セットでは、左側のアバターと質問はユーザーからのもので、右側のアバターと回答は M3D-LaMed からのものです。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

このモデルには、強力な推論機能と一般化機能があります。

最新のトレーニング済み小型 M3D-LaMed-Phi-3-4B モデルはパフォーマンスが向上しており、どなたでもご利用いただけます。 GoodBaiBai88/M3D-LaMed-Phi-3-4B · ハグフェイス

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

レポート生成テスト結果

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

クローズドVQAテスト結果

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

TotalSegmentator セマンティック セグメンテーション ダイスでレビュー済み結果

概要

当社の M3D シリーズの研究は、3D 医用画像解析における MLLM の使用を促進します。具体的には、3D 医療タスクに合わせて調整された、120,000 の 3D 画像とテキストのペアと 662,000 の命令と応答のペアが含まれる大規模な 3D マルチモーダル医療データセット M3D-Data を構築します。さらに、画像テキストの検索、レポート生成、視覚的な質問応答、位置特定、およびセグメンテーションを処理する一般的なモデルである M3D-LaMed を提案します。さらに、8 つのタスク向けに慎重に設計された包括的なベンチマークである M3D-Bench を紹介します。

私たちのアプローチは、MLLM が 3D 医療現場のビジョンと言語を理解するための強固な基盤を築きます。当社のデータ、コード、モデルは、将来の研究における 3D 医療 MLLM のさらなる探索と応用を促進します。私たちの研究がこの分野の研究者に役立つことを願っています。誰もがそれを使用し、議論することを歓迎します。

以上がテキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。