ホームページ > 記事 > テクノロジー周辺機器 > テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました
著者 | Bai Fan、香港中文大学
編集者 | ScienceAI
最近、香港中文大学と知源は、M3D-Data、M3D-LaMed、M3D を含む一連の研究を共同提案しました。 -ベンチは、データセットからモデル、評価まであらゆる面から3D医用画像解析の開発を推進します。
(1) M3D-Data は現在最大の 3D 医療画像データセットであり、M3D-Cap (120K 3D 画像とテキストのペア)、M3D-VQA (510K の質問と回答のペア)、M3D-Seg (150K 3D マスク) が含まれます。 , M3D-RefSeg (3K 推論セグメンテーション) には 4 つのサブデータセットがあります。
(2) M3D-LaMed は現在最も汎用性の高い 3D 医療マルチモーダル大型モデルであり、テキスト (疾患診断、画像検索、視覚的な質疑応答、レポート生成など)、位置決め (ターゲット検出、視覚的) を解決できます。ポジショニングなど) とセグメンテーション (セマンティック セグメンテーション、参照セグメンテーション、推論セグメンテーションなど) の 3 種類の医療分析タスク。
(3) M3D-Bench は、テキスト、位置決め、セグメンテーションの 3 つの側面をカバーする 8 つのタスクを包括的かつ自動的に評価でき、手動で検証されたテスト データを提供します。
データセット、モデル、コードは早ければ 2024 年 4 月にリリースされる予定です。
最近、より小型で強力な M3D-LaMed-Phi-3-4B モデルを提供し、誰もが体験できるオンライン デモを追加しました。
最新の進捗状況については、GitHub ライブラリの更新にご注意ください。ご質問やご提案がございましたら、いつでもお気軽にご連絡ください。
医療画像に関連する研究者に何を提供できるでしょうか?
オンラインデモビデオ。
医療画像分析は臨床診断と治療に不可欠であり、マルチモーダル大規模言語モデル (MLLM) がこれをサポートするようになっています。しかし、これまでの研究は主に 2D 医用画像に焦点を当てており、3D 画像はより豊富な空間情報を持っているにもかかわらず、十分な研究と探索が行われていませんでした。データセット
M3D-Data には、M3D-Cap (画像とテキストのペア)、M3D-VQA (視覚的な質問と回答のペア)、M3D-RefSeg (推論セグメンテーション)、および M3D の合計 4 つのサブデータセットが含まれています。 -Seg (25 の 3D セグメンテーション データセットを統合)。モデル
M3D-LaMed モデルの構造を下の図に示します。 (a) 3D 画像エンコーダは、クロスモーダル対比学習損失を通じて画像およびテキスト データから事前にトレーニングされており、画像およびテキストの検索タスクに直接適用できます。 (b) M3D-LaMed モデルでは、3D 医療画像が事前トレーニング済み 3D 画像エンコーダと効率的な 3D 空間プーリング パーセプトロンに入力され、ビジュアル トークンが LLM に挿入され、出力 [SEG] がセグメンテーションモジュールを駆動するよう求めるプロンプトが表示されます。
実験
グラフィックとテキストの取得
3D グラフとテキストの取得では、モデルは類似性に基づいてデータセットから画像とテキストを照合することを目的とし、通常は次の 2 つのタスクを伴います: テキストから画像の取得 (TR) ) および画像からテキストへの検索 (IR)。
レポート生成
レポート生成では、モデルは 3D 医用画像から抽出された情報に基づいてテキスト レポートを生成します。
クローズドビジュアル質問応答
クローズドビジュアル質問応答では、A、B、C、Dなどのクローズド回答候補をモデルに提供する必要があり、モデルは選択する必要があります候補者からの正解。
オープンビジュアルな質問と回答
オープンなビジュアルな質問と回答では、モデルは回答のヒントや候補なしで自由回答を生成します。
ポジショニング
視覚言語タスク、特に入力ボックスと出力ボックスが関係するタスクでは、位置決めが重要です。指示表現理解 (REC) などの出力ボックス内のタスクは、指示表現に基づいて画像内のターゲット オブジェクトを特定することを目的としています。対照的に、参照式生成 (REG) などの入力ボックス タスクでは、モデルが画像とロケーション ボックスに基づいて特定の領域の記述を生成する必要があります。
セグメンテーション
セグメンテーション タスクは、その認識機能と位置特定機能により、3D 医用画像解析において非常に重要です。さまざまなテキストの手がかりに対処するために、セグメンテーションは意味セグメンテーションと指示表現セグメンテーションに分割されます。セマンティック セグメンテーションの場合、モデルはセマンティック ラベルに基づいてセグメンテーション マスクを生成します。参照表現のセグメンテーションには、自然言語表現の記述に基づいたターゲットのセグメンテーションが必要であり、これにはモデルが特定の理解および推論能力を備えていることが必要です。
配布外 (OOD) 問題のケーススタディ
OOD 会話で M3D-LaMed モデルをテストしました。これは、すべての問題がトレーニング データに関連していないことを意味します。 M3D-LaMed には強力な一般化機能があり、OOD の問題に対して意味不明な回答ではなく合理的な回答を生成できることがわかりました。各会話セットでは、左側のアバターと質問はユーザーからのもので、右側のアバターと回答は M3D-LaMed からのものです。
最新のトレーニング済み小型 M3D-LaMed-Phi-3-4B モデルはパフォーマンスが向上しており、どなたでもご利用いただけます。 GoodBaiBai88/M3D-LaMed-Phi-3-4B · ハグフェイス
概要
当社の M3D シリーズの研究は、3D 医用画像解析における MLLM の使用を促進します。具体的には、3D 医療タスクに合わせて調整された、120,000 の 3D 画像とテキストのペアと 662,000 の命令と応答のペアが含まれる大規模な 3D マルチモーダル医療データセット M3D-Data を構築します。さらに、画像テキストの検索、レポート生成、視覚的な質問応答、位置特定、およびセグメンテーションを処理する一般的なモデルである M3D-LaMed を提案します。さらに、8 つのタスク向けに慎重に設計された包括的なベンチマークである M3D-Bench を紹介します。
私たちのアプローチは、MLLM が 3D 医療現場のビジョンと言語を理解するための強固な基盤を築きます。当社のデータ、コード、モデルは、将来の研究における 3D 医療 MLLM のさらなる探索と応用を促進します。私たちの研究がこの分野の研究者に役立つことを願っています。誰もがそれを使用し、議論することを歓迎します。
以上がテキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。