首頁  >  文章  >  科技週邊  >  涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

WBOY
WBOY原創
2024-06-22 07:16:49599瀏覽

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

作者| 香港中文大學白帆

編輯| ScienceAI

近日,香港中文大學和智源聯合提出的M3D 系列工作,包括M3D-Data, M3D-LaMed 和M3D-Bench,從資料集、模型和測評全方面推動3D 醫學影像分析的發展。

(1)M3D-Data 是目前最大的3D 醫學影像資料集,包括M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對),M3D-Seg(150K 3D Mask),M3D- RefSeg (3K 推理分割)共四個子資料集。

(2)M3D-LaMed 是目前最多功能的3D 醫學多模態大模型,能夠解決文字(疾病診斷、影像檢索、視覺問答、報告生成等),定位(目標檢測、視覺定位等)和分割(語意分割、指稱分割、推理分割等)三類醫學分析任務。

(3)M3D-Bench 能夠全面和自動評估 8 種任務,涵蓋文本、定位和分割三個方面,並提供人工校驗後的測試數據。

我們最早在 2024 年 4 月發布了資料集、模型和程式碼。

近期,我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型,並增加了線上 demo 供大家體驗!

最新進展請關注 GitHub 庫的更新 ,如果有任何疑問和建議可以及時聯繫,歡迎大家討論和支持我們的工作。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

  • 論文連結:https://arxiv.org/abs/2404.00578
  • 程式碼:https://github.com/BAAI-DCAI/M3D huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 資料集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 線上Demo:https://baai.rpailab.xyz/
  • 我們能為醫學影像相關研究者提供什麼?

M3D-Data, 最大的3D 醫學多模態資料集;

M3D-Seg,整合了幾乎所有開源3D 醫學分割資料集,共計25 個;
  1. M3D-LaMed, 支援文字、定位和分割的最多功能的3D 醫學多模態大模型,提供了簡潔清晰的程式碼框架,研究者可以輕易魔改每個模組的設定;
  2. M3D-CLIP,基於M3D-Cap 3D 圖文對,我們訓練了一個圖文對比學習的M3D-CLIP 模型,共提供其中的視覺預訓練權重3DViT;
  3. M3D-Bench,全面和清晰的測評方案和代碼。
  4. 本文所涉及的所有資源全部開放,希望能幫助研究者共同推動 3D 醫學影像分析的發展。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型線上Demo影片。

醫學影像分析對臨床診斷和治療至關重要,多模態大語言模型 (MLLM) 對此的支持日益增加。然而,先前的研究主要集中在 2D 醫學影像上,儘管 3D 影像具有更豐富的空間訊息,但對其的研究和探索還不夠。

本文旨在利用 MLLM 推進 3D 醫學影像分析。為此,我們提出了一個大規模3D 多模態醫學資料集M3D-Data,其中包含120K 個圖像-文字對和662K 個指令-響應對,專門針對各種3D 醫學任務量身定制,例如圖文檢索、報告產生、視覺問答、定位和分割。

此外,我們提出了 M3D-LaMed,這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。

我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench,它有助於在八個任務中進行自動評估。透過綜合評估,我們的方法被證明是一種穩健的 3D 醫學影像分析模型,其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開取得。

資料集

M3D-Data 共包含4個子資料集,分別為M3D-Cap(圖文對), M3D-VQA(視覺問答對), M3D-RefSeg(推理分割)和M3D-Seg整合25 個3D 分割資料集)。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

資料集統計情況。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-VQA 資料集分佈。其中問題類型主要包括平面、期相、器官、異常和定位五類常見的3D影像問題。

我們整合了幾乎所有開源的 3D 醫學分割資料集,組成了 M3D-Seg,共 25 個。資料集可以用來做語意分割、推理分割、指稱分割和對應的偵測定位任務。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-Seg。

模型

M3D-LaMed 模型結構如下圖所示。 (a)3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練,可直接應用於圖文檢索任務。 (b)在M3D-LaMed 模型中,3D 醫學影像被輸入到預先訓練的3D 影像編碼器和高效的3D 空間池化感知器中,並將視覺token 插入LLM,輸出的[SEG] 作為prompt 驅動分割模組。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-LaMed 模型結構。

實驗

圖文檢索

在3D 圖文檢索中,模型旨在根據相似性從數據集中匹配圖像和文本,通常涉及兩個任務:文本到圖像檢索(TR) 和圖像到文字檢索(IR)。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

由於缺乏合適的方法,我們將 2D 醫學的代表模型 PMC-CLIP 應用於 3D 圖文檢索中,我們發現由於缺乏空間信息,幾乎無法和 3D 圖文檢索模型對比。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

報告產生

在報告生成中,該模型根據從 3D 醫學影像中提取的資訊產生文字報告。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

封閉式視覺問答

在封閉式視覺問答中,需要為模型提供封閉的答案,例如A,B,C,D,要求模型從候選中選出正確答案。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。

開放式視覺問答

在開放式視覺問答中,模型產生開放式的答案,不存在任何答案提示和候選。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。不過需注意目前GPT-4V 限制了醫療相關問題的答案。

定位

定位在視覺語言任務中至關重要,尤其是涉及輸入和輸出框的任務。在輸出框的任務,如指代表達理解 (REC) ,旨在根據指代表達在影像中定位目標物。相較之下,在輸入框的任務,如指代表達生成 (REG) ,要求模型根據影像和位置框生成特定區域的描述。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

分割

分割任務在 3D 醫學影像分析中至關重要,因為它具有識別和定位功能。為了解決各種文字提示,分割分為語意分割和指代表達分割。對於語義分割,該模型根據語義標籤產生分割遮罩。指代表達分割需要根據自然語言表達描述進行目標分割,需要模型具有一定的理解和推理的能力。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

分佈外 (OOD) 問題的案例研究

我們在 OOD 對話中測試了 M3D-LaMed 模型,這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力,可以對 OOD 問題產生合理的答案,而不是胡言亂語。在每組對話中,左側的頭像和問題來自用戶,右側的頭像和答案來自 M3D-LaMed。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

模型具有很強的推理能力和泛化能力。

我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現,歡迎大家使用! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

報告產生測評結果

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

在TotalSegmentator 上評測的語意分割Dice 結果

總結

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型我們M3D 系列研究促進了使用MLLM 進行3D 醫學影像分析。具體來說,我們建立了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 3D 影像文字對和 662K 指令響應對,專為 3D 醫學任務量身定制。此外,我們提出了 M3D-LaMed,這是一個通用模型,可處理圖像文字檢索、報告生成、視覺問答、定位和分割。此外,我們引入了一個綜合基準 M3D-Bench,它是為八個任務精心設計的。

我們的方法為 MLLM 理解 3D 醫學場景的視覺和語言奠定了堅實的基礎。我們的數據、程式碼和模型將促進未來研究中對 3D 醫學 MLLM 的進一步探索和應用。希望我們的工作能為領域研究者帶來幫助,歡迎大家來使用和討論。

以上是涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn