搜尋
首頁科技週邊人工智慧涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

作者| 香港中文大學白帆

編輯| ScienceAI

近日,香港中文大學和智源聯合提出的M3D 系列工作,包括M3D-Data, M3D-LaMed 和M3D-Bench,從資料集、模型和測評全方面推動3D 醫學影像分析的發展。

(1)M3D-Data 是目前最大的3D 醫學影像資料集,包括M3D-Cap (120K 3D 圖文對), M3D-VQA (510K 問答對),M3D-Seg(150K 3D Mask),M3D- RefSeg (3K 推理分割)共四個子資料集。

(2)M3D-LaMed 是目前最多功能的3D 醫學多模態大模型,能夠解決文字(疾病診斷、影像檢索、視覺問答、報告生成等),定位(目標檢測、視覺定位等)和分割(語意分割、指稱分割、推理分割等)三類醫學分析任務。

(3)M3D-Bench 能夠全面和自動評估 8 種任務,涵蓋文本、定位和分割三個方面,並提供人工校驗後的測試數據。

我們最早在 2024 年 4 月發布了資料集、模型和程式碼。

近期,我們提供了更小和更強的 M3D-LaMed-Phi-3-4B 模型,並增加了線上 demo 供大家體驗!

最新進展請關注 GitHub 庫的更新 ,如果有任何疑問和建議可以及時聯繫,歡迎大家討論和支持我們的工作。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

  • 論文連結:https://arxiv.org/abs/2404.00578
  • 程式碼:https://github.com/BAAI-DCAI/M3D huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 資料集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 線上Demo:https://baai.rpailab.xyz/
  • 我們能為醫學影像相關研究者提供什麼?

M3D-Data, 最大的3D 醫學多模態資料集;

M3D-Seg,整合了幾乎所有開源3D 醫學分割資料集,共計25 個;
  1. M3D-LaMed, 支援文字、定位和分割的最多功能的3D 醫學多模態大模型,提供了簡潔清晰的程式碼框架,研究者可以輕易魔改每個模組的設定;
  2. M3D-CLIP,基於M3D-Cap 3D 圖文對,我們訓練了一個圖文對比學習的M3D-CLIP 模型,共提供其中的視覺預訓練權重3DViT;
  3. M3D-Bench,全面和清晰的測評方案和代碼。
  4. 本文所涉及的所有資源全部開放,希望能幫助研究者共同推動 3D 醫學影像分析的發展。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型線上Demo影片。

醫學影像分析對臨床診斷和治療至關重要,多模態大語言模型 (MLLM) 對此的支持日益增加。然而,先前的研究主要集中在 2D 醫學影像上,儘管 3D 影像具有更豐富的空間訊息,但對其的研究和探索還不夠。

本文旨在利用 MLLM 推進 3D 醫學影像分析。為此,我們提出了一個大規模3D 多模態醫學資料集M3D-Data,其中包含120K 個圖像-文字對和662K 個指令-響應對,專門針對各種3D 醫學任務量身定制,例如圖文檢索、報告產生、視覺問答、定位和分割。

此外,我們提出了 M3D-LaMed,這是一種用於 3D 醫學影像分析的多功能多模態大語言模型。

我們還引入了一個新的 3D 多模態醫學基準 M3D-Bench,它有助於在八個任務中進行自動評估。透過綜合評估,我們的方法被證明是一種穩健的 3D 醫學影像分析模型,其表現優於現有解決方案。所有程式碼、資料和模型均可在以下網址公開取得。

資料集

M3D-Data 共包含4個子資料集,分別為M3D-Cap(圖文對), M3D-VQA(視覺問答對), M3D-RefSeg(推理分割)和M3D-Seg整合25 個3D 分割資料集)。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

資料集統計情況。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-VQA 資料集分佈。其中問題類型主要包括平面、期相、器官、異常和定位五類常見的3D影像問題。

我們整合了幾乎所有開源的 3D 醫學分割資料集,組成了 M3D-Seg,共 25 個。資料集可以用來做語意分割、推理分割、指稱分割和對應的偵測定位任務。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-Seg。

模型

M3D-LaMed 模型結構如下圖所示。 (a)3D 影像編碼器透過跨模態對比學習損失由圖文資料進行預訓練,可直接應用於圖文檢索任務。 (b)在M3D-LaMed 模型中,3D 醫學影像被輸入到預先訓練的3D 影像編碼器和高效的3D 空間池化感知器中,並將視覺token 插入LLM,輸出的[SEG] 作為prompt 驅動分割模組。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

M3D-LaMed 模型結構。

實驗

圖文檢索

在3D 圖文檢索中,模型旨在根據相似性從數據集中匹配圖像和文本,通常涉及兩個任務:文本到圖像檢索(TR) 和圖像到文字檢索(IR)。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

由於缺乏合適的方法,我們將 2D 醫學的代表模型 PMC-CLIP 應用於 3D 圖文檢索中,我們發現由於缺乏空間信息,幾乎無法和 3D 圖文檢索模型對比。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

報告產生

在報告生成中,該模型根據從 3D 醫學影像中提取的資訊產生文字報告。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

封閉式視覺問答

在封閉式視覺問答中,需要為模型提供封閉的答案,例如A,B,C,D,要求模型從候選中選出正確答案。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。

開放式視覺問答

在開放式視覺問答中,模型產生開放式的答案,不存在任何答案提示和候選。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

我們發現在醫學領域 M3D-LaMed 超過通用的 GPT-4V。不過需注意目前GPT-4V 限制了醫療相關問題的答案。

定位

定位在視覺語言任務中至關重要,尤其是涉及輸入和輸出框的任務。在輸出框的任務,如指代表達理解 (REC) ,旨在根據指代表達在影像中定位目標物。相較之下,在輸入框的任務,如指代表達生成 (REG) ,要求模型根據影像和位置框生成特定區域的描述。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

分割

分割任務在 3D 醫學影像分析中至關重要,因為它具有識別和定位功能。為了解決各種文字提示,分割分為語意分割和指代表達分割。對於語義分割,該模型根據語義標籤產生分割遮罩。指代表達分割需要根據自然語言表達描述進行目標分割,需要模型具有一定的理解和推理的能力。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

分佈外 (OOD) 問題的案例研究

我們在 OOD 對話中測試了 M3D-LaMed 模型,這意味著所有問題都與我們的訓練資料不相關。我們發現 M3D-LaMed 具有很強的泛化能力,可以對 OOD 問題產生合理的答案,而不是胡言亂語。在每組對話中,左側的頭像和問題來自用戶,右側的頭像和答案來自 M3D-LaMed。

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

模型具有很強的推理能力和泛化能力。

我們最新訓練的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表現,歡迎大家使用! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

報告產生測評結果

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型

在TotalSegmentator 上評測的語意分割Dice 結果

總結

涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型我們M3D 系列研究促進了使用MLLM 進行3D 醫學影像分析。具體來說,我們建立了一個大規模 3D 多模態醫學資料集 M3D-Data,其中包含 120K 3D 影像文字對和 662K 指令響應對,專為 3D 醫學任務量身定制。此外,我們提出了 M3D-LaMed,這是一個通用模型,可處理圖像文字檢索、報告生成、視覺問答、定位和分割。此外,我們引入了一個綜合基準 M3D-Bench,它是為八個任務精心設計的。

我們的方法為 MLLM 理解 3D 醫學場景的視覺和語言奠定了堅實的基礎。我們的數據、程式碼和模型將促進未來研究中對 3D 醫學 MLLM 的進一步探索和應用。希望我們的工作能為領域研究者帶來幫助,歡迎大家來使用和討論。

以上是涵蓋文本、定位和分割任務,智源、港中文聯合提出首個多功能3D醫學多模態大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),