Heim >Technologie-Peripheriegeräte >KI >Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-06-22 07:16:49803Durchsuche

Autor |. Bai Fan, The Chinese University of Hong Kong

Herausgeber |. ScienceAI

Kürzlich haben die Chinese University of Hong Kong und Zhiyuan gemeinsam die M3D-Arbeitsreihe vorgeschlagen, darunter M3D-Data, M3D-LaMed und M3D -Bench, von Datensätzen und Modellen bis hin zur Auswertung, um die Entwicklung der medizinischen 3D-Bildanalyse in allen Aspekten voranzutreiben.

(1) M3D-Data ist derzeit der größte medizinische 3D-Bilddatensatz, einschließlich M3D-Cap (120.000 3D-Bild- und Textpaare), M3D-VQA (510.000 Frage- und Antwortpaare) und M3D-Seg (150.000 3D-Maske). , M3D-RefSeg (3K-Inferenzsegmentierung) verfügt über vier Unterdatensätze.

(2) M3D-LaMed ist derzeit das vielseitigste medizinische multimodale große 3D-Modell, das Text (Krankheitsdiagnose, Bildabruf, visuelle Frage und Antwort, Berichtserstellung usw.), Positionierung (Zielerkennung, visuell) lösen kann Positionierung usw.) und Segmentierung (semantische Segmentierung, Referenzsegmentierung, Inferenzsegmentierung usw.) drei Arten medizinischer Analyseaufgaben.

(3) M3D-Bench kann 8 Aufgaben umfassend und automatisch auswerten, die drei Aspekte Text, Positionierung und Segmentierung abdecken, und liefert manuell verifizierte Testdaten.

Wir werden den Datensatz, das Modell und den Code bereits im April 2024 veröffentlichen.

Kürzlich haben wir ein kleineres und stärkeres M3D-LaMed-Phi-3-4B-Modell bereitgestellt und eine Online-Demo hinzugefügt, damit jeder es erleben kann!

Bitte achten Sie auf die Aktualisierungen der GitHub-Bibliothek, um den neuesten Fortschritt zu erfahren. Wenn Sie Fragen oder Anregungen haben, können Sie sich jederzeit an uns wenden, um unsere Arbeit zu besprechen und zu unterstützen.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Papierlink:https://arxiv.org/abs/2404.00578
Code:https://github.com/BAAI-DCAI/M3D
Modell:https:// Huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
Datensatz:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
Online-Demo: https://baai.rpailab.xyz/

Was können wir Forschern im Zusammenhang mit medizinischen Bildern bieten?

M3D-Data, der größte 3D-medizinische multimodale Datensatz;
M3D-Seg, der fast alle Open-Source-3D-medizinischen Segmentierungsdatensätze integriert, insgesamt 25;
M3D-LaMed, unterstützt Text, Positionierung und Das segmentierte 3D-medizinische multimodale große Modell mit den meisten Funktionen bietet ein prägnantes und klares Code-Framework, und Forscher können die Einstellungen jedes Moduls
M3D-CLIP basierend auf M3D-Cap-3D-Bild- und Textpaaren einfach ändern , wir trainieren Wir haben ein M3D-CLIP-Modell für das kontrastive Lernen von Bildern und Texten entwickelt und stellen das visuelle Vortrainingsgewicht
M3D-Bench zur Verfügung, einen umfassenden und klaren Bewertungsplan und Code.
Alle in diesem Artikel enthaltenen Ressourcen sind für die Öffentlichkeit zugänglich und hoffen, Forschern dabei zu helfen, gemeinsam die Entwicklung der medizinischen 3D-Bildanalyse voranzutreiben.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Online-Demovideo.

Die medizinische Bildanalyse ist für die klinische Diagnose und Behandlung von entscheidender Bedeutung, und multimodale Large-Language-Modelle (MLLM) unterstützen dies zunehmend. Frühere Forschungen konzentrierten sich jedoch hauptsächlich auf medizinische 2D-Bilder, und obwohl 3D-Bilder umfangreichere räumliche Informationen enthalten, wurden sie nicht ausreichend untersucht und erforscht.

Dieser Artikel zielt darauf ab, die medizinische 3D-Bildanalyse mithilfe von MLLM voranzutreiben. Zu diesem Zweck schlagen wir einen großen multimodalen medizinischen 3D-Datensatz M3D-Data vor, der 120.000 Bild-Text-Paare und 662.000 Befehls-Antwort-Paare enthält und speziell auf verschiedene medizinische 3D-Aufgaben zugeschnitten ist, wie z. B. Bild-Text-Abruf, Berichterstellung, visuelle Beantwortung, Lokalisierung und Segmentierung von Fragen.

Darüber hinaus schlagen wir M3D-LaMed vor, ein vielseitiges multimodales großes Sprachmodell für die medizinische 3D-Bildanalyse.

Wir führen außerdem einen neuen multimodalen medizinischen 3D-Benchmark ein, M3D-Bench, der eine automatische Auswertung in acht Aufgaben ermöglicht. Durch eine umfassende Bewertung hat sich unser Ansatz als robustes medizinisches 3D-Bildanalysemodell erwiesen, das bestehende Lösungen übertrifft. Alle Codes, Daten und Modelle sind öffentlich verfügbar unter.

Datensatz

M3D-Data umfasst insgesamt 4 Unterdatensätze, nämlich M3D-Cap (Bild- und Textpaare), M3D-VQA (visuelles Frage- und Antwortpaar), M3D-RefSeg (Inferenzsegmentierung) und M3D -Seg (Integration von 25 3D-Segmentierungsdatensätzen).

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Modell

Die M3D-LaMed-Modellstruktur ist in der folgenden Abbildung dargestellt. (a) Der 3D-Bild-Encoder wird aus Bild- und Textdaten durch modalübergreifenden kontrastiven Lernverlust vorab trainiert und kann direkt auf Bild- und Textabrufaufgaben angewendet werden. (b) Im M3D-LaMed-Modell werden medizinische 3D-Bilder in den vorab trainierten 3D-Bild-Encoder und das effiziente 3D-Spatial-Pooling-Perzeptron eingegeben, das visuelle Token wird in das LLM eingefügt und die Ausgabe [SEG] wird als verwendet Eingabeaufforderung zum Ansteuern des Segmentierungsmoduls.

Experimente

Grafik- und Textabruf

Beim 3D-Grafik- und Textabruf zielen Modelle darauf ab, Bilder und Text aus einem Datensatz auf der Grundlage von Ähnlichkeit abzugleichen, was normalerweise zwei Aufgaben umfasst: Text-zu-Bild-Abruf (TR ) und Image-to-Text Retrieval (IR).

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Berichterstellung

Bei der Berichterstellung generiert das Modell Textberichte basierend auf Informationen, die aus medizinischen 3D-Bildern extrahiert wurden.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Geschlossene visuelle Fragebeantwortung

Bei der geschlossenen visuellen Fragebeantwortung müssen dem Modell geschlossene Antwortkandidaten wie A, B, C, D bereitgestellt werden, und das Modell muss eine Auswahl treffen die richtige Antwort der Kandidaten.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Offene visuelle Frage und Antwort

Bei der offenen visuellen Frage und Antwort generiert das Modell offene Antworten ohne Antworthinweise oder Kandidaten.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Wir haben festgestellt, dass M3D-LaMed das allgemeine GPT-4V im medizinischen Bereich übertrifft. Es ist jedoch zu beachten, dass GPT-4V derzeit die Beantwortung medizinischer Fragen einschränkt.

Positionierung

Die Positionierung ist bei visuellen Sprachaufgaben von entscheidender Bedeutung, insbesondere bei solchen, die Eingabe- und Ausgabefelder betreffen. Aufgaben im Ausgabefeld, wie etwa das Verstehen des Referenzausdrucks (REC), zielen darauf ab, ein Zielobjekt in einem Bild basierend auf einer Referenzdarstellung zu lokalisieren. Im Gegensatz dazu erfordern Eingabefeldaufgaben wie die Generierung von Referenzausdrücken (REG), dass das Modell eine Beschreibung einer bestimmten Region basierend auf einem Bild und einem Standortfeld generiert.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Segmentierung

Die Segmentierungsaufgabe ist aufgrund ihrer Erkennungs- und Lokalisierungsfähigkeiten bei der medizinischen 3D-Bildanalyse von entscheidender Bedeutung. Um verschiedene Texthinweise zu berücksichtigen, wird die Segmentierung in semantische Segmentierung und referenzielle Ausdruckssegmentierung unterteilt. Für die semantische Segmentierung generiert das Modell Segmentierungsmasken basierend auf semantischen Labels. Die referenzielle Ausdruckssegmentierung erfordert eine Zielsegmentierung auf der Grundlage der Ausdrucksbeschreibung in natürlicher Sprache, was erfordert, dass das Modell über bestimmte Verständnis- und Argumentationsfähigkeiten verfügt.

Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor

Fallstudie zu Out-of-Distribution (OOD)-Problemen

Wir haben das M3D-LaMed-Modell in einem OOD-Gespräch getestet, was bedeutet, dass nicht alle Probleme für unsere Trainingsdaten relevant sind. Wir haben festgestellt, dass M3D-LaMed über starke Generalisierungsfähigkeiten verfügt und vernünftige Antworten auf OOD-Probleme liefern kann, statt nur Kauderwelsch zu machen. In jeder Konversationsreihe stammen der Avatar und die Fragen auf der linken Seite vom Benutzer und der Avatar und die Antworten auf der rechten Seite stammen von M3D-LaMed.

Unser neuestes trainiertes kleineres M3D-LaMed-Phi-3-4B-Modell hat eine bessere Leistung, jeder ist herzlich willkommen, es zu verwenden! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Umarmendes Gesicht

Geschlossene VQA-Testergebnisse

Zusammenfassung

Unsere M3D-Studienreihe fördert den Einsatz von MLLM für die 3D-medizinische Bildanalyse. Konkret erstellen wir einen großen multimodalen medizinischen 3D-Datensatz M3D-Data, der 120.000 3D-Bild-Text-Paare und 662.000 Anweisungs-Antwort-Paare enthält, die auf medizinische 3D-Aufgaben zugeschnitten sind. Darüber hinaus schlagen wir M3D-LaMed vor, ein allgemeines Modell, das das Abrufen von Bildtexten, die Berichterstellung, die visuelle Beantwortung von Fragen, die Lokalisierung und die Segmentierung übernimmt. Darüber hinaus stellen wir mit M3D-Bench einen umfassenden Benchmark vor, der sorgfältig auf acht Aufgaben ausgelegt ist.

Unser Ansatz schafft eine solide Grundlage für MLLM, um die Vision und Sprache medizinischer 3D-Szenen zu verstehen. Unsere Daten, Codes und Modelle werden die weitere Erforschung und Anwendung von 3D-medizinischem MLLM in der zukünftigen Forschung erleichtern. Wir hoffen, dass unsere Arbeit für Forscher auf diesem Gebiet hilfreich sein kann, und jeder ist willkommen, sie zu nutzen und zu diskutieren.

Das obige ist der detaillierte Inhalt vonUm Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Token cap 对象 tr github https gpt prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Ganz gleich, ob es sich um echtes oder KI-Video handelt, „Mosca“ kann dynamisch renderbare 4D-Szenen rekonstruieren und wiederherstellen.Nächster Artikel：Ganz gleich, ob es sich um echtes oder KI-Video handelt, „Mosca“ kann dynamisch renderbare 4D-Szenen rekonstruieren und wiederherstellen.

In Verbindung stehende Artikel

Mehr sehen