Heim >Technologie-Peripheriegeräte >KI >Um Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor
Autor |. Bai Fan, The Chinese University of Hong Kong
Herausgeber |. ScienceAI
Kürzlich haben die Chinese University of Hong Kong und Zhiyuan gemeinsam die M3D-Arbeitsreihe vorgeschlagen, darunter M3D-Data, M3D-LaMed und M3D -Bench, von Datensätzen und Modellen bis hin zur Auswertung, um die Entwicklung der medizinischen 3D-Bildanalyse in allen Aspekten voranzutreiben.
(1) M3D-Data ist derzeit der größte medizinische 3D-Bilddatensatz, einschließlich M3D-Cap (120.000 3D-Bild- und Textpaare), M3D-VQA (510.000 Frage- und Antwortpaare) und M3D-Seg (150.000 3D-Maske). , M3D-RefSeg (3K-Inferenzsegmentierung) verfügt über vier Unterdatensätze.
(2) M3D-LaMed ist derzeit das vielseitigste medizinische multimodale große 3D-Modell, das Text (Krankheitsdiagnose, Bildabruf, visuelle Frage und Antwort, Berichtserstellung usw.), Positionierung (Zielerkennung, visuell) lösen kann Positionierung usw.) und Segmentierung (semantische Segmentierung, Referenzsegmentierung, Inferenzsegmentierung usw.) drei Arten medizinischer Analyseaufgaben.
(3) M3D-Bench kann 8 Aufgaben umfassend und automatisch auswerten, die drei Aspekte Text, Positionierung und Segmentierung abdecken, und liefert manuell verifizierte Testdaten.
Wir werden den Datensatz, das Modell und den Code bereits im April 2024 veröffentlichen.
Kürzlich haben wir ein kleineres und stärkeres M3D-LaMed-Phi-3-4B-Modell bereitgestellt und eine Online-Demo hinzugefügt, damit jeder es erleben kann!
Bitte achten Sie auf die Aktualisierungen der GitHub-Bibliothek, um den neuesten Fortschritt zu erfahren. Wenn Sie Fragen oder Anregungen haben, können Sie sich jederzeit an uns wenden, um unsere Arbeit zu besprechen und zu unterstützen.
Was können wir Forschern im Zusammenhang mit medizinischen Bildern bieten?
Online-Demovideo.
Die medizinische Bildanalyse ist für die klinische Diagnose und Behandlung von entscheidender Bedeutung, und multimodale Large-Language-Modelle (MLLM) unterstützen dies zunehmend. Frühere Forschungen konzentrierten sich jedoch hauptsächlich auf medizinische 2D-Bilder, und obwohl 3D-Bilder umfangreichere räumliche Informationen enthalten, wurden sie nicht ausreichend untersucht und erforscht.
Dieser Artikel zielt darauf ab, die medizinische 3D-Bildanalyse mithilfe von MLLM voranzutreiben. Zu diesem Zweck schlagen wir einen großen multimodalen medizinischen 3D-Datensatz M3D-Data vor, der 120.000 Bild-Text-Paare und 662.000 Befehls-Antwort-Paare enthält und speziell auf verschiedene medizinische 3D-Aufgaben zugeschnitten ist, wie z. B. Bild-Text-Abruf, Berichterstellung, visuelle Beantwortung, Lokalisierung und Segmentierung von Fragen.
Darüber hinaus schlagen wir M3D-LaMed vor, ein vielseitiges multimodales großes Sprachmodell für die medizinische 3D-Bildanalyse.
Wir führen außerdem einen neuen multimodalen medizinischen 3D-Benchmark ein, M3D-Bench, der eine automatische Auswertung in acht Aufgaben ermöglicht. Durch eine umfassende Bewertung hat sich unser Ansatz als robustes medizinisches 3D-Bildanalysemodell erwiesen, das bestehende Lösungen übertrifft. Alle Codes, Daten und Modelle sind öffentlich verfügbar unter.
Datensatz
M3D-Data umfasst insgesamt 4 Unterdatensätze, nämlich M3D-Cap (Bild- und Textpaare), M3D-VQA (visuelles Frage- und Antwortpaar), M3D-RefSeg (Inferenzsegmentierung) und M3D -Seg (Integration von 25 3D-Segmentierungsdatensätzen).
Modell
Die M3D-LaMed-Modellstruktur ist in der folgenden Abbildung dargestellt. (a) Der 3D-Bild-Encoder wird aus Bild- und Textdaten durch modalübergreifenden kontrastiven Lernverlust vorab trainiert und kann direkt auf Bild- und Textabrufaufgaben angewendet werden. (b) Im M3D-LaMed-Modell werden medizinische 3D-Bilder in den vorab trainierten 3D-Bild-Encoder und das effiziente 3D-Spatial-Pooling-Perzeptron eingegeben, das visuelle Token wird in das LLM eingefügt und die Ausgabe [SEG] wird als verwendet Eingabeaufforderung zum Ansteuern des Segmentierungsmoduls.
Experimente
Grafik- und Textabruf
Beim 3D-Grafik- und Textabruf zielen Modelle darauf ab, Bilder und Text aus einem Datensatz auf der Grundlage von Ähnlichkeit abzugleichen, was normalerweise zwei Aufgaben umfasst: Text-zu-Bild-Abruf (TR ) und Image-to-Text Retrieval (IR).
Berichterstellung
Bei der Berichterstellung generiert das Modell Textberichte basierend auf Informationen, die aus medizinischen 3D-Bildern extrahiert wurden.
Geschlossene visuelle Fragebeantwortung
Bei der geschlossenen visuellen Fragebeantwortung müssen dem Modell geschlossene Antwortkandidaten wie A, B, C, D bereitgestellt werden, und das Modell muss eine Auswahl treffen die richtige Antwort der Kandidaten.
Offene visuelle Frage und Antwort
Bei der offenen visuellen Frage und Antwort generiert das Modell offene Antworten ohne Antworthinweise oder Kandidaten.
Positionierung
Die Positionierung ist bei visuellen Sprachaufgaben von entscheidender Bedeutung, insbesondere bei solchen, die Eingabe- und Ausgabefelder betreffen. Aufgaben im Ausgabefeld, wie etwa das Verstehen des Referenzausdrucks (REC), zielen darauf ab, ein Zielobjekt in einem Bild basierend auf einer Referenzdarstellung zu lokalisieren. Im Gegensatz dazu erfordern Eingabefeldaufgaben wie die Generierung von Referenzausdrücken (REG), dass das Modell eine Beschreibung einer bestimmten Region basierend auf einem Bild und einem Standortfeld generiert.
Segmentierung
Die Segmentierungsaufgabe ist aufgrund ihrer Erkennungs- und Lokalisierungsfähigkeiten bei der medizinischen 3D-Bildanalyse von entscheidender Bedeutung. Um verschiedene Texthinweise zu berücksichtigen, wird die Segmentierung in semantische Segmentierung und referenzielle Ausdruckssegmentierung unterteilt. Für die semantische Segmentierung generiert das Modell Segmentierungsmasken basierend auf semantischen Labels. Die referenzielle Ausdruckssegmentierung erfordert eine Zielsegmentierung auf der Grundlage der Ausdrucksbeschreibung in natürlicher Sprache, was erfordert, dass das Modell über bestimmte Verständnis- und Argumentationsfähigkeiten verfügt.
Fallstudie zu Out-of-Distribution (OOD)-Problemen
Wir haben das M3D-LaMed-Modell in einem OOD-Gespräch getestet, was bedeutet, dass nicht alle Probleme für unsere Trainingsdaten relevant sind. Wir haben festgestellt, dass M3D-LaMed über starke Generalisierungsfähigkeiten verfügt und vernünftige Antworten auf OOD-Probleme liefern kann, statt nur Kauderwelsch zu machen. In jeder Konversationsreihe stammen der Avatar und die Fragen auf der linken Seite vom Benutzer und der Avatar und die Antworten auf der rechten Seite stammen von M3D-LaMed.
Unser neuestes trainiertes kleineres M3D-LaMed-Phi-3-4B-Modell hat eine bessere Leistung, jeder ist herzlich willkommen, es zu verwenden! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Umarmendes Gesicht
Zusammenfassung
Unsere M3D-Studienreihe fördert den Einsatz von MLLM für die 3D-medizinische Bildanalyse. Konkret erstellen wir einen großen multimodalen medizinischen 3D-Datensatz M3D-Data, der 120.000 3D-Bild-Text-Paare und 662.000 Anweisungs-Antwort-Paare enthält, die auf medizinische 3D-Aufgaben zugeschnitten sind. Darüber hinaus schlagen wir M3D-LaMed vor, ein allgemeines Modell, das das Abrufen von Bildtexten, die Berichterstellung, die visuelle Beantwortung von Fragen, die Lokalisierung und die Segmentierung übernimmt. Darüber hinaus stellen wir mit M3D-Bench einen umfassenden Benchmark vor, der sorgfältig auf acht Aufgaben ausgelegt ist.
Unser Ansatz schafft eine solide Grundlage für MLLM, um die Vision und Sprache medizinischer 3D-Szenen zu verstehen. Unsere Daten, Codes und Modelle werden die weitere Erforschung und Anwendung von 3D-medizinischem MLLM in der zukünftigen Forschung erleichtern. Wir hoffen, dass unsere Arbeit für Forscher auf diesem Gebiet hilfreich sein kann, und jeder ist willkommen, sie zu nutzen und zu diskutieren.
Das obige ist der detaillierte Inhalt vonUm Text-, Positionierungs- und Segmentierungsaufgaben abzudecken, schlugen Zhiyuan und Hong Kong Chinese gemeinsam das erste multifunktionale medizinische multimodale 3D-Großmodell vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!