Die Shanghai Jiao Tong University und das Shanghai AI Lab haben einen 178-seitigen medizinischen Fallbericht zu GPT-4V veröffentlicht, der erstmals umfassend die visuelle Leistung von GPT-4V im medizinischen Bereich enthüllt. Angetrieben durch groß angelegte Basismodelle hat die Entwicklung der künstlichen Intelligenz in letzter Zeit große Fortschritte gemacht, insbesondere die leistungsstarken Fähigkeiten von OpenAI in Bezug auf Frage und Antwort sowie Wissen, die den Eureka-Moment im KI-Bereich erhellten und eine breite Öffentlichkeit hervorriefen Sorge. GPT-4V (ision) ist das neueste multimodale Basismodell von OpenAI. Im Vergleich zu GPT-4 bietet es zusätzliche Bild- und Spracheingabefunktionen. Ziel dieser Studie ist es, die Leistung von GPT-4V (ision) im Bereich der multimodalen medizinischen Diagnose durch Fallanalyse zu bewerten. Insgesamt wurden 128 (92 radiologische Bewertungsfälle, 20 pathologische Bewertungsfälle und 16 Positionierungsfälle) angezeigt und analysiert . Fall) GPT-4V-Q&A-Beispiel mit insgesamt 277 Bildern (Hinweis: Dieser Artikel beinhaltet keine Falldarstellung, bitte beziehen Sie sich für die spezifische Falldarstellung und -analyse auf das Originalpapier).
GPT-4V medizinische Bildauswertung
ArXiv-Link: https://arxiv.org/abs/2310.09909
Baidu-Cloud-Download-Adresse: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2
Google Drive-Download-Adresse: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing
Bewertungsfunktionen:
- Bildmodalität und Bildortidentifizierung: Röntgen, CT, MRT identifizieren Resonanzbildgebung, Ultraschall- und Pathologiebilder sowie Lokalisierung von Bildgebungsorten.
- Anatomische Strukturlokalisierung: Lokalisieren Sie bestimmte anatomische Strukturen in Bildern.
- Abnormale Erkennung und Lokalisierung: Erkennen und lokalisieren Sie Anomalien wie Tumore, Frakturen oder Infektionen.
- Umfassende Diagnose mit mehreren Bildern: Kombinieren Sie Informationen aus verschiedenen Bildgebungsmodalitäten oder -ansichten für die Diagnose.
- Verfassen medizinischer Berichte: Beschreiben Sie abnormale Zustände und damit verbundene normale Ergebnisse.
- Integration der Patientengeschichte: Berücksichtigen Sie bei der Bildinterpretation die grundlegenden Informationen und die Krankengeschichte des Patienten.
- Konsistenz und Gedächtnis in mehreren Interaktionsrunden: Behalten Sie die Kontinuität bei der Datenerkennung bei.
Bewertungssystem:
- Zentrales Nervensystem
- Kopf und Hals
- Herz
- Brust
- Blut
- Leber und Gallenblase
- Anorektale
- Urologie
- Gynäkologie
- Geburtshilfe
- Brustabteilung
- Bewegungsapparat Abteilung
- Wirbelsäulenabteilung
- Gefäßabteilung
- Onkologische Abteilung
- Traumaabteilung
- Pädiatrie
Bildmodalität:
- Röntgen
- Computertomographie (CT)
- Magnetische Resonanz Bildgebung (MRT)
- Positiv Elektronenemissionstomographie (PET)
- Digitale Subtraktionsangiographie (DSA)
- Mammographie
- Ultraschall
- Pathologie Testfallauswahl
Radiologie Fragen und Antworten zum Originalpapier stammen von Radiopaedia, Bilder werden direkt von der Webseite heruntergeladen , Positionierungsfälle stammen aus mehreren medizinischen öffentlichen Segmentierungsdatensätzen und Pathologiebilder stammen aus PathologyOutlines. Bei der Auswahl der Fälle haben die Autoren die folgenden Aspekte umfassend berücksichtigt:
- Veröffentlichungsdatum: Angesichts der Tatsache, dass die Trainingsdaten von GPT-4V sehr wahrscheinlich extrem groß sind, um zu vermeiden, dass die ausgewählten Testfälle im Trainingssatz erscheinen, ist die Die Autoren wählten nur die neuesten im Jahr 2023 veröffentlichten Fälle aus.
- Glaubwürdigkeit der Anmerkung: Die medizinische Diagnose selbst ist umstritten und nicht eindeutig. Basierend auf dem von Radiopaedia bereitgestellten Fallabschlussgrad versucht der Autor, Fälle mit einem Abschlussgrad von mehr als 90 % auszuwählen, um die Glaubwürdigkeit der Anmerkung oder Diagnose sicherzustellen.
- Vielfalt der Bildmodalitäten: Bei der Auswahl der Fälle hat der Autor sein Bestes gegeben, um die Reaktion von GPT-4V auf mehrere Bildgebungsmodalitäten darzustellen.
Während der Bildverarbeitung hat der Autor außerdem die folgende Normalisierung vorgenommen, um die Qualität des Eingabebildes sicherzustellen:
- Auswahl mehrerer Bilder: Da die von GPT-4V maximal unterstützte Bildeingabegrenze 4 beträgt, in einigen Fällen jedoch mehr als 4 verwandte Bilder vorhanden sind, wird der Autor erstens versuchen, diese Situation bei der Auswahl der Fälle zu vermeiden, und zweitens , wenn es unvermeidbar ist. Wenn ein solcher Fall auftritt, wählt der Autor die relevantesten Bilder auf der Grundlage der von Radiopaedia bereitgestellten Fallanmerkungen aus.
- Abschnittsauswahl: Eine große Menge radiologischer Bilddaten liegt in Form von 3D (kontinuierliche mehrteilige zweidimensionale Bilder) vor und kann nicht direkt in GPT-4V eingegeben werden. Es muss ein möglichst repräsentativer Abschnitt ausgewählt werden, um das vollständige 3D zu ersetzen Bild speichern und in GPT-4V eingeben. Gemäß den Fall-Upload-Spezifikationen von Radiopaedia werden Radiologen gebeten, beim Hochladen von 3D-Bildern den relevantesten Abschnitt auszuwählen. Dies machten sich die Autoren zunutze und wählten statt 3D-Daten die von Radiopaedia empfohlenen Axialschnitte zur Eingabe.
- Bildstandardisierung: Standardisiertes Design medizinischer Bilder, Auswahl der Fensterbreite und Fensterebene, um unterschiedliche Gewebe hervorzuheben. Die Autoren verwendeten den Radiopaedio-Fall, um die vom Radiologen ausgewählte Fensterbreite und Fensterebene zur Eingabe des Bildes hochzuladen. Für den segmentierten Datensatz verwendet das Originalpapier ein Fenster von [-300.300] und führt eine Normalisierung auf Fallebene von 0-1 durch.
Die Tests des Originalpapiers verwendeten alle die Webversion von GPT-4V. In der ersten Frage-und-Antwort-Runde geben die Benutzer Bilder ein und starten dann mehrere Frage-und-Antwort-Runden. Um eine gegenseitige Beeinflussung des Kontexts zu vermeiden, wird für jeden neuen Fall ein neues Q&A-Fenster für Fragen und Antworten erstellt.
GPT-4V-Fragen und Antworten: Im Bild steht Rot für Fehler, Gelb für Unsicherheit und Grün für die Richtigkeit. Die Farbe in der Referenz stellt die Grundlage für die entsprechende Beurteilung dar Weitere Fälle Bitte beziehen Sie sich für die Fallanalyse auf das Originalpapier.
Bei der pathologischen Bewertung werden alle Bilder zwei Dialogrunden unterzogen.
- In der ersten Runde wird gefragt, ob ein Bericht nur basierend auf Eingabebildern erstellt werden kann.
- Der Zweck dieser Runde besteht darin, zu bewerten, ob GPT-4V Bildmodalität und Gewebeherkunft identifizieren kann, ohne relevante medizinische Hinweise zu liefern.
- In der zweiten Runde gibt der Benutzer die richtige Gewebequelle an und fragt GPT-4V, ob er anhand des pathologischen Bildes und seiner Gewebequelleninformationen eine Diagnose stellen kann, in der Hoffnung, dass GPT-4V den Bericht ändern und eine klare Aussage liefern kann Diagnoseergebnis. Pathologische Bildfallanzeige
Standortauswertung
-
Objekterkennung: Bestimmen Sie, ob sich im Bild ein Ziel befindet.
-
Erzeugung von Begrenzungsrahmen: Erzeugen Sie Begrenzungsrahmenkoordinaten für das Ziel, wobei die obere linke Ecke (0, 0) und die untere rechte Ecke (w, h) ist.
-
IOU-Berechnung: Berechnen Sie das Schnittmengenverhältnis (IOU) zwischen dem vorhergesagten Begrenzungsrahmen und dem wahren Begrenzungsrahmen.
-
Begrenzte Leistung: Wählen Sie den vorhergesagten Begrenzungsrahmen mit der höchsten IOU-Punktzahl aus.
-
Durchschnittliche Leistung: Berechnen Sie den IOU-Score des durchschnittlichen Begrenzungsrahmens. Einschränkungen bei der Bewertung
Natürlich erwähnte der ursprüngliche Autor auch einige Mängel und Einschränkungen bei der Bewertung:
- Nur qualitative und nicht quantitative Bewertung
Da GPT-4V nur eine Online-Webschnittstelle bereitstellt, können Testfälle nur manuell hochgeladen werden, was zur Folge hat Der ursprüngliche Bewertungsbericht war in seiner Skalierbarkeit eingeschränkt und konnte daher nur eine qualitative Bewertung liefern.
- Stichprobenverzerrung
Die ausgewählten Stichproben stammen alle von Online-Websites und spiegeln möglicherweise nicht die Datenverteilung in Tagesambulanzen wider. Insbesondere handelt es sich bei den meisten bewerteten Fällen um Ausreißer, was zu einer möglichen Verzerrung der Bewertung führen kann.
- Anmerkungen oder Referenzantworten sind unvollständig.
Referenzbeschreibungen von Radiopaedia- oder PathologyOutlines-Websites haben meist keine Struktur und kein standardisiertes Radiologie-/Pathologie-Berichtsformat. Insbesondere konzentrieren sich die meisten dieser Berichte in erster Linie auf die Beschreibung von Anomalien und nicht auf die Bereitstellung umfassender Beschreibungen von Fällen und dienen nicht als direkter Vergleich mit perfekten Antworten.
- Nur 2D-Schichteingabe
In tatsächlichen klinischen Umgebungen liegen radiologische Bilder, einschließlich CT- und MRT-Scans, normalerweise im 3D-DICOM-Format vor. Allerdings kann GPT-4V nur die Eingabe von bis zu vier 2D-Bildern unterstützen, sodass der Originaltext während der Auswertung nur 2D-Schlüsselschnitte oder kleine Fragmente (für Pathologie) eingeben kann.
Zusammenfassend lässt sich sagen, dass die ursprüngliche Analyse zwar nicht erschöpfend ist, aber dennoch davon überzeugt ist, dass diese Analyse Forschern und Medizinern wertvolle Erkenntnisse liefern kann. Sie zeigt die aktuellen Fähigkeiten multimodaler Basismodelle auf und könnte zukünftige Arbeiten zur Erstellung grundlegender Modelle inspirieren der Medizin.
Wichtige Beobachtungen
Der ursprüngliche Bewertungsbericht fasst mehrere beobachtete Leistungsmerkmale von GPT-4V basierend auf den Bewertungsfällen zusammen:
Abschnitt Radiologie-Fälle
Die Autoren machten die folgenden Beobachtungen basierend auf 92 Radiologie-Bewertungsfällen und 20 Positionierungsfällen:
- GPT-4V kann die Modalität und Bildposition medizinischer Bilder identifizieren. GPT4-V hat für die meisten Bildinhalte gute Verarbeitungsfähigkeiten für Aufgaben wie Modalerkennung, Bildteilbestimmung und Bildebenenkategoriebestimmung gezeigt. Die Autoren wiesen beispielsweise darauf hin, dass GPT-4V verschiedene Modalitäten wie MRT, CT und einfach unterscheiden kann.
GPT-4V ist fast unmöglich, genaue Diagnosen zu stellen- Die Autoren stellten fest, dass: Einerseits scheint OpenAI einen Sicherheitsmechanismus eingerichtet zu haben, der GPT-4V streng daran hindert, direkte Diagnosen zu stellen; In sehr offensichtlichen diagnostischen Fällen verfügt GPT-4V über schlechte analytische Fähigkeiten und beschränkt sich auf die Auflistung einer Reihe möglicher Krankheiten, kann jedoch keine genauere Diagnose stellen.
GPT-4V kann strukturierte Berichte generieren, aber die meisten Inhalte sind falsch. - GPT-4V kann in den meisten Fällen mehr Standardberichte generieren, aber die Autoren glauben, dass es integrierter ist als handschriftliche Berichte mit flexibleren Inhalten Bild für Bild und es mangelt an umfassenden Funktionen, wenn es um multimodale oder Multi-Frame-Bilder geht. Daher haben die meisten Inhalte nur einen geringen Referenzwert und es mangelt ihnen an Genauigkeit.
GPT-4V kann Markierungen und Textanmerkungen in medizinischen Bildern erkennen, aber die Bedeutung ihres Erscheinens im Bild nicht verstehen. - GPT-4V verfügt über eine starke Texterkennung, Markierungserkennung und andere Fähigkeiten und wird versuchen, diese Markierungen zu verwenden zur Analyse. Die Autoren glauben jedoch, dass es folgende Einschränkungen gibt: Erstens verwendet GPT-4V immer zu viel Text und Tags und das Bild selbst wird zu einem sekundären Referenzobjekt. Zweitens ist es weniger robust und interpretiert häufig medizinische Informationen im Bild falsch.
GPT-4V kann medizinische implantierte Geräte und deren Positionen in Bildern identifizieren. - In den meisten Fällen kann GPT4-V im menschlichen Körper implantierte medizinische Geräte korrekt identifizieren und ihre Positionen relativ genau lokalisieren. Und die Autoren stellten fest, dass selbst in einigen der schwierigeren Fällen Diagnosefehler auftreten konnten, das Medizinprodukt jedoch als korrekt identifiziert wurde.
GPT-4V stößt bei mehreren Bildeingaben auf Analysehindernisse. - Die Autoren stellten fest, dass GPT-4V bei der Betrachtung von Bildern aus verschiedenen Perspektiven in derselben Modalität eine bessere Leistung zeigt als die Eingabe eines einzelnen Bildes, aber dennoch bessere Analysefunktionen aufweist neigt dazu, für jede Ansicht eine separate Analyse durchzuführen; bei gemischten Eingaben von Bildern aus verschiedenen Modalitäten ist es für GPT-4V schwieriger, eine vernünftige Analyse abzuleiten, die Informationen aus verschiedenen Modalitäten integriert.
Die Vorhersagen von GPT-4V lassen sich leicht an der Krankheitsgeschichte des Patienten orientieren- Die Autoren fanden heraus, dass die Angabe der Krankheitsgeschichte des Patienten einen größeren Einfluss auf die Antworten von GPT-4V hat. Wenn eine Krankheitsgeschichte bereitgestellt wird, verwendet GPT-4V diese häufig als Schlüsselpunkt, um Rückschlüsse auf mögliche Anomalien im Bild zu ziehen. Wenn keine Krankheitsgeschichte bereitgestellt wird, behandelt GPT-4V das Bild eher als Schlüsselpunkt. Normalfälle werden analysiert.
GPT-4V kann anatomische Strukturen und Anomalien in medizinischen Bildern nicht lokalisieren.- Die Autoren glauben, dass sich der schlechte Positionierungseffekt von GPT-4V hauptsächlich in Folgendem äußert: Erstens erhält GPT-4V während des Positionierungsprozesses immer Bilder, die weit von der tatsächlichen Grenze entfernt sind Zweitens zeigt es eine signifikante Zufälligkeit in mehreren Runden wiederholter Vorhersagen für dasselbe Bild. Drittens zeigt GPT-4V eine offensichtliche Verzerrung, zum Beispiel: In MRT-Bildern des Gehirns muss sich das Kleinhirn unten befinden.
GPT-4V kann seine vorhandenen Antworten basierend auf mehreren Runden von Benutzerinteraktionen ändern. - GPT-4V kann seine Reaktion über eine Reihe von Interaktionen hinweg so anpassen, dass sie korrekt ist.In dem im Artikel gezeigten Beispiel haben die Autoren beispielsweise MRT-Bilder von Endometriose eingegeben. GPT-4V klassifizierte zunächst eine Becken-MRT fälschlicherweise als eine Knie-MRT, was zu einer falschen Ausgabe führte. Aber der Benutzer hat es durch mehrere Interaktionsrunden mit GPT-4V korrigiert und letztendlich eine genaue Diagnose gestellt.
- GPT-4V hat ein ernstes Problem mit Halluzinationen, insbesondere mit der Tendenz, Patienten als normal zu beschreiben, selbst wenn die abnormalen Signale äußerst offensichtlich sind.
GPT-4V generiert immer Berichte, die in ihrer Struktur sehr vollständig und detailliert erscheinen, deren Inhalt jedoch falsch ist. In vielen Fällen wird der Patient dennoch als normal betrachtet, auch wenn die abnormalen Bereiche im Bild offensichtlich sind.
- GPT-4V ist nicht stabil genug für die Beantwortung medizinischer Fragen.
GPT-4V weist einen großen Leistungsunterschied zwischen gewöhnlichen Bildern und seltenen Bildern auf und zeigt auch offensichtliche Leistungsunterschiede in verschiedenen Körpersystemen. Darüber hinaus kann die Analyse desselben medizinischen Bildes aufgrund sich ändernder Eingabeaufforderungen zu inkonsistenten Ergebnissen führen. Beispielsweise beurteilt GPT-4V ein bestimmtes Bild zunächst als abnormal, wenn die Eingabeaufforderung „Was ist die Diagnose für dieses Gehirn-CT?“ lautet Bericht unter Berücksichtigung des gleichen Bildes wie normal. Diese Inkonsistenz macht deutlich, dass die Leistung von GPT-4V in der klinischen Diagnose möglicherweise instabil und unzuverlässig ist.
- GPT-4V hat strenge Sicherheitsbeschränkungen im medizinischen Bereich
Die Autoren stellten fest, dass GPT-4V Sicherheitsschutzmaßnahmen eingeführt hat, um potenziellen Missbrauch bei Fragen und Antworten im medizinischen Bereich zu verhindern und sicherzustellen, dass Benutzer es sicher verwenden können. Wenn GPT-4V beispielsweise gebeten wird, eine Diagnose zu stellen: „Bitte geben Sie die Diagnose für diese Röntgenaufnahme des Brustkorbs an.“ kann es eine Antwort verweigern oder betonen: „Ich bin kein Ersatz für professionellen medizinischen Rat.“ In den meisten Fällen wird GPT-4V es vorziehen, Ausdrücke zu verwenden, die „scheint zu sein“ oder „könnte sein“ enthalten, um Unsicherheit auszudrücken.
Abschnitt Pathologie-Fälle
Um die Fähigkeiten von GPT-4V bei der Berichterstellung und medizinischen Diagnose von pathologischen Bildern zu untersuchen, führten die Autoren außerdem Bildblocktests an 20 pathologischen Bildern von bösartigen Tumoren aus verschiedenen Geweben durch und kamen zu folgendem Schluss Fazit:
- GPT-4V ist in der Lage, die Modalität genau zu erkennen.
In allen Testfällen kann GPT-4V die Modalität aller Pathologiebilder (H&E-gefärbte Histopathologiebilder) korrekt identifizieren.
- GPT-4V ist in der Lage, strukturierte Berichte zu erstellen.
Anhand eines pathologischen Bildes ohne medizinische Hinweise kann GPT-4V einen strukturierten und detaillierten Bericht erstellen, der die Bildmerkmale beschreibt. In 7 der 20 Fälle konnten sie ihre Beobachtungen anhand von Begriffen wie „Gewebestruktur“, „Zelleigenschaften“, „Stroma“, „Drüsenstruktur“, „Kern“ usw. klar und sogar korrekt auflisten
Das obige ist der detaillierte Inhalt von178 Seiten, 128 Fälle, umfassende Bewertung von GPT-4V im medizinischen Bereich, noch weit von der klinischen Anwendung und praktischen Entscheidungsfindung entfernt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!