Maison  >  Article  >  Périphériques technologiques  >  178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre l'application clinique et la prise de décision pratique

178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre l'application clinique et la prise de décision pratique

WBOY
WBOYoriginal
2024-07-19 18:25:03300parcourir

L'Université Jiao Tong de Shanghai et le Shanghai AI Lab ont publié une évaluation de cas médical du GPT-4V de 178 pages, révélant pour la première fois de manière exhaustive les performances visuelles du GPT-4V dans le domaine médical. Lien ArXiv : https://arxiv.org/abs /2310.09909 Autre adresse de téléchargement du papier : Baidu Cloud : https ://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2Google Drive : https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharingResearch Introduction Poussé par des modèles de base à grande échelle, l'intelligence artificielle Le développement de l'intelligence a fait de grands progrès récemment, en particulier le GPT-4 d'OpenAI. Ses puissantes capacités de questions-réponses et de connaissances ont illuminé le moment Eureka dans le domaine de l'IA et ont attiré. une large attention du public. GPT-4V(ision) est le dernier modèle de base multimodal d'OpenAI. Par rapport à GPT-4, il ajoute des capacités de saisie d’images et de voix. Cette étude vise à évaluer les performances du GPT-4V(ision) dans le domaine du diagnostic médical multimodal à travers une analyse de cas. Au total, 128 (92 cas d'évaluation radiologique, 20 cas d'évaluation pathologique et 16 cas de positionnement) ont été affichés et analysés. . Cas) Exemple de questions et réponses GPT-4V avec un total de 277 images dans chaque cas (Remarque : cet article n'impliquera pas l'affichage de cas, veuillez vous référer au document original pour l'affichage et l'analyse de cas spécifiques). En résumé, l’auteur original espère évaluer systématiquement les capacités suivantes du GPT-4V : Le GPT-4V peut-il reconnaître la modalité et la position d’imagerie des images médicales ? La reconnaissance de diverses modalités (telles que les rayons X, la tomodensitométrie, l'IRM, l'échographie et la pathologie) et l'identification des emplacements d'imagerie dans ces images constituent la base de diagnostics plus complexes. Le GPT-4V peut-il localiser différentes structures anatomiques dans des images médicales ? L'identification de structures anatomiques spécifiques dans les images est essentielle pour identifier les anomalies et garantir que les problèmes potentiels sont correctement résolus. Le GPT-4V peut-il détecter et localiser des anomalies dans les images médicales ? La détection d’anomalies telles que des tumeurs, des fractures ou des infections est un objectif majeur de l’analyse d’images médicales. En milieu clinique, des modèles d’IA fiables doivent non seulement détecter ces anomalies, mais également les identifier afin qu’une intervention ou un traitement ciblé puisse être effectué. Le GPT-4V peut-il combiner plusieurs images pour le diagnostic ? Le diagnostic médical nécessite souvent l’intégration d’informations provenant de différentes modalités ou vues d’imagerie pour une observation globale. Il est donc crucial d’explorer la capacité du GPT-4V à combiner et analyser les informations de plusieurs images. Le GPT-4V peut-il rédiger un rapport médical décrivant des conditions anormales et les résultats normaux associés ? Pour les radiologues et les pathologistes, la rédaction de rapports est une tâche fastidieuse. Si GPT-4V contribue à ce processus, en générant des rapports précis et cliniquement pertinents, il augmentera sans aucun doute l'efficacité de l'ensemble du flux de travail. Le GPT-4V peut-il intégrer l’historique du patient lors de l’interprétation des images médicales ? Les informations de base sur le patient et ses antécédents médicaux peuvent influencer considérablement l’interprétation des images médicales actuelles. Si ces informations peuvent être prises en compte pour analyser les images lors du processus de prédiction du modèle, l’analyse sera plus personnalisée et plus précise. GPT-4V peut-il maintenir la cohérence et la mémoire au cours de plusieurs cycles d'interactions ? Dans certains scénarios médicaux, une seule série d’analyses peut ne pas suffire. Lors de longues conversations ou analyses, en particulier dans des environnements de soins de santé complexes, il est essentiel de maintenir la continuité des connaissances sur les données. L'évaluation de l'article original couvrait 17 systèmes médicaux, notamment : le système nerveux central, la tête et le cou, le cœur, la poitrine et l'abdomen, la tête et le cou, le cœur, la poitrine, le sang, le hépatobiliaire, le gastro-intestinal, l'urologie, la gynécologie, l'obstétrique, le sein, l'anus. Les images , de l'abdomen, de gynécologie, d'obstétrique, du sein, de l'appareil locomoteur, de la colonne vertébrale, vasculaires, d'oncologie, de traumatologie et pédiatriques proviennent de 8 modalités utilisées en clinique quotidienne, notamment : radiographie, tomodensitométrie (TDM), imagerie par résonance magnétique (IRM). , tomographie par émission de positons (TEP), angiographie numérique par soustraction (DSA), mammographie, échographie et pathologie.

178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre lapplication clinique et la prise de décision pratique

Diagramme schématique de 17 systèmes médicaux et 8 modalités d'imagerie

Le document souligne que bien que le GPT-4V soit performant pour distinguer les modalités d'imagerie médicale et les structures anatomiques, il reste confronté à d'énormes défis en matière de diagnostic des maladies et de génération de rapports complets. . Ces résultats démontrent que les grands modèles multimodaux ont réalisé des progrès significatifs dans la vision par ordinateur et le traitement du langage naturel, mais sont encore insuffisants pour prendre en charge les applications médicales réelles et la prise de décision clinique.

Sélection des cas de test

Les questions-réponses sur la radiologie de l'article original proviennent de [Radiopaedia](https://radiopaedia.org/), les images sont téléchargées directement depuis la page Web, les cas de positionnement proviennent de plusieurs publics médicaux les ensembles de données de segmentation et les images pathologiques sont extraites de [PathologyOutlines] (https://www.pathologyoutlines.com/). Lors de la sélection des cas, l'auteur a pris en compte de manière exhaustive les aspects suivants :

  • Heure de publication : Pour éviter que les cas de test sélectionnés n'apparaissent dans l'ensemble de formation de GPT-4V, l'auteur n'a sélectionné que les derniers cas publiés en 2023.
  • Credibilité de l'annotation : Selon le degré d'achèvement des cas fourni par Radiopaedia, l'auteur tente de sélectionner les cas avec un degré d'achèvement supérieur à 90% pour s'assurer de la crédibilité de l'annotation ou du diagnostic.
  • Diversité des modalités d'image : Lors de la sélection des cas, l'auteur a essayé de montrer autant que possible la réponse du GPT-4V à plusieurs modalités d'imagerie.

En termes de traitement d'image, l'auteur a également effectué la standardisation suivante pour garantir la qualité de l'image d'entrée :

  • Sélection d'images multiples : GPT-4V prend en charge jusqu'à 4 entrées d'images, mais certains cas peuvent avoir plus de 4 images associées. Les auteurs tentent d'éviter cette situation dans la mesure du possible et, le cas échéant, sélectionnent les images les plus pertinentes sur la base des notes de cas de Radiopaedia.
  • Sélection de section : Une grande quantité de données d'images radiographiques est sous forme 3D et ne peut pas être directement saisie dans GPT-4V. Les auteurs ont utilisé des coupes axiales recommandées par Radiopaedia pour la saisie au lieu d'images 3D complètes.
  • Standardisation des images : La standardisation des images médicales comprend la sélection de la largeur et du niveau de la fenêtre. Les auteurs saisissent les images en utilisant la largeur et le niveau de fenêtre sélectionnés par le radiologue lors du téléchargement du cas sur Radiopaedia. Pour l'ensemble de données fractionné, l'article d'origine utilise une fenêtre de [-300, 300] et effectue une normalisation au niveau du cas de 0-1.

L'article original a été testé à l'aide de la [version Web] de GPT-4V (https://chat.openai.com/). Lors de la première série de questions-réponses, les utilisateurs saisiront des images, puis plusieurs séries de questions-réponses commenceront. Afin d'éviter toute influence mutuelle du contexte, pour chaque nouveau cas, une nouvelle fenêtre de questions-réponses sera créée pour les questions-réponses.

178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre lapplication clinique et la prise de décision pratique

Exemple de questions et réponses GPT-4V

Le rouge sur l'image indique une erreur, le jaune indique une incertitude et le vert indique que c'est correct. Les couleurs dans Référence indiquent la base du jugement correspondant. Les phrases qui ne sont pas colorées obligent les lecteurs à juger de leur propre exactitude. Pour plus de cas et d’analyses de cas, veuillez vous référer à l’article original.

Évaluation pathologique

Toutes les images subissent deux tours de dialogue.

Round 1

Demandez si vous pouvez générer un rapport basé uniquement sur les images d'entrée.
Objectif : évaluer si GPT-4V peut identifier la modalité de l'image et l'origine des tissus sans fournir d'indices médicaux pertinents.

Deuxième tour

L'utilisateur fournit la source tissulaire correcte et demande si GPT-4V peut établir un diagnostic basé sur l'image pathologique et les informations sur la source tissulaire.
J'espère que GPT-4V révisera le rapport et fournira un diagnostic clair.

178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre lapplication clinique et la prise de décision pratique

Affichage de cas d'images pathologiques, pour plus de cas et d'analyses de cas, veuillez vous référer à l'article original

Dans l'évaluation du positionnement, l'article original a adopté une approche étape par étape :

  1. Premier test si GPT-4V peut identifier la cible dans l'image fournie L'existence de La tâche de localisation unique est évaluée à plusieurs reprises pour obtenir au moins 4 cadres englobants prédits, calculer leurs scores IOU et sélectionner le plus élevé pour prouver sa performance limite supérieure
  2. Ensuite, le une boîte englobante moyenne est dérivée et le score IOU est calculé pour prouver sa performance moyenne.

  3. Limitations de l'évaluation178pages ! La première évaluation de cas complète du GPT-4V (ion) dans le domaine médical : il y a encore une distance entre lapplication clinique et la prise de décision pratique

  4. Bien entendu, l'auteur original a également mentionné certaines lacunes et limites de l'évaluation :
Une évaluation uniquement qualitative plutôt que quantitative


Étant donné que GPT-4V ne fournit qu'une interface Web en ligne, il ne peut Le téléchargement manuel des cas de test entraîne une évolutivité limitée du rapport d'évaluation original et ne fournit donc qu'une évaluation qualitative.

Biais d'échantillonnage


Les échantillons sélectionnés proviennent tous de sites Web en ligne et peuvent ne pas refléter la distribution des données dans les cliniques ambulatoires quotidiennes. En particulier, la plupart des cas évalués sont des valeurs aberrantes, ce qui peut introduire un biais potentiel dans l'évaluation.

Les notes ou les réponses de référence sont incomplètes


Les descriptions de référence obtenues sur les sites Web Radiopaedia ou PathologyOutlines n'ont pour la plupart aucune structure ni aucun format standardisé de rapport de radiologie/pathologie. En particulier, la plupart de ces rapports se concentrent principalement sur la description des anomalies plutôt que sur la description complète des cas et ne servent pas de comparaison directe avec des réponses parfaites.

Entrée de coupe 2D uniquement


Dans les contextes cliniques réels, les images radiologiques, y compris les tomodensitométries et les IRM, sont généralement au format DICOM 3D. Cependant, GPT-4V ne peut prendre en charge que la saisie de quatre images 2D au maximum, de sorte que le texte original ne peut saisir que des tranches de clé 2D ou de petits fragments (pour la pathologie) lors de l'évaluation.

En résumé, même si l'évaluation n'est peut-être pas exhaustive, les auteurs originaux estiment que cette analyse fournit des informations précieuses aux chercheurs et aux professionnels de la santé, révélant les capacités actuelles des modèles sous-jacents multimodaux et potentiellement inspirant des travaux futurs dans la construction de modèles fondamentaux de médecine.

Observations importantes


Le rapport d'évaluation original résumait plusieurs caractéristiques de performance observées du GPT-4V sur la base des cas d'évaluation :

Partie du cas de rayonnement


Les auteurs ont conclu comme suit sur la base de 92 cas d'évaluation radiologique et 20 cas de positionnement Observations :

  1. GPT-4V peut identifier la modalité et la position d'imagerie des images médicales

GPT4-V a montré un bon traitement pour la plupart des tâches telles que la reconnaissance modale du contenu de l'image, la détermination des parties d'imagerie et la capacité de détermination des catégories de plans d'image. Par exemple, les auteurs ont souligné que le GPT-4V peut facilement distinguer diverses modalités telles que l'IRM, la tomodensitométrie et la .

  1. GPT-4V est presque impossible de poser des diagnostics précis

Les auteurs ont constaté que : d'une part, OpenAI semble avoir mis en place un mécanisme de sécurité qui limite strictement le GPT-4V de faire des diagnostics directs, d'autre part ; , sauf pour les cas de diagnostic très évidents, GPT-4V a de faibles capacités analytiques et se limite à répertorier une série de maladies possibles, mais ne peut pas donner un diagnostic plus précis.

  1. GPT-4V peut générer des rapports structurés, mais la plupart du contenu est incorrect

GPT-4V peut générer des rapports plus standard dans la plupart des cas, mais les auteurs estiment que par rapport à l'intégration, des rapports manuscrits avec un degré plus élevé et un contenu plus flexible ont tendance à être davantage une description image par image et manquent de capacités complètes lorsqu'il s'agit de cibler des images multimodales ou multi-images. Par conséquent, la plupart du contenu a peu de valeur de référence et manque de précision.

  1. GPT-4V peut reconnaître les marqueurs et les annotations de texte dans les images médicales, mais il ne peut pas comprendre la signification de leur apparition dans l'image

GPT-4V affiche une forte reconnaissance de texte, de reconnaissance de marqueurs et d'autres capacités, et essaiera d'utiliser. ces marqueurs pour analyse. Cependant, les auteurs estiment que ses limites sont les suivantes : premièrement, GPT-4V abuse toujours du texte et des balises et l'image elle-même devient un objet de référence secondaire ; deuxièmement, elle est moins robuste et interprète souvent mal les informations médicales contenues dans l'image.

  1. GPT-4V peut identifier les dispositifs médicaux implantés et leurs positions dans les images

Dans la plupart des cas, GPT4-V peut identifier correctement les dispositifs médicaux implantés dans le corps humain et les localiser de manière relativement précise. Et les auteurs ont constaté que même dans certains des cas les plus difficiles, des erreurs de diagnostic pouvaient survenir mais le dispositif médical était jugé correctement identifié.

  1. GPT-4V rencontrera des obstacles d'analyse face à une entrée multi-images

Les auteurs ont découvert que face à des images de différentes perspectives dans la même modalité, GPT-4V affichera de meilleures performances que l'entrée. Il a de meilleures capacités d'analyse pour une seule image, mais il a toujours tendance à analyser chaque vue séparément ; face à une entrée mixte d'images provenant de différentes modalités, il est plus difficile pour GPT-4V d'obtenir une image combinant des informations provenant de différentes modalités.

  1. La prédiction du GPT-4V est facilement guidée par les antécédents de la maladie du patient

Les auteurs ont découvert que le fait que les antécédents de la maladie du patient soient fournis aura un plus grand impact sur les réponses au GPT-4V. Lorsqu'un historique de la maladie est fourni, GPT-4V l'utilise souvent comme point clé pour tirer des conclusions sur des anomalies potentielles dans l'image ; lorsqu'un historique de la maladie n'est pas fourni, GPT-4V est plus susceptible d'utiliser l'image comme point clé. Les cas normaux sont analysés.

  1. GPT-4V ne peut pas localiser les structures anatomiques et les anomalies dans les images médicales

Les auteurs pensent que le mauvais effet de positionnement du GPT-4V est principalement dû à : Premièrement, le GPT-4V s'éloigne toujours plus pendant le processus de positionnement. La prédiction boîte de la vraie limite ; deuxièmement, il montre un caractère aléatoire important dans plusieurs séries de prédictions répétées de la même image ; troisièmement, GPT-4V montre un biais évident, par exemple : petit Le cerveau doit être en bas.

  1. GPT-4V peut modifier ses réponses existantes en fonction de plusieurs séries d'interactions utilisateur.

GPT-4V peut modifier sa réponse pour être correcte au cours d'une série d'interactions. Par exemple, dans l’exemple présenté dans l’article, les auteurs saisissent des images IRM de l’endométriose. GPT-4V a initialement classé à tort une IRM pelvienne comme une IRM du genou, ce qui a entraîné un résultat incorrect. Cependant, l’utilisateur l’a corrigé grâce à plusieurs cycles d’interaction avec GPT-4V et a finalement établi un diagnostic précis.

  1. Les hallucinations GPT-4V sont un problème sérieux et les patients ont tendance à être décrits comme normaux même si les signaux anormaux sont extrêmement évidents.

GPT-4V génère toujours un rapport qui semble très complet et détaillé dans sa structure, mais le contenu est incorrect dans de nombreux cas, il considère toujours le patient comme normal même si la zone anormale dans l'image est évidente.

  1. GPT-4V n'est pas assez stable pour les questions et réponses médicales

GPT-4V présente une énorme différence de performances entre les images courantes et les images rares, et montre également des différences de performances évidentes dans différents systèmes corporels. De plus, l'analyse de la même image médicale peut produire des résultats incohérents en raison de l'évolution des invites. Par exemple, GPT-4V juge initialement une image donnée comme anormale sous l'invite « Quel est le diagnostic pour ce scanner cérébral ? » rapport considérant la même image comme normale. Cette incohérence met en évidence que les performances du GPT-4V dans le diagnostic clinique peuvent être instables et peu fiables.

  1. GPT-4V a des restrictions de sécurité strictes dans le domaine médical

Les auteurs ont découvert que GPT-4V a établi des mesures de protection de sécurité pour éviter toute utilisation abusive potentielle dans les questions-réponses dans le domaine médical afin de garantir que les utilisateurs peuvent l'utiliser en toute sécurité. Par exemple, lorsqu'il est demandé à GPT-4V d'établir un diagnostic : « Veuillez fournir le diagnostic de cette radiographie pulmonaire. », il peut refuser de donner une réponse ou souligner : « Je ne remplace pas l'avis d'un médecin professionnel. " Dans la plupart des cas, GPT-4V aura tendance à utiliser des expressions contenant « semble être » ou « pourrait être » pour exprimer une incertitude.
Section de cas pathologiques

De plus, afin d'explorer les capacités du GPT-4V dans la génération de rapports et le diagnostic médical d'images pathologiques, les auteurs ont effectué des tests au niveau des blocs d'images sur 20 images pathologiques de tumeurs malignes provenant de différents tissus, et ont conclu. conclusions suivantes :

  1. GPT-4V est capable d'une reconnaissance précise des modalités

Dans tous les cas de test, GPT-4V peut identifier correctement la modalité de toutes les images pathologiques (images histopathologiques colorées H&E).

  1. GPT-4V est capable de générer des rapports structurés

Étant donné une image pathologique sans aucune indication médicale, GPT-4V peut générer un rapport structuré et détaillé pour décrire les caractéristiques de l'image. Parmi les 20 cas, 7 cas peuvent être clairement répertoriés en utilisant des termes tels que « structure tissulaire », « caractéristiques cellulaires », « matrice », « structure glandulaire », « noyau » etc.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn