Maison >Périphériques technologiques >IA >ICLR2024 | Harvard FairSeg : le premier ensemble de données de segmentation médicale à grande échelle pour étudier l'équité des algorithmes de segmentation
Auteur | Tian Yu
Ces dernières années, la question de l'équité des modèles d'intelligence artificielle a reçu de plus en plus d'attention, notamment dans le domaine médical, car l'équité des modèles médicaux a un impact négatif impact sur la santé des gens. La santé et la vie comptent. Des ensembles de données de haute qualité sur l’équité médicale sont nécessaires pour faire progresser la recherche sur l’apprentissage équitable.
Les ensembles de données d'équité médicale existants sont tous destinés aux tâches de classification, et il n'existe aucun ensemble de données d'équité disponible pour la segmentation médicale. Cependant, la segmentation médicale est une tâche d'IA médicale très importante comme la classification. Dans certains scénarios, la segmentation est même supérieure à la classification car elle fournit. informations spatiales détaillées sur les anomalies des organes à évaluer par le clinicien.
Dans la dernière recherche, l'équipe Harvard-Ophthalmology-AI-Lab de l'Université Harvard a proposé le premier ensemble de données d'équité pour la segmentation médicale, appelé Harvard-FairSeg, contenant 10 000 échantillons de patients. De plus, une méthode de mise à l'échelle juste des limites d'erreur est proposée en utilisant le dernier Segment Anything Model (SAM) pour repondérer la fonction de perte en fonction de l'erreur de limite supérieure pour chaque groupe d'identité.
Pour faciliter des comparaisons équitables, l'équipe a utilisé un nouveau critère pour évaluer l'équité dans les tâches de segmentation appelé performance de segmentation à l'échelle de l'équité. Grâce à des expériences approfondies, les chercheurs démontrent que leur approche est soit supérieure, soit comparable en termes de performances en matière d'équité aux modèles d'apprentissage de l'équité de pointe.
Ici, des chercheurs de l'Université Harvard partagent avec vous une vague de travaux finals de l'ICLR 2024 « Harvard FairSeg : un ensemble de données de segmentation d'images médicales à grande échelle pour un apprentissage équitable à l'aide d'un modèle de segmentation avec une mise à l'échelle équitable liée aux erreurs ».
Adresse du code : https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg
Site Web de l'ensemble de données : https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/
Lien de téléchargement de l'ensemble de données : https://drive.google.com/drive/u/1/folders /1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ
Harvard-Ophthalmology-AI-Lab s'engage à fournir des ensembles de données d'équité de haute qualité, et davantage d'ensembles de données incluent des tâches de classification d'équité pour trois maladies ophtalmiques.
Page Web de l'ensemble de données de Harvard-Ophthalmology-AI-Lab : https://ophai.hms.harvard.edu/datasets/
Background
Avec l'application croissante de l'intelligence artificielle dans le diagnostic par imagerie médicale, cela devient Il est essentiel de garantir l’équité de ces modèles d’apprentissage profond et d’approfondir les préjugés cachés qui peuvent survenir dans des situations complexes du monde réel. Malheureusement, les modèles d'apprentissage automatique peuvent inclure par inadvertance des attributs sensibles liés aux images médicales (comme la race et le sexe), ce qui peut avoir un impact sur la capacité du modèle à distinguer les anomalies. Ce défi a suscité de nombreux efforts en matière d’apprentissage automatique et de vision par ordinateur pour enquêter sur les préjugés, plaider en faveur de l’équité et introduire de nouveaux ensembles de données.
Pour l'instant, seuls quelques ensembles de données d'équité publique ont été proposés pour étudier la classification de l'équité. L'essentiel est que la plupart de ces ensembles de données ne sont que des données tabulaires, ils ne conviennent donc pas au développement d'une vision par ordinateur d'équité qui nécessite une imagerie. modèle de données. Ce manque d’équité dans la vision par ordinateur est particulièrement préoccupant, compte tenu notamment de l’influence croissante des modèles d’apprentissage profond qui s’appuient sur de telles données. Dans le domaine de l’imagerie médicale, seuls quelques ensembles de données ont été utilisés à des fins d’apprentissage équitable.
La plupart de ces ensembles de données ne sont pas spécifiquement conçus pour la modélisation de l'équité (les seuls ensembles de données d'images médicales actuellement sont répertoriés dans le tableau 1). Ils ne contiennent généralement qu’une gamme limitée d’attributs sensibles tels que l’âge, le sexe et la race, limitant ainsi la portée de l’examen de l’équité entre différentes populations. En outre, il leur manque également un cadre d’analyse comparative complet. Plus important encore, bien que ces ensembles de données et méthodes précédents fournissent des solutions pour la classification médicale, ils ignorent le domaine plus critique de la segmentation médicale.
Cependant, la création d’un nouvel ensemble de données aussi vaste pour un apprentissage équitable se heurte à de nombreux défis. Premièrement, il y a un manque de données médicales à grande échelle et de haute qualité et d’annotations manuelles au niveau des pixels, dont la collecte et l’annotation nécessitent beaucoup de travail et de temps. Deuxièmement, les méthodes existantes pour améliorer l’équité sont principalement conçues pour la classification médicale, et leurs performances restent discutables lorsqu’elles sont adaptées aux tâches de segmentation. Il n’est pas non plus certain que l’injustice présente dans la tâche de segmentation puisse être efficacement atténuée par un algorithme. Enfin, les mesures d’évaluation permettant d’évaluer l’équité des modèles de segmentation médicale restent difficiles à atteindre. De plus, il peut être difficile d’adapter les mesures d’équité existantes conçues pour la classification aux tâches de segmentation.
Pour relever ces défis, nous proposons le premier ensemble de données d'équité à grande échelle dans le domaine de la segmentation médicale, Harvard-FairSeg. Cet ensemble de données est conçu pour être utilisé pour étudier la segmentation juste coupe-disque afin de diagnostiquer le glaucome à partir d'images de fond d'œil SLO, comme le montre la figure 1.
Le glaucome est l'une des principales causes de cécité irréversible dans le monde, avec une prévalence de 3,54 % dans la tranche d'âge 40-80 ans, touchant environ 80 millions de personnes. Le glaucome précoce est souvent asymptomatique, ce qui souligne la nécessité d'un examen professionnel rapide. Une segmentation précise des cupules-disques est essentielle au diagnostic précoce du glaucome par les professionnels de la santé.
Notamment, les personnes noires ont deux fois plus de risque de développer un glaucome que les autres groupes, mais ce groupe a généralement la précision de segmentation la plus faible. Cela nous motive à compiler un ensemble de données pour étudier le problème de l'équité de la segmentation. Les points forts de notre ensemble de données Harvard-FairSeg proposé sont les suivants :
(1) Le premier ensemble de données d'apprentissage de l'équité dans le domaine de la segmentation médicale. Cet ensemble de données fournit une segmentation coupe-disque des données d'imagerie du fond d'œil SLO ; (2) Cet ensemble de données est équipé de six attributs sensibles collectés à partir de scénarios cliniques hospitaliers réels pour étudier le problème d'apprentissage de l'équité ; (3) Nous multiplions les algorithmes d'apprentissage de l'équité SOTA ; sont évalués sur le nouvel ensemble de données proposé et évalués à l'aide de plusieurs mesures de performances de segmentation, notamment Dice et IoU.
Comment obtenir un grand nombre d'annotations de segmentation de haute qualité
Les sujets testés dans cette étude provenaient d'un grand hôpital ophtalmologique universitaire et la période était de 2010 à 2021. Cette étude publiera trois types de données : (1) images d'analyse du fond d'œil SLO ; (2) informations démographiques sur les patients contenant six attributs différents (3) automatiquement annotées par les machines OCT et évaluées manuellement par des médecins professionnels. Comment obtenir un grand nombre de données ? les annotations de segmentation de haute qualité avec annotation au niveau des pixels ont toujours été une partie très importante de la segmentation médicale.
Notre nouvelle méthode consiste à obtenir d'abord l'annotation en pixels des zones de la cupule et du disque à partir de la machine OCT, où la limite du disque est divisée en ouvertures de membrane de Bruch en OCT 3D, qui est implémentée par le logiciel du fabricant OCT, et la limite de la cupule. est détectée comme la membrane limite intérieure (l'intersection entre l'ILM) et le plan qui aboutit à la surface minimale et à l'intersection de la limite du disque sur le plan. En gros, le bord de la cupule peut être considéré comme l’emplacement sur l’ILM le plus proche du bord du disque optique, défini comme l’ouverture de la membrane de Bruch.
L’ouverture de la membrane de Bruch et la membrane de limitation interne sont facilement segmentées en raison du contraste élevé entre elles et l’arrière-plan. Ainsi, comme le logiciel OCT Maker utilise des informations 3D, la segmentation des gobelets et des disques à l'aide de machines OCT est généralement fiable.
En revanche, la segmentation 2D de la cupule et du disque sur les photographies du fond d'œil peut être difficile en raison de divers facteurs, notamment l'atténuation des signaux d'imagerie et l'occlusion vasculaire. Cependant, comme les machines OCT sont assez coûteuses et moins courantes en soins primaires, nous proposons de migrer ces annotations des images de fond d'œil 3D OCT vers 2D SLO pour avoir un impact plus large sur le dépistage précoce du glaucome en soins primaires.
Plus précisément, nous utilisons d'abord l'outil NiftyReg pour aligner l'image du fond d'œil SLO avec l'image du fond d'œil dérivée de l'OCT (fond d'œil OCT). Par la suite, nous appliquons la métrique affine de NiftyReg au masque cup-disque de l'image du fond d'œil OCT pour aligner. avec l'alignement de l'image SLO Fundus. Ce processus produit efficacement un grand nombre d’annotations de masque de fond d’œil SLO de haute qualité, évitant ainsi le processus fastidieux d’annotation manuelle des pixels.
Il convient de noter que cette opération d'enregistrement médical démontre une assez grande précision dans des scénarios du monde réel, et nos observations empiriques montrent que le taux de réussite de l'enregistrement médical est d'environ 80 %. À la suite de ce processus automatisé, les masques générés sont rigoureusement examinés et évalués manuellement par un panel de cinq professionnels de la santé pour garantir une annotation précise des régions coupelle-disque et exclure les masques coupelle ou disque égarés et les échecs d'enregistrement.
Caractéristiques des données : Notre ensemble de données Harvard-FairSeg contient 10 000 échantillons provenant de 10 000 sujets. Nous divisons les données en un ensemble d'apprentissage de 8 000 échantillons et un ensemble de test de 2 000 échantillons. L'âge moyen de l'ensemble de données était de 60,3 ± 16,5 ans. Dans cet ensemble de données, six attributs sensibles sont inclus pour une recherche approfondie sur l'apprentissage de l'équité, notamment l'âge, le sexe, la race, l'origine ethnique, la langue préférée et l'état civil.
En termes de données démographiques raciales, l'ensemble de données comprend des échantillons de trois groupes principaux : les Asiatiques, avec 919 échantillons ; les Noirs, avec 1 473 échantillons et les Blancs, avec 7 608 échantillons. En termes de sexe, les femmes représentaient 58,5 % des sujets, le reste étant des hommes. La répartition ethnique était de 90,6 % de non-hispaniques, 3,7 % d'hispaniques et 5,7 % non précisés. En termes de langue préférée, 92,4 % des sujets préféraient l'anglais, 1,5 % préféraient l'espagnol, 1 % préféraient d'autres langues et 5,1 % étaient indécis. Du point de vue de l'état matrimonial, 57,7 % étaient mariés ou en couple, 27,1 % étaient célibataires, 6,8 % avaient vécu un divorce, 0,8 % étaient légalement séparés, 5,2 % étaient veufs et 2,4 % n'ont pas précisé.
Notre approche pour améliorer l'équité, Fair Error-Bound Scaling
Nous supposons que les groupes d'échantillons qui obtiennent une perte globale de dés plus petite signifie que le modèle apprend mieux pour ce groupe spécifique d'échantillons, par conséquent, ces groupes d'échantillons doivent être plus petit Petit poids. À l’inverse, les groupes d’échantillons présentant une perte globale de dés plus importante (c’est-à-dire des cas insolubles) peuvent conduire à de moins bonnes capacités de généralisation et induire davantage de biais algorithmiques, ce qui nécessite d’attribuer des poids d’apprentissage plus importants à ces groupes d’échantillons.
Par conséquent, nous proposons une nouvelle méthode de mise à l'échelle liée à l'erreur équitable pour mettre à l'échelle la perte de dés entre différents groupes de population pendant l'entraînement. Nous définissons d'abord la perte de dés standard entre les scores de pixels prédits et les cibles de vérité terrain comme :
Pour garantir l'équité entre les différents groupes d'attributs, nous utilisons un nouveau mécanisme de mise à l'échelle lié à l'erreur équitable pour améliorer la perte de dés ci-dessus. Fonction de perte :
En ajustant les scores de pixels prédits avec ces poids d'attribut, cette perte garantit que différents groupes d'attributs contribuent à la fonction de perte de manière équilibrée pendant la formation du modèle, favorisant ainsi l'équité.
Metriques pour évaluer la précision de la segmentation équitable : Les mesures de segmentation traditionnelles telles que Dice et IoU fournissent des informations sur les performances de segmentation, mais peuvent ne pas capturer efficacement l'équité entre différents groupes. Dans cet esprit, nous visons à proposer une nouvelle métrique qui englobe à la fois la précision et l’équité de la segmentation entre différents groupes. Il en résulte une perspective globale, garantissant que le modèle est à la fois précis et équitable.
Pour intégrer l'équité de groupe, nous devons évaluer l'exactitude du groupe individuellement. Nous définissons d’abord une différence de précision de mesure de segmentation Δ comme suit :
Ici, Δ mesure l’écart global de la précision de chaque population par rapport à la précision globale. Il s’approche de zéro lorsque tous les groupes atteignent une précision de segmentation similaire.
Lorsque nous considérons l'équité entre différents groupes, nous devons calculer la différence relative entre l'exactitude globale de la segmentation et l'exactitude au sein de chaque groupe démographique. Sur cette base, nous définissons la métrique Equity-Scaled Segmentation Performance (ESSP) comme défini ci-dessous :
Cette formule garantit que l'ESSP est toujours inférieur ou égal à I. À mesure que Δ diminue (indiquant des performances de segmentation égales entre les groupes), ESSP tend vers la métrique de segmentation traditionnelle. En revanche, un Δ plus élevé indique de plus grandes différences dans les performances de segmentation entre les groupes, ce qui entraîne des scores ESSP plus faibles.
Cette approche nous permet d'évaluer les modèles de segmentation non seulement sur la précision (via les métriques Dice, IoU, etc.) mais également sur l'équité entre différents groupes. Cela fait de la fonction de notation ESSP une mesure clé pour garantir la précision et l’équité de la segmentation dans les tâches d’imagerie médicale. Cette métrique peut être combinée avec les dés IoU traditionnels pour devenir ES-Dice et ES-IoU.
Expérience
Nous avons choisi deux réseaux de segmentation comme épine dorsale. Parmi eux, nous avons choisi le grand modèle de segmentation Segment Anything Model (SAM) récemment lancé pour expérimenter la précision de segmentation de SOTA, et pour l'autre structure principale, nous avons choisi TransUNet.
Nous avons également utilisé d'autres mesures de segmentation telles que HD95 ASD et NSD pour les tests. Voici les résultats sur la race :
.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!