Heim >Technologie-Peripheriegeräte >KI >Datenschutz: KI anonymisiert klinische Daten im Gesundheitswesen
Angesichts der plötzlichen COVID-19-Epidemie haben wir rekordverdächtige Datenschutzverletzungen erlebt. Ein aktueller IBM-Bericht ergab, dass auch die Kosten von Datenschutzverletzungen dramatisch steigen.
Das Gesundheitswesen ist zweifellos eine der am stärksten von Datenschutzverletzungen betroffenen Branchen, mit einem durchschnittlichen Verlust von 9,2 Millionen US-Dollar pro Datenschutzverletzung. Bei solchen Verstößen handelt es sich bei den Informationen, die am häufigsten offengelegt werden, um sensible Kundendaten.
Pharma- und Gesundheitsunternehmen sind verpflichtet, sich nach strengen Richtlinien zu organisieren und zu operieren und gleichzeitig Patientendaten zu schützen. Daher kann jeder Verstoß kostspielig sein. Beispielsweise müssen Unternehmen während der gesamten Arzneimittelentwicklungsphase personenbezogene Daten (PII) sammeln, verarbeiten und speichern. Wenn Studien abgeschlossen und klinische Anträge eingereicht werden, muss darauf geachtet werden, dass die Privatsphäre der Patienten bei veröffentlichten Ergebnissen geschützt wird.
Die Verordnung Nr. 0070 der Europäischen Arzneimittel-Agentur (EMA) und die von Health Canada herausgegebenen Vorschriften zur „Veröffentlichung klinischer Informationen“ machen jeweils spezifische Vorschläge zur Datenanonymisierung, in der Hoffnung, das Risiko der Verwendung der Ergebnisse zur Wiederherstellung von Patientenidentitätsinformationen zu minimieren .
Diese Vorschriften setzen sich nicht nur für den Datenschutz ein, sondern erfordern auch die Weitergabe von Testdaten, um sicherzustellen, dass die Community daran arbeiten kann. Aber das bringt Unternehmen zweifellos in ein Dilemma.
Wie schaffen Pharmaunternehmen also ein Gleichgewicht zwischen Datenschutz und Transparenz und veröffentlichen gleichzeitig Forschungsergebnisse zeitnah, kostengünstig und effizient? Fakten haben gezeigt, dass KI-Technologie mehr als 97 % der Arbeitslast im Einreichungsprozess übernehmen kann, wodurch die betriebliche Belastung von Unternehmen erheblich reduziert wird.
Bei der Umsetzung der Anonymisierung klinischer Einreichungen stehen Unternehmen vor allem vor drei zentralen Herausforderungen:
Unstrukturierte Daten sind schwer zu verarbeiten: Ein großer Teil der Daten klinischer Studien sind unstrukturierte Daten. Die Forschungsergebnisse enthalten eine große Menge an Textdaten, gescannten Bildern und Tabellen, was die Verarbeitung ineffizient macht. Forschungsberichte umfassen oft Tausende von Seiten, und die Identifizierung vertraulicher Informationen darin gleicht der Suche nach der Nadel im Heuhaufen. Darüber hinaus gibt es keine standardisierten technischen Schulungslösungen, die diese Art der Verarbeitung automatisieren können.
Manuelle Prozesse sind umständlich und fehleranfällig: Pharmaunternehmen müssen heute Hunderte von Mitarbeitern beschäftigen, um die Einreichung klinischer Studien zu anonymisieren. Das gesamte Team muss mehr als 25 komplexe Schritte durchlaufen und die Bearbeitung eines typischen zusammenfassenden Dokuments kann bis zu 45 Tage dauern. Und bei der manuellen Durchsicht tausender Seiten an Material führt der langwierige Prozess oft zu Fehlern.
Offene Auslegung der Regulierungsvorgaben: Obwohl es viele detaillierte Anregungen in den Verordnungen gibt, sind die Details noch unvollständig. Beispielsweise verlangen die Vorschriften von Health Canada zur „öffentlichen Veröffentlichung klinischer Informationen“, dass das Risiko der Wiederherstellung von Identitätsinformationen weniger als 9 % betragen sollte, die spezifische Methode zur Risikoberechnung wird jedoch nicht detailliert beschrieben.
Im Folgenden stellen wir uns konkrete Lösungen vor, die solche Anonymisierungsbedürfnisse aus der Perspektive der Problemlösung bewältigen können.
Die folgenden drei Elemente helfen beim Aufbau technologiegesteuerter Anonymisierungslösungen:
Heute kann KI bereits wie ein Künstler kreieren und diagnostizieren wie ein Arzt. Die Deep-Learning-Technologie hat viele Fortschritte in der KI vorangetrieben, und KI-Sprachmodelle sind eines der Rückgrate. Als Zweig von Algorithmen zur Verarbeitung menschlicher Sprache sind KI-Sprachmodelle besonders gut darin, benannte Entitäten wie Patientennamen, Sozialversicherungsnummern und Postleitzahlen zu erkennen.
Unbewusst sind diese leistungsstarken KI-Modelle in jeden Winkel des öffentlichen Bereichs vorgedrungen und wurden anhand öffentlicher Dokumente in großem Umfang trainiert. Neben der bekannten Wikipedia ist auch die Datenbank MIMIC-III v1.4 mit Desensibilisierungsdaten von 40.000 Patienten zu einer wertvollen Ressource für das Training von KI-Modellen geworden. Um die Modellleistung zu verbessern, müssen Fachexperten natürlich auch eine anschließende Neuschulung des Modells auf der Grundlage interner klinischer Studienberichte durchführen.
Der von Health Canada vorgeschlagene Risikoschwellenwert von 9 % kann grob in eine Modellgenauigkeitsanforderung von etwa 95 % umgewandelt werden (im Allgemeinen gemessen durch Rückruf oder Präzision). KI-Algorithmen sind in der Lage, große Datenmengen zu betrachten und mehrere Trainingszyklen durchzuführen, um ihre Genauigkeit zu verbessern. Allerdings reichen technologische Verbesserungen allein nicht aus, um für die klinische Anwendung geeignet zu sein; diese Modelle erfordern auch menschliche Anleitung und Unterstützung.
Um die Subjektivität klinischer Studiendaten anzugehen und die Ergebnisse zu verbessern, sind Analyselösungen so konzipiert, dass sie mit Menschen zusammenarbeiten – dies wird als Augmented Intelligence bezeichnet. Das heißt, der Mensch wird als Teil des Mensch-Maschine-Kreislaufs betrachtet. Er ist nicht nur für die Datenkennzeichnung und das Modelltraining verantwortlich, sondern gibt auch regelmäßig Feedback, nachdem die Lösung wirksam ist. Auf diese Weise werden die Genauigkeit und Ausgabeleistung des Modells verbessert.
Nehmen wir an, dass eine Studie insgesamt 1.000 Patienten umfasst, von denen 980 aus den kontinentalen Vereinigten Staaten und die restlichen 20 aus Südamerika stammen . Müssen die Daten dieser 20 Patienten also bearbeitet (geschwärzt) oder anonymisiert werden? Ist es notwendig, Patientenproben innerhalb desselben Landes oder Kontinents auszuwählen? Auf welche Weise könnte ein Angreifer diese anonymisierten Informationen mit Alter, Postleitzahl und anderen Daten kombinieren, um letztendlich die Identität des Patienten wiederherzustellen?
Leider gibt es auf diese Fragen keine Standardantworten. Um die Richtlinien zur klinischen Einreichung klarer zu interpretieren, müssen Pharmahersteller, klinische Forschungsorganisationen (CROs), Anbieter von Technologielösungen und Forscher aus der Wissenschaft ihre Kräfte bündeln und zusammenarbeiten.
Mit den oben genannten Grundideen besteht der nächste Schritt darin, sie zu einem vollständigen Lösungsprozess zusammenzufügen. Die verschiedenen Technologien der gesamten Anonymisierungslösung sollten auf den tatsächlichen Methoden basieren, die wir bereits in unserer Arbeit verwenden.
Klinische Studienberichte enthalten eine Vielzahl strukturierter Daten (numerische und Identitätseinheiten, wie demografische Informationen und Adresseinträge) sowie verschiedene unstrukturierte Datenelemente, die wir zuvor besprochen haben. Dies muss ordnungsgemäß gehandhabt werden, um zu verhindern, dass böswillige Hacker diese auf sensiblen benannten Entitäten wiederherstellen. Strukturierte Daten sind relativ einfach zu verarbeiten, aber KI-Algorithmen müssen noch die Schwierigkeit unstrukturierter Daten überwinden.
Unstrukturierte Daten (normalerweise in einem Format wie gescannte Bilder oder PDFs) werden zunächst mithilfe von Technologien wie optischer Zeichenerkennung (OCR) oder Computer Vision in eine lesbare Form umgewandelt. Anschließend werden KI-Algorithmen auf die Dokumente angewendet, um personenbezogene Daten zu erkennen. Um die Leistung des Algorithmus zu verbessern, können Benutzer Feedback zu Beispielergebnissen geben, um dem System zu helfen, zu verstehen, wie diese Analysen mit geringerer Zuverlässigkeit zu handhaben sind.
KI-gesteuerte Anonymisierungsmethode
Nach Abschluss der Anonymisierung müssen auch die entsprechenden Risiken der Identitätswiederherstellung bewertet werden. Diese Arbeit erfordert in der Regel einen Bezug zum Hintergrund der Bevölkerung und die Kombination mit Daten aus anderen ähnlichen Studien. Die Risikobewertung konzentriert sich auf die Identifizierung von drei Hauptrisikoszenarien – Staatsanwälte, Journalisten und Vermarkter – anhand einer Reihe von Elementen. Diese drei Gruppen werden versuchen, Patienteninformationen basierend auf ihren eigenen Bedürfnissen wiederherzustellen.
Bevor das Risikoniveau 9 % der vorgeschriebenen Empfehlungen erreicht, werden durch den Anonymisierungsprozess weitere Geschäftsregeln und Algorithmusverbesserungen eingeführt, um die Wirksamkeit in einem sich wiederholenden Zyklus zu steigern. Durch die Integration mit anderen Technologieanwendungen und die Einrichtung eines Prozesses für maschinelle Lernvorgänge (ML Ops) kann die gesamte Anonymisierungslösung dann in den tatsächlichen Arbeitsablauf integriert werden.
Für Pharmaunternehmen können solche Anonymisierungslösungen den Einreichungszyklus um bis zu 97 % verkürzen. Noch wichtiger ist, dass dieser halbautomatische Arbeitsablauf die Effizienz verbessert und gleichzeitig die Einbindung des Menschen gewährleistet. Doch was sind die größten Herausforderungen beim Aufbau KI-gesteuerter Anonymisierungslösungen?
Tatsächlich ist das größte Hindernis für diese Arbeit, wie bei den meisten Data-Science-Praktiken, nicht der KI-Algorithmus, der zur Identifizierung benannter Entitäten verwendet wird, sondern die Art und Weise, wie Forschungsberichte in qualitativ hochwertige Daten umgewandelt werden können von KI verarbeitet. Bei Dokumenten mit unterschiedlichen Formaten, Stilen und Strukturen ist die entsprechende Content-Ingestion-Pipeline oft ratlos.
Daher müssen KI-Anonymisierungslösungen kontinuierlich verfeinert werden, um sich an neue Dokumentkodierungsformate anzupassen oder die Start- und Endpositionen in Bild-/Tabellenscans genau zu erkennen. Offensichtlich ist dieser Arbeitsaspekt der zeitaufwändigste und energieintensivste Bereich der KI-Anonymisierung.
Wird die Anonymisierung der klinischen Forschung mit der rasanten Weiterentwicklung der Technologie schwieriger und effizienter? Während KI-gestützte Lösungen in der Tat beeindruckend sind, wird es neue Herausforderungen geben, die Aufmerksamkeit erfordern.
Erstens erhöhen Verbraucherdaten, die über soziale Medien, Gerätenutzung und Online-Tracking gesammelt werden, das Risiko einer Identitätswiederherstellung erheblich. Angreifer können diese öffentlichen Informationen mit klinischen Forschungsdaten kombinieren, um Patienten genau zu identifizieren. Noch besorgniserregender ist, dass böswillige Hacker sehr aktiv KI-Ergebnisse anwenden und möglicherweise sogar Pharmaunternehmen einen Schritt voraus sind.
Schließlich entwickeln sich die Vorschriften weiter, um länderspezifische Praktiken zu berücksichtigen. Vielleicht werden einige Länder bald spezifische Vorschriften für die Anonymisierung klinischer Einreichungen bekannt geben, was sicherlich die Komplexität und Kostenbelastung für Unternehmen bei der Einhaltung der Vorschriften erhöhen wird. Aber wie heißt es so schön: Die Zukunft ist rosig, aber der Weg ist beschwerlich. Die ausgereifte Entwicklung der KI-Technologie gibt der gesamten Branche zumindest Hoffnung, Probleme zu überwinden.
Das obige ist der detaillierte Inhalt vonDatenschutz: KI anonymisiert klinische Daten im Gesundheitswesen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!