Heim >Technologie-Peripheriegeräte >KI >Wie maschinelles Lernen bei der Durchführung klinischer Studien Millionen von Dollar einsparen könnte
Als großer Dienstleister für klinische Studien hat WCG erheblichen Einfluss auf die Marktentwicklung vieler Arzneimittel und Medizinprodukte. Als Zusammenschluss von mehr als 30 ehemals unabhängigen Unternehmen ist es jedoch schwierig, konsistente Daten zur Unterstützung dieser Dienste zu erhalten. Hier helfen die Data-Mastering-Lösungen von Tamr.
Als klinische Dienstleistungsorganisation kümmert sich WCG im Auftrag von Pharmaunternehmen und Geräteherstellern um alle Aspekte klinischer Studien, von Personal und IT bis hin zu Patienteneinbindung und Ethikprüfung, für Pharmariesen wie Merck und Roche sowie für Tausende Bietet wichtige Dienstleistungen für kleine und mittlere pharmazeutische Start-ups und Forschungsgruppen, die die behördliche Zulassung für neue Medikamente und Geräte anstreben.
Der einzige Service, den das Unternehmen nicht anbietet, ist die Durchführung tatsächlicher Versuche. „Das machen wir nicht“, sagte Art Morales, Chief Technology Officer und Data Officer des Unternehmens.
Im letzten Jahrzehnt hat WCG durch die Übernahme von 35 Unternehmen eine profitable Nische in der Branche für klinische Studien geschaffen. Jedes Unternehmen – einige von ihnen schon über 50 Jahre alt – ist auf bestimmte Aspekte des Prozesses klinischer Studien spezialisiert. Diese Unternehmen entwickeln ihre eigenen kundenspezifischen Softwareanwendungen, um ihre verschiedenen Geschäftsprozesse zu automatisieren, und stellen so eine sehr wertvolle Quelle für geistiges Eigentum dar.
Unterschiedliche Systeme zu haben ist aus Sicht jedes einzelnen Unternehmens sinnvoll, stellt jedoch eine Herausforderung für WCG dar, das eine einheitliche Sicht auf alle Tochterunternehmen behalten möchte.
Das Unternehmen versuchte zunächst, das Problem der Dateninkonsistenz manuell zu lösen. Ein Team von etwa fünf bis zehn Personen arbeitete zwei Jahre lang daran, Tippfehler, doppelte Eingaben und andere Datenfehler in den unterschiedlichen Systemen der 35 Tochtergesellschaften auszumerzen. Die bereinigten, standardisierten Daten werden im WCG Data Warehouse in der Cloud gespeichert und können dort mit verschiedenen leistungsstarken Analyse-Engines analysiert werden.
„Eine der großen Fragen, die wir haben, ist: Wie stellt man fest, dass ein ‚Knoten‘ in verschiedenen Organisationen derselbe ‚Knoten‘ ist?“ erklärte Morales. „In manchen Systemen ist möglicherweise eine Adresse vorhanden oder nicht, oder die Adresse ist möglicherweise nicht richtig geschrieben. Einige Daten fehlen möglicherweise einfach und es besteht wirklich große Unsicherheit
Aufgrund dieser Unsicherheit und der Notwendigkeit, etwas zu machen.“ Entscheidungen nacheinander treffen Der Prozess der manuellen Datenverwaltung ist mühsam und zeitaufwändig. Das Unternehmen gab Millionen von Dollar aus, um die Daten zu beherrschen, aber es gab immer noch Inkonsistenzen in den Daten.
Morales erkannte, dass es einen besseren Weg geben musste. Er hörte von Tamr, einem Data-Mastering-Tool, das maschinelles Lernen nutzt, um bekannte Entitäten in großen Datensätzen automatisch zu identifizieren.
Tamr ist ein Datenqualitätstool, das vor acht Jahren geboren wurde und aus der akademischen Forschung von Mike Stonebraker, einem berühmten Informatiker am MIT, hervorgegangen ist.
Laut Anthony Deighton, einem ehemaligen langjährigen Qlik-Manager und jetzt Chief Product Officer von Tamr, ist Stonebraker davon überzeugt, dass maschinelles Lernen notwendig ist, um seit langem bestehende Probleme mit der Datenqualität zu lösen, die in der Größenordnung von Big Data immer schlimmer werden.
Seit vielen Jahren ist die vorgeschriebene Lösung für dieses Dilemma ein Master Data Management (MDM)-Projekt. Anstatt sich darauf zu verlassen, dass jedes einzelne System sicherstellt, dass alles korrekt ist, verfügen einzelne Datensysteme über Verweise auf bekannte Kopien der Daten – sozusagen „Golden Records“.
Die Methode der Goldenen Schallplatte kann das Problem lösen, zumindest denken sie das. Die besten Pläne laufen jedoch Gefahr, zu Staub zu zerfallen, sobald sie in die Realität umgesetzt werden. Genau das passiert mit traditionellem MDM.
Es ist zwecklos, sich beim Bereinigen und Verwalten von Daten auf Menschen zu verlassen. Das wird nicht funktionieren.
Stonebrakers Einsicht in dieses Problem besteht darin, maschinelles Lernen zur Klassifizierung von Daten zu nutzen, so wie Google in den frühen Tagen des Internets maschinelles Lernen zur automatischen Klassifizierung von Websites nutzte und damit die Bemühungen von Yahoo, das Internet manuell zu kuratieren, zunichte machte.
Durch das Training von Maschinen zur Erkennung von Entitäten in Geschäftssystemen hat Tamr einen Weg gefunden, automatisch goldene Aufzeichnungen zu erstellen. Eine wichtige Schlussfolgerung des Teams war, dass Menschen, die gebeten wurden, die Konsistenz mit einer begrenzten Anzahl von Optionen zu bestätigen, viel besser abschnitten, als wenn ihnen Dutzende oder Hunderte von Optionen gleichzeitig präsentiert wurden.
WCGs Tamr-Studie beginnt im Mai 2021. Nach einer Schulungsphase beobachtet und lernt Tamr Software, wie Mitarbeiter mit Datenunterschieden umgehen.
Ein Team von WCG-Mitarbeitern arbeitete mit Tamr zusammen, um alle Datenquellen im Data Warehouse zu überprüfen und zu bereinigen. Die Software identifiziert „Cluster“, zwei oder mehr Begriffe, die in verschiedenen Anwendungen dasselbe bedeuten, und lädt sie als goldene Datensätze in das Cloud-Data-Warehouse von WCG.
Jede Datenquelle wird über Tamr ausgeführt, bevor die Daten in das Data Warehouse geladen werden. Die Größe der Datenquellen reicht von etwa 50.000 Datensätzen bis zu über 1 Million Datensätzen und kann etwa 200 Spalten pro Entität enthalten. Das Problem ist nicht die Quantität, sondern die Komplexität. Tamr-Tools beschleunigen nicht nur den Datenverwaltungsprozess um etwa das Vierfache, sondern erzeugen auch standardisiertere Daten, was eine größere Klarheit für den Geschäftsbetrieb bedeutet.
„Wenn Sie Daten bereinigen, können Sie jetzt sauberere Daten verwenden, um bessere betriebliche Erkenntnisse zu erhalten“, sagte Morales. „Wir können über Salesforce und unsere Anwendungen einen Abgleich durchführen, um zu wissen, dass dies die richtigen Dinge sind. Wenn die Daten früher nicht bereinigt wurden, konnten wir einen Abgleich von 50 Prozent erzielen. Jetzt können wir einen Abgleich von 80 Prozent erreichen. Also nutzen wir das, was wir tun.“ sehr klare betriebliche Vorteile. „
Tamr kann nicht alle Entitäten erfolgreich in Cluster einordnen, es gibt immer noch einige Randfälle, die menschliches Fachwissen erfordern. In diesen Fällen teilt die Software dem Bediener mit, dass sie wenig Vertrauen in die Übereinstimmung hat. Aber laut Morales ist Tamr sehr gut darin, offensichtliche Übereinstimmungen zu finden. Er sagte, die Genauigkeitsrate liege vom ersten Tag an bei etwa 95 %.
„Man muss akzeptieren, dass es bei jedem Data-Mastery-Projekt zu Abweichungen vom Typ I und Typ II kommen wird“, sagte er. „Es wäre schön, wenn man die Quelle dieser Fehler zurückverfolgen könnte … denn Menschen machen die gleichen Fehler.“
Darüber hinaus hilft Tamr WCG, seine Daten besser zu verstehen.
Morales sagte, der manuelle Ansatz des Unternehmens zur Datenverwaltung habe insgesamt Millionen von Dollar gekostet, während die Kosten für Tamr weniger als 1 Million Dollar betrugen. Verbesserungen der Datenqualität sind schwerer zu quantifizieren, aber wohl wichtiger.
Das obige ist der detaillierte Inhalt vonWie maschinelles Lernen bei der Durchführung klinischer Studien Millionen von Dollar einsparen könnte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!