Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Verantwortungsvolles maschinelles Lernen – der „Glasbox“-Ansatz

Verantwortungsvolles maschinelles Lernen – der „Glasbox“-Ansatz

王林
王林nach vorne
2023-04-09 12:21:031304Durchsuche

​Übersetzer |. Cui Hao

Rezensent |.Eröffnung

Maschinelles Lernen ist keine tiefgreifende Technologie. So wie Multiparameter- und Hyperparametermethoden in komplexen tiefen neuronalen Netzen nur eine Form des kognitiven Rechnens sind, scheinen sie nicht so tiefgreifend zu sein.

Verantwortungsvolles maschinelles Lernen – der „Glasbox“-AnsatzEs gibt andere Arten des maschinellen Lernens (einige beinhalten tiefe neuronale Netze), und die Modellergebnisse dieser Art des maschinellen Lernens, die Bestimmung des Modells und die Komplexität, die sich auf das Modell auswirkt, sind alle sehr transparent.

All dies hängt davon ab, wie gut die Organisation die Quelle ihrer Daten versteht.

Mit anderen Worten: Sie müssen alles verstehen, von Modelltrainingsdaten bis hin zu Produktionsdatenmodellen. Es ist auch ein wesentlicher Bestandteil bei der Interpretation, Verfeinerung und Verbesserung der Ergebnisse. Auf diese Weise können Unternehmen den Geschäftswert ihrer Modelle erheblich steigern.

Noch wichtiger ist, dass es die Fairness, Verantwortlichkeit und Transparenz dieser Technologie weiter verbessert und sie zuverlässiger und vollständiger für die gesamte Gesellschaft macht.

Databricks VP of Marketing Joel Minnick gibt zu: „Deshalb benötigen Sie ein detailliertes Verständnis Ihrer vor- und nachgelagerten Daten, um maschinelles Lernen verantwortungsvoll durchführen zu können.“ umfassen mehrere Technologien wie Datenquellen, Datenkonvertierung und Datenintegration. In einer ausgereiften Datenkataloglösung kann eine Datenerfassung in Echtzeit erreicht werden, sodass der Fortschritt jederzeit überwacht werden kann, um den Ausführungsfortschritt des Modells zu verstehen. „Es gibt mir ein klares Verständnis für den Kontext der Verwendung der Daten im Modell. Außerdem wissen Sie, woher diese Daten stammen? Welche anderen Daten haben wir daraus erhalten? Wann wurden sie generiert? So kann ich sie besser verstehen.“ wie ich diese Daten nutzen soll“, sagte Datenwissenschaftler Minnick.

„Data Lineage“ (Aufzeichnung von Datenquellen, Bewegung und Verarbeitung) besteht aus Metadaten, und das Datenverzeichnis wird zum Speichern relevanter Datensätze verwendet. Kataloge ermöglichen es Benutzern außerdem, Tags und andere Deskriptoren als zusätzliche Metadaten einzuschließen, was dabei helfen kann, die Herkunft der Daten zu verfolgen und Vertrauen in die Daten aufzubauen. „Data Lineage“, wie Minnick es beschreibt, kann „API-gesteuerte Dienste“ generieren, die eine Reihe von Plattformen verbinden (einschließlich Plattformen für Datenwissenschaftler, Plattformen für Dateningenieure und Plattformen für Endbenutzer).

Data Governance: Geboren für Data Science

Die verbesserte Nachverfolgbarkeit von Datentraining und Datenoperationen wird sich auf die Ergebnisse von Modellen für maschinelles Lernen auswirken, und die Modellergebnisse stehen in engem Zusammenhang mit der Data Governance im Bereich Data Science. Daher ist Data Governance untrennbar mit der Data-Science-Plattform verbunden, die zum Erstellen und Bereitstellen von Modellen verwendet wird. „Skills verwalten Tabellenkalkulationen und Dateien, verwalten Notizbücher und verwalten gleichzeitig Dashboards. Das ist die moderne Art, Produktions- und Verbrauchsdaten zu verwalten“, kommentierte Minnick. Diese Aussage gilt für Datenwissenschaftler, die Modelle in ihren Notebooks erstellen und die Ausgabe über Dashboards überwachen.

Klar und transparent

Dennoch ist die einfache Verbindung mit einer Data-Science-Tool-Plattform über eine API zur Ermittlung der „Datenherkunft“ nur ein Aspekt der transparenten Nutzung von maschinellem Lernen. Um den Zweck der Verbesserung der Ausgabe des Modells zu erreichen, muss das Ausgabemodell auch mit dem in der Datenherkunft ermittelten Inhalt kalibriert werden. Beispielsweise geht es um die Rückverfolgbarkeit von Modelldaten, sodass Datenwissenschaftler „verstehen können, ob bei einigen Daten etwas schief geht, und diesen Teil der Daten isolieren können“, bemerkte Minnick.

Logischerweise kann dieses Wissen genutzt werden, um zu verstehen, warum es Probleme mit bestimmten Datentypen gibt, und diese so zu korrigieren oder die Genauigkeit des Modells zu verbessern, indem man sie vollständig beseitigt. Laut Minnick erkennen immer mehr Unternehmen die Vorteile der Anwendung von „Data Lineage“ auf Modellergebnisse, „was zum Teil auf die zunehmende Verbreitung von maschinellem Lernen und künstlicher Intelligenz in verschiedenen Branchen zurückzuführen ist.“ Bei unserem AutoML-Produkt haben wir letztes Jahr eine „Glasbox“ verwendet, um Transparenz in Datenquellen darzustellen Funktionen zur Einhaltung gesetzlicher Vorschriften. Branchen wie das Finanz- und Gesundheitswesen sind stark reguliert und erfordern von Unternehmen eine klare Erklärung, wie sie Entscheidungen für ihre Kunden treffen. Durch die Rückverfolgbarkeit der Daten entsteht eine Roadmap für die Erstellung von Modellen für maschinelles Lernen und das Verständnis der Modellergebnisse – von unschätzbarem Wert für die Einhaltung gesetzlicher Vorschriften.

Diese Informationen helfen auch bei internen Audits und ermöglichen es Unternehmen, zu verstehen, wo sie in regulatorischen Bereichen versagen, sodass Probleme behoben werden können, um Verstöße zu verhindern. „Es ist wirklich wichtig, den Aufsichtsbehörden sehr detaillierte Datenherkunftsinformationen präsentieren zu können, und zwar nicht nur tabellenübergreifend, sondern dort, wo diese Daten überall in einer breiten Organisation verwendet werden können“, betont Minnick. Wenn dieser Vorteil mit der Vorstellung übereinstimmt, dass Datenquellen die Modellgenauigkeit verbessern, wird dieser Ansatz wahrscheinlich zu einer bewährten Methode für den Einsatz dieser Technologie.

Übersetzer-Einführung

Cui Hao, 51CTO-Community-Redakteur und leitender Architekt, verfügt über 18 Jahre Erfahrung in der Softwareentwicklung und Architektur sowie 10 Jahre Erfahrung in verteilter Architektur. Ehemals technischer Experte bei HP. Er ist bereit zu teilen und hat viele beliebte Fachartikel geschrieben, die mehr als 600.000 Mal gelesen wurden. Autor von „Distributed Architecture Principles and Practice“.

Originaltitel: Ein „Glass Box“-Ansatz für verantwortungsvolles maschinelles Lernen​# 🎜🎜#​, Autor: Jelani Harper​

Das obige ist der detaillierte Inhalt vonVerantwortungsvolles maschinelles Lernen – der „Glasbox“-Ansatz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen