Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Synthetische Daten: die Zukunft des maschinellen Lernens

Synthetische Daten: die Zukunft des maschinellen Lernens

WBOY
WBOYnach vorne
2023-04-08 20:41:011652Durchsuche

​Übersetzer |. Bugatti

Rezensent |. Man kann sagen, dass Daten das Lebenselixier maschineller Lernmodelle sind. Doch was passiert, wenn der Zugriff auf diese wertvolle Ressource eingeschränkt ist? Wie viele Projekte und Unternehmen zu zeigen beginnen, sind synthetische Daten hier eine praktikable, wenn nicht sogar eine großartige Option.

Synthetische Daten: die Zukunft des maschinellen LernensWas sind synthetische Daten?

Synthetische Daten sind künstlich erzeugte Informationen, die nicht durch direkte Messung gewonnen werden. „Gefälschte“ Daten sind per se kein neues oder revolutionäres Konzept. Es handelt sich im Wesentlichen um eine Methode zur Generierung von Test- oder Trainingsdaten für ein Modell, dem die verfügbaren oder notwendigen Informationen fehlen, um ordnungsgemäß zu funktionieren.

In der Vergangenheit führte der Mangel an Daten zu der bequemen Methode, einen zufällig generierten Satz von Datenpunkten zu verwenden. Während dies für Lehr- und Testzwecke ausreichend sein kann, sind Zufallsdaten nicht die Daten, auf denen Sie ein Vorhersagemodell trainieren möchten. Das ist das Besondere am Konzept der synthetischen Daten: Sie sind zuverlässig.

Synthetische Daten sind im Wesentlichen ein einzigartiges Konzept, mit dem wir zufällige Daten geschickt generieren können. Daher kann dieser Ansatz auf komplexere Anwendungsfälle angewendet werden, nicht nur auf Tests.

Wie generiert man synthetische Daten?

Während die Art und Weise, wie synthetische Daten generiert werden, sich nicht von zufälligen Daten unterscheidet – nur durch einen komplexeren Satz von Eingaben – dienen synthetische Daten einem anderen Zweck und stellen daher besondere Anforderungen.

Synthesemethoden basieren auf bestimmten Kriterien und sind auf diese beschränkt, die im Voraus als Eingabe eingegeben werden. Eigentlich ist es kein Zufall. Es basiert auf einer Reihe von Beispieldaten mit einer bestimmten Verteilung und Kriterien, die den möglichen Bereich, die Verteilung und die Häufigkeit von Datenpunkten bestimmen. Grob gesagt besteht das Ziel darin, reale Daten zu replizieren, um einen größeren Datensatz zu füllen, der dann groß genug ist, um ein Modell für maschinelles Lernen zu trainieren.

Dieser Ansatz wird von besonderem Interesse bei der Erforschung von Deep-Learning-Methoden zur Verfeinerung synthetischer Daten. Algorithmen können miteinander konkurrieren und zielen darauf ab, einander in ihrer Fähigkeit, synthetische Daten zu generieren und zu identifizieren, zu übertreffen. Tatsächlich geht es hier um ein künstliches Wettrüsten zur Generierung hyperrealistischer Daten.

Warum werden synthetische Daten benötigt?

Wenn wir nicht die wertvollen Ressourcen sammeln können, die für den Fortschritt der Zivilisation erforderlich sind, werden wir einen Weg finden, sie zu schaffen. Dieses Prinzip gilt mittlerweile gleichermaßen für die Datenwelt des maschinellen Lernens und der künstlichen Intelligenz.

Beim Training eines Algorithmus ist es entscheidend, über eine sehr große Datenstichprobengröße zu verfügen, da die vom Algorithmus identifizierten Muster sonst möglicherweise zu einfach für praktische Anwendungen sind. Das ist eigentlich sehr logisch. So wie die menschliche Intelligenz häufig den einfachsten Weg zur Lösung eines Problems einschlägt, geschieht dies häufig auch beim Training von maschinellem Lernen und künstlicher Intelligenz.

Erwägen Sie beispielsweise, dies auf einen Objekterkennungsalgorithmus anzuwenden, der Hunde anhand einer Reihe von Katzenbildern genau identifizieren kann. Wenn die Datenmenge zu gering ist, läuft die KI Gefahr, sich auf Muster zu verlassen, die keine wesentlichen Merkmale des Objekts sind, das sie zu identifizieren versucht. In diesem Fall ist die KI möglicherweise immer noch effektiv, bricht jedoch zusammen, wenn sie auf Daten trifft, die nicht dem ursprünglich identifizierten Muster folgen.

Wie werden synthetische Daten zum Trainieren von KI verwendet?

Also, was ist die Lösung? Wir haben viele leicht unterschiedliche Tiere gezeichnet und das Netzwerk gezwungen, die zugrunde liegende Struktur des Bildes zu finden, nicht nur die Position bestimmter Pixel. Aber anstatt eine Million Hunde von Hand zu zeichnen, wäre es besser, ein System speziell zum Zeichnen von Hunden zu entwickeln, mit dem Klassifizierungsalgorithmen trainiert werden können – was wir tatsächlich tun, wenn wir synthetische Daten füttern, um maschinelles Lernen zu trainieren.

Dieser Ansatz weist jedoch offensichtliche Mängel auf. Das bloße Generieren von Daten aus dem Nichts stellt nicht die reale Welt dar, daher ist es wahrscheinlich, dass der Algorithmus versagt, wenn er auf reale Daten trifft. Die Lösung besteht darin, eine Teilmenge der Daten zu sammeln, darin Trends und Bereiche zu analysieren und zu identifizieren und diese Daten dann zu verwenden, um große Mengen zufälliger Daten zu generieren, die wahrscheinlich repräsentativ dafür sind, wie die Daten aussehen würden, wenn wir sie alle sammeln würden uns.

Das ist auch der Wert synthetischer Daten. Wir müssen Daten nicht mehr endlos sammeln und sie dann vor der Verwendung bereinigen und verarbeiten.

Warum können synthetische Daten das immer besorgniserregendere Datenschutzproblem lösen?

Die Welt erlebt derzeit einen sehr drastischen Wandel, insbesondere in der EU: Die Privatsphäre und die erzeugten Daten werden zunehmend geschützt. Im Bereich maschinelles Lernen und KI ist die Stärkung des Datenschutzes ein seit langem bestehendes Problem. Eingeschränkte Daten sind oft genau das, was benötigt wird, um Algorithmen zu trainieren, damit sie Leistung erbringen und Endbenutzern einen Mehrwert bieten, insbesondere bei B2C-Lösungen.

Datenschutzbedenken werden oft dann ausgeräumt, wenn Einzelpersonen sich für die Nutzung einer Lösung entscheiden und damit der Nutzung ihrer Daten zustimmen. Das Problem dabei ist, dass es schwierig ist, Benutzer dazu zu bringen, Ihnen ihre persönlichen Daten zur Verfügung zu stellen, bis Sie eine Lösung haben, die genügend Wert bietet, um bereit zu sein, sie weiterzugeben. Dadurch geraten Lieferanten häufig in ein Henne-Ei-Dilemma.

Synthetische Daten sind die Lösung, und Unternehmen können durch Early Adopters Zugriff auf Teilmengen von Daten erhalten. Diese Informationen können sie dann als Grundlage nutzen, um genügend Daten für das Training von maschinellem Lernen und KI zu generieren. Dieser Ansatz kann den zeitaufwändigen und teuren Bedarf an privaten Daten erheblich reduzieren und dennoch die Entwicklung von Algorithmen für echte Benutzer ermöglichen.

Für einige Branchen wie das Gesundheitswesen, das Bankwesen und das Recht bieten synthetische Daten eine Möglichkeit, einfacher auf große Datenmengen zuzugreifen, die zuvor nicht verfügbar waren, und beseitigen so die Einschränkungen, denen neue und fortschrittlichere Algorithmen häufig ausgesetzt sind.

Können synthetische Daten echte Daten ersetzen?

Das Problem mit echten Daten besteht darin, dass sie nicht zum Zweck des Trainings von maschinellem Lernen und KI-Algorithmen generiert werden, sondern lediglich ein Nebenprodukt der Ereignisse um uns herum sind. Wie bereits erwähnt schränkt dies natürlich die Verfügbarkeit und Benutzerfreundlichkeit der gesammelten Daten ein, schränkt aber auch die Parameter der Daten und die Möglichkeit von Fehlern (Ausreißern) ein, die die Ergebnisse verfälschen könnten. Aus diesem Grund sind synthetische Daten, die individuell angepasst und gesteuert werden können, beim Training von Modellen effizienter.

Obwohl synthetische Daten ideal für Trainingsszenarien sind, stützen sie sich bei ihrer eigenen Erstellung zwangsläufig immer auf zumindest einen kleinen Teil realer Daten. Die synthetischen Daten ersetzen also niemals die ursprünglichen Daten, auf denen sie basieren. Realistisch gesehen wird dadurch die Menge der für das Algorithmustraining erforderlichen realen Daten erheblich reduziert. Dieser Prozess erfordert viel mehr Daten als das Testen – normalerweise werden 80 % der Daten für das Training und die anderen 20 % für Tests verwendet.

Wenn es richtig gemacht wird, bieten synthetische Daten schließlich eine schnellere und effizientere Möglichkeit, die benötigten Daten zu geringeren Kosten zu erhalten als Daten aus der realen Welt und reduzieren gleichzeitig lästige Datenschutzprobleme.

Originaltitel: Synthetische Daten: Die Zukunft des maschinellen Lernens​, Autor: Christian Lawaetz Halvorsen​

Das obige ist der detaillierte Inhalt vonSynthetische Daten: die Zukunft des maschinellen Lernens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen