Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?

Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?

王林
王林nach vorne
2023-04-14 09:52:071446Durchsuche

合成数据会推动 AI/ML 训练的未来吗?

Es besteht kein Zweifel, dass das Sammeln realer Daten zum Trainieren künstlicher Intelligenz oder maschinellen Lernens (KI/ML) zeitaufwändig und teuer ist. Und oft ist es mit Risiken behaftet, aber ein häufigeres Problem besteht darin, dass zu wenig Daten oder verzerrte Daten Unternehmen in die Irre führen können. Aber was wäre, wenn Sie neue Daten, sogenannte synthetische Daten, generieren könnten? Es klingt unwahrscheinlich, aber genau das will Synthesis AI mit 17 Millionen US-Dollar von Risikokapitalfirmen aufbringen, darunter 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital und Kubera Venture Capital Series A Finanzierung.

Das ist ein sehr verlässlicher Beweis. Mit der Förderung will das Unternehmen seine Forschung und Entwicklung im Bereich der Mischung realer und synthetischer Daten ausbauen.

Yashar Behzadi, CEO von Synthesis AI, sagte in einer Erklärung: „Synthetische Daten befinden sich an einem Wendepunkt in der Akzeptanz, und unser Ziel ist es, die Technologie weiterzuentwickeln und einen Paradigmenwechsel bei der Konstruktion von Computer-Vision-Systemen voranzutreiben.“ Die Branche Bald wird es ein umfassendes Design und Training von Computer-Vision-Modellen in virtuellen Welten geben, die eine fortschrittlichere und ethischere künstliche Intelligenz ermöglichen.“

Aber was sind synthetische Daten?

Synthetische Daten werden von Menschen erstellt und nicht aus der realen Welt gesammelt. Derzeit konzentrieren sich viele Anwendungen auf visuelle Daten, beispielsweise Daten, die von Computer-Vision-Systemen gesammelt werden. Dennoch gibt es keinen praktischen Grund, warum synthetische Daten nicht für andere Anwendungsfälle erstellt werden können, beispielsweise zum Testen von Anwendungen oder zur Verbesserung von Algorithmen zur Betrugserkennung. Sie ähneln in gewisser Weise hochstrukturierten digitalen Zwillingen physischer Aufzeichnungen.

Durch die Bereitstellung riesiger, realer Datensätze in großem Maßstab können Datenwissenschaftler und Analysten theoretisch den Datenerfassungsprozess überspringen und direkt mit Tests oder Schulungen beginnen.

Das liegt daran, dass der Großteil der Kosten für die Erstellung eines realen Datensatzes nicht nur auf das Sammeln der Rohdaten entfällt. Nehmen wir als Beispiel Computer Vision und selbstfahrende Autos. Autohersteller und Forscher können verschiedene Kameras, Radar- und Lidar-Sensoren an Fahrzeugen anbringen, um diese zu erfassen, aber die Rohdaten haben für KI/ML-Algorithmen keine Bedeutung. Eine ebenso gewaltige Herausforderung besteht darin, die Daten manuell mit Kontextinformationen zu

zu kennzeichnen

, um dem System zu helfen, bessere Entscheidungen zu treffen. Schauen wir uns den Kontext dieser Herausforderung an: Stellen Sie sich vor, Sie fahren regelmäßig eine kurze Fahrt, mit all den Stoppschildern, Kreuzungen, geparkten Autos, Fußgängern usw., und stellen Sie sich dann vor, dass es eine schwierige Aufgabe ist, alle potenziellen Gefahren zu kennzeichnen.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze erstellen können, die groß genug sind, um KI-/ML-Anwendungen richtig zu trainieren, was bedeutet, dass Datenwissenschaftler ihre Algorithmen plötzlich an einer großen Anzahl neuer Orte testen können, bevor sie sie wirklich implementieren können Weltdaten oder in Situationen, in denen es schwierig ist, sie zu erhalten. Um mit dem Beispiel selbstfahrender Autos fortzufahren: Datenwissenschaftler können synthetische Daten erstellen, um Autos für das Fahren unter rauen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne Fahrer nach Norden oder in die Berge schicken zu müssen, um Daten manuell zu sammeln.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze in der Größenordnung erstellen können, die zum ordnungsgemäßen Trainieren von KI-/ML-Anwendungen erforderlich ist. Dies bedeutet, dass Datenwissenschaftler Daten erstellen können, bevor echte Daten verfügbar sind oder wenn dies mit Daten schwierig wäre verfügbar, testeten sie ihre Algorithmen plötzlich an vielen neuen Orten. Noch am Beispiel des selbstfahrenden Autos können Datenwissenschaftler synthetische Daten erstellen, um das Auto auf das Fahren unter widrigen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne dass der Fahrer den ganzen Weg nach Norden oder in die Berge fahren muss, um Daten manuell zu sammeln.

Allerdings gibt es bei synthetischen Daten ein Henne-Ei-Problem, da sie nur mit … mehr Daten und mehr KI/ML-Algorithmen erstellt werden können. Beginnen Sie mit einem „Seed“-Datensatz und verwenden Sie ihn dann als Basis für Ihre synthetischen Kreationen, was bedeutet, dass diese nur so gut sind wie die Daten, mit denen Sie beginnen.

(IMMATERIELLE) VORTEILE

Welcher Datenwissenschaftler oder Forscher würde nicht von einem scheinbar endlosen Angebot an Datengeneratoren profitieren? Der Hauptvorteil – die Möglichkeit, die manuelle Erfassung realer Daten zu vermeiden – wird durch synthetische Daten einfach beschleunigt die Möglichkeiten der KI/ML-Anwendung.

Da Analysten und Datenwissenschaftler eine strenge Kontrolle über die Seed-Daten haben und sogar noch einen Schritt weiter gehen können, um Diversität einzubeziehen, oder mit externen Beratern zusammenarbeiten, um Vorurteile aufzudecken und zu entschlüsseln, können sie sich an einen höheren Standard halten. Synthesis AI entwickelt beispielsweise ein System, das den Fahrerstatus überwacht und verschiedene Gesichter sorgfältig in seinen computergenerierten synthetischen Datensatz einbezieht, um sicherzustellen, dass reale Anwendungen für alle funktionieren.

Datenschutz ist ein weiterer potenzieller Gewinn. Wenn ein Unternehmen Millionen von Meilen damit verbringt, reale Daten für seine selbstfahrenden Autos zu sammeln, sammelt es viele Daten, die viele Menschen als persönlich betrachten – insbesondere ihre Gesichter. Große Unternehmen wie Google und Apple haben Möglichkeiten gefunden, diese Art von Problemen in ihrer Kartensoftware zu vermeiden, aber ihre Routen sind für kleine KI/ML-Teams, die ihre Algorithmen testen möchten, nicht machbar.

„Unternehmen kämpfen auch mit ethischen Fragen im Zusammenhang mit Modellvoreingenommenheit und Verbraucherschutz bei Produkten, die den Menschen in den Mittelpunkt stellen. Es ist klar, dass der Aufbau der nächsten Generation von Computer Vision ein neues Paradigma erfordert“, Yashar, CEO und Gründer des Unternehmens Behzadi ​sagte​ zu den Medien.

Während synthetische Daten zu Beginn auf einem Startwert basieren, können sie angepasst und modifiziert werden, um KI/ML-Anwendungen in Grenzfällen zu trainieren, die im wirklichen Leben schwierig oder gefährlich zu erfassen sind. Die Unternehmen, die hinter selbstfahrenden Autos stehen, hoffen, dass sie Objekte oder Personen besser identifizieren können, die nur teilweise sichtbar sind, etwa ein Stoppschild, das sich hinter einem Lastwagen versteckt, oder einen Fußgänger, der zwischen zwei Autos steht, die auf die Straße rasen.

Angesichts dieser Erfolge und trotz einiger Bedenken hinsichtlich des Henne-Ei-Problems bei der Kodierung von Verzerrungen in synthetische Daten prognostiziert Gartner

​, dass bis 2024​​ 60 % der Daten synthetisch generiert werden. Sie gehen davon aus, dass sich ein Großteil der neuen Daten auf die Korrektur von Vorhersagemodellen konzentrieren wird, wenn die historischen Daten, auf denen sie basieren, an Relevanz verlieren oder auf früheren Erfahrungen basierende Annahmen versagen.

Aber es gibt immer

einigeDaten aus der realen Welt, die gesammelt werden müssen, daher sind wir noch weit davon entfernt, von den Avataren unseres universellen, unvoreingenommenen Selbst völlig überholt zu werden.

Das obige ist der detaillierte Inhalt vonWerden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen