Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?-KI-php.cn

Heim

Technologie-Peripheriegeräte

Werden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?

王林

Apr 14, 2023 am 09:52 AM

ai合成数据ml

合成数据会推动 AI/ML 训练的未来吗？

Es besteht kein Zweifel, dass das Sammeln realer Daten zum Trainieren künstlicher Intelligenz oder maschinellen Lernens (KI/ML) zeitaufwändig und teuer ist. Und oft ist es mit Risiken behaftet, aber ein häufigeres Problem besteht darin, dass zu wenig Daten oder verzerrte Daten Unternehmen in die Irre führen können. Aber was wäre, wenn Sie neue Daten, sogenannte synthetische Daten, generieren könnten? Es klingt unwahrscheinlich, aber genau das will Synthesis AI mit 17 Millionen US-Dollar von Risikokapitalfirmen aufbringen, darunter 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital und Kubera Venture Capital Series A Finanzierung.

Das ist ein sehr verlässlicher Beweis. Mit der Förderung will das Unternehmen seine Forschung und Entwicklung im Bereich der Mischung realer und synthetischer Daten ausbauen.

Yashar Behzadi, CEO von Synthesis AI, sagte in einer Erklärung: „Synthetische Daten befinden sich an einem Wendepunkt in der Akzeptanz, und unser Ziel ist es, die Technologie weiterzuentwickeln und einen Paradigmenwechsel bei der Konstruktion von Computer-Vision-Systemen voranzutreiben.“ Die Branche Bald wird es ein umfassendes Design und Training von Computer-Vision-Modellen in virtuellen Welten geben, die eine fortschrittlichere und ethischere künstliche Intelligenz ermöglichen.“

Aber was sind synthetische Daten?

Synthetische Daten werden von Menschen erstellt und nicht aus der realen Welt gesammelt. Derzeit konzentrieren sich viele Anwendungen auf visuelle Daten, beispielsweise Daten, die von Computer-Vision-Systemen gesammelt werden. Dennoch gibt es keinen praktischen Grund, warum synthetische Daten nicht für andere Anwendungsfälle erstellt werden können, beispielsweise zum Testen von Anwendungen oder zur Verbesserung von Algorithmen zur Betrugserkennung. Sie ähneln in gewisser Weise hochstrukturierten digitalen Zwillingen physischer Aufzeichnungen.

Durch die Bereitstellung riesiger, realer Datensätze in großem Maßstab können Datenwissenschaftler und Analysten theoretisch den Datenerfassungsprozess überspringen und direkt mit Tests oder Schulungen beginnen.

Das liegt daran, dass der Großteil der Kosten für die Erstellung eines realen Datensatzes nicht nur auf das Sammeln der Rohdaten entfällt. Nehmen wir als Beispiel Computer Vision und selbstfahrende Autos. Autohersteller und Forscher können verschiedene Kameras, Radar- und Lidar-Sensoren an Fahrzeugen anbringen, um diese zu erfassen, aber die Rohdaten haben für KI/ML-Algorithmen keine Bedeutung. Eine ebenso gewaltige Herausforderung besteht darin, die Daten manuell mit Kontextinformationen zu

zu kennzeichnen

, um dem System zu helfen, bessere Entscheidungen zu treffen. Schauen wir uns den Kontext dieser Herausforderung an: Stellen Sie sich vor, Sie fahren regelmäßig eine kurze Fahrt, mit all den Stoppschildern, Kreuzungen, geparkten Autos, Fußgängern usw., und stellen Sie sich dann vor, dass es eine schwierige Aufgabe ist, alle potenziellen Gefahren zu kennzeichnen.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze erstellen können, die groß genug sind, um KI-/ML-Anwendungen richtig zu trainieren, was bedeutet, dass Datenwissenschaftler ihre Algorithmen plötzlich an einer großen Anzahl neuer Orte testen können, bevor sie sie wirklich implementieren können Weltdaten oder in Situationen, in denen es schwierig ist, sie zu erhalten. Um mit dem Beispiel selbstfahrender Autos fortzufahren: Datenwissenschaftler können synthetische Daten erstellen, um Autos für das Fahren unter rauen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne Fahrer nach Norden oder in die Berge schicken zu müssen, um Daten manuell zu sammeln.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze in der Größenordnung erstellen können, die zum ordnungsgemäßen Trainieren von KI-/ML-Anwendungen erforderlich ist. Dies bedeutet, dass Datenwissenschaftler Daten erstellen können, bevor echte Daten verfügbar sind oder wenn dies mit Daten schwierig wäre verfügbar, testeten sie ihre Algorithmen plötzlich an vielen neuen Orten. Noch am Beispiel des selbstfahrenden Autos können Datenwissenschaftler synthetische Daten erstellen, um das Auto auf das Fahren unter widrigen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne dass der Fahrer den ganzen Weg nach Norden oder in die Berge fahren muss, um Daten manuell zu sammeln.

Allerdings gibt es bei synthetischen Daten ein Henne-Ei-Problem, da sie nur mit … mehr Daten und mehr KI/ML-Algorithmen erstellt werden können. Beginnen Sie mit einem „Seed“-Datensatz und verwenden Sie ihn dann als Basis für Ihre synthetischen Kreationen, was bedeutet, dass diese nur so gut sind wie die Daten, mit denen Sie beginnen.

(IMMATERIELLE) VORTEILE

Welcher Datenwissenschaftler oder Forscher würde nicht von einem scheinbar endlosen Angebot an Datengeneratoren profitieren? Der Hauptvorteil – die Möglichkeit, die manuelle Erfassung realer Daten zu vermeiden – wird durch synthetische Daten einfach beschleunigt die Möglichkeiten der KI/ML-Anwendung.

Da Analysten und Datenwissenschaftler eine strenge Kontrolle über die Seed-Daten haben und sogar noch einen Schritt weiter gehen können, um Diversität einzubeziehen, oder mit externen Beratern zusammenarbeiten, um Vorurteile aufzudecken und zu entschlüsseln, können sie sich an einen höheren Standard halten. Synthesis AI entwickelt beispielsweise ein System, das den Fahrerstatus überwacht und verschiedene Gesichter sorgfältig in seinen computergenerierten synthetischen Datensatz einbezieht, um sicherzustellen, dass reale Anwendungen für alle funktionieren.

Datenschutz ist ein weiterer potenzieller Gewinn. Wenn ein Unternehmen Millionen von Meilen damit verbringt, reale Daten für seine selbstfahrenden Autos zu sammeln, sammelt es viele Daten, die viele Menschen als persönlich betrachten – insbesondere ihre Gesichter. Große Unternehmen wie Google und Apple haben Möglichkeiten gefunden, diese Art von Problemen in ihrer Kartensoftware zu vermeiden, aber ihre Routen sind für kleine KI/ML-Teams, die ihre Algorithmen testen möchten, nicht machbar.

„Unternehmen kämpfen auch mit ethischen Fragen im Zusammenhang mit Modellvoreingenommenheit und Verbraucherschutz bei Produkten, die den Menschen in den Mittelpunkt stellen. Es ist klar, dass der Aufbau der nächsten Generation von Computer Vision ein neues Paradigma erfordert“, Yashar, CEO und Gründer des Unternehmens Behzadi sagte zu den Medien.

Während synthetische Daten zu Beginn auf einem Startwert basieren, können sie angepasst und modifiziert werden, um KI/ML-Anwendungen in Grenzfällen zu trainieren, die im wirklichen Leben schwierig oder gefährlich zu erfassen sind. Die Unternehmen, die hinter selbstfahrenden Autos stehen, hoffen, dass sie Objekte oder Personen besser identifizieren können, die nur teilweise sichtbar sind, etwa ein Stoppschild, das sich hinter einem Lastwagen versteckt, oder einen Fußgänger, der zwischen zwei Autos steht, die auf die Straße rasen.

Angesichts dieser Erfolge und trotz einiger Bedenken hinsichtlich des Henne-Ei-Problems bei der Kodierung von Verzerrungen in synthetische Daten prognostiziert Gartner

, dass bis 2024 60 % der Daten synthetisch generiert werden. Sie gehen davon aus, dass sich ein Großteil der neuen Daten auf die Korrektur von Vorhersagemodellen konzentrieren wird, wenn die historischen Daten, auf denen sie basieren, an Relevanz verlieren oder auf früheren Erfahrungen basierende Annahmen versagen.

Aber es gibt immer

einigeDaten aus der realen Welt, die gesammelt werden müssen, daher sind wir noch weit davon entfernt, von den Avataren unseres universellen, unvoreingenommenen Selbst völlig überholt zu werden.

Das obige ist der detaillierte Inhalt vonWerden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software