suchen
HeimTechnologie-PeripheriegeräteKIWerden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?

合成数据会推动 AI/ML 训练的未来吗?

Es besteht kein Zweifel, dass das Sammeln realer Daten zum Trainieren künstlicher Intelligenz oder maschinellen Lernens (KI/ML) zeitaufwändig und teuer ist. Und oft ist es mit Risiken behaftet, aber ein häufigeres Problem besteht darin, dass zu wenig Daten oder verzerrte Daten Unternehmen in die Irre führen können. Aber was wäre, wenn Sie neue Daten, sogenannte synthetische Daten, generieren könnten? Es klingt unwahrscheinlich, aber genau das will Synthesis AI mit 17 Millionen US-Dollar von Risikokapitalfirmen aufbringen, darunter 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital und Kubera Venture Capital Series A Finanzierung.

Das ist ein sehr verlässlicher Beweis. Mit der Förderung will das Unternehmen seine Forschung und Entwicklung im Bereich der Mischung realer und synthetischer Daten ausbauen.

Yashar Behzadi, CEO von Synthesis AI, sagte in einer Erklärung: „Synthetische Daten befinden sich an einem Wendepunkt in der Akzeptanz, und unser Ziel ist es, die Technologie weiterzuentwickeln und einen Paradigmenwechsel bei der Konstruktion von Computer-Vision-Systemen voranzutreiben.“ Die Branche Bald wird es ein umfassendes Design und Training von Computer-Vision-Modellen in virtuellen Welten geben, die eine fortschrittlichere und ethischere künstliche Intelligenz ermöglichen.“

Aber was sind synthetische Daten?

Synthetische Daten werden von Menschen erstellt und nicht aus der realen Welt gesammelt. Derzeit konzentrieren sich viele Anwendungen auf visuelle Daten, beispielsweise Daten, die von Computer-Vision-Systemen gesammelt werden. Dennoch gibt es keinen praktischen Grund, warum synthetische Daten nicht für andere Anwendungsfälle erstellt werden können, beispielsweise zum Testen von Anwendungen oder zur Verbesserung von Algorithmen zur Betrugserkennung. Sie ähneln in gewisser Weise hochstrukturierten digitalen Zwillingen physischer Aufzeichnungen.

Durch die Bereitstellung riesiger, realer Datensätze in großem Maßstab können Datenwissenschaftler und Analysten theoretisch den Datenerfassungsprozess überspringen und direkt mit Tests oder Schulungen beginnen.

Das liegt daran, dass der Großteil der Kosten für die Erstellung eines realen Datensatzes nicht nur auf das Sammeln der Rohdaten entfällt. Nehmen wir als Beispiel Computer Vision und selbstfahrende Autos. Autohersteller und Forscher können verschiedene Kameras, Radar- und Lidar-Sensoren an Fahrzeugen anbringen, um diese zu erfassen, aber die Rohdaten haben für KI/ML-Algorithmen keine Bedeutung. Eine ebenso gewaltige Herausforderung besteht darin, die Daten manuell mit Kontextinformationen zu

zu kennzeichnen

, um dem System zu helfen, bessere Entscheidungen zu treffen. Schauen wir uns den Kontext dieser Herausforderung an: Stellen Sie sich vor, Sie fahren regelmäßig eine kurze Fahrt, mit all den Stoppschildern, Kreuzungen, geparkten Autos, Fußgängern usw., und stellen Sie sich dann vor, dass es eine schwierige Aufgabe ist, alle potenziellen Gefahren zu kennzeichnen.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze erstellen können, die groß genug sind, um KI-/ML-Anwendungen richtig zu trainieren, was bedeutet, dass Datenwissenschaftler ihre Algorithmen plötzlich an einer großen Anzahl neuer Orte testen können, bevor sie sie wirklich implementieren können Weltdaten oder in Situationen, in denen es schwierig ist, sie zu erhalten. Um mit dem Beispiel selbstfahrender Autos fortzufahren: Datenwissenschaftler können synthetische Daten erstellen, um Autos für das Fahren unter rauen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne Fahrer nach Norden oder in die Berge schicken zu müssen, um Daten manuell zu sammeln.

Der Hauptvorteil synthetischer Daten besteht darin, dass sie theoretisch perfekt gekennzeichnete Datensätze in der Größenordnung erstellen können, die zum ordnungsgemäßen Trainieren von KI-/ML-Anwendungen erforderlich ist. Dies bedeutet, dass Datenwissenschaftler Daten erstellen können, bevor echte Daten verfügbar sind oder wenn dies mit Daten schwierig wäre verfügbar, testeten sie ihre Algorithmen plötzlich an vielen neuen Orten. Noch am Beispiel des selbstfahrenden Autos können Datenwissenschaftler synthetische Daten erstellen, um das Auto auf das Fahren unter widrigen Bedingungen wie schneebedeckten Straßen zu trainieren, ohne dass der Fahrer den ganzen Weg nach Norden oder in die Berge fahren muss, um Daten manuell zu sammeln.

Allerdings gibt es bei synthetischen Daten ein Henne-Ei-Problem, da sie nur mit … mehr Daten und mehr KI/ML-Algorithmen erstellt werden können. Beginnen Sie mit einem „Seed“-Datensatz und verwenden Sie ihn dann als Basis für Ihre synthetischen Kreationen, was bedeutet, dass diese nur so gut sind wie die Daten, mit denen Sie beginnen.

(IMMATERIELLE) VORTEILE

Welcher Datenwissenschaftler oder Forscher würde nicht von einem scheinbar endlosen Angebot an Datengeneratoren profitieren? Der Hauptvorteil – die Möglichkeit, die manuelle Erfassung realer Daten zu vermeiden – wird durch synthetische Daten einfach beschleunigt die Möglichkeiten der KI/ML-Anwendung.

Da Analysten und Datenwissenschaftler eine strenge Kontrolle über die Seed-Daten haben und sogar noch einen Schritt weiter gehen können, um Diversität einzubeziehen, oder mit externen Beratern zusammenarbeiten, um Vorurteile aufzudecken und zu entschlüsseln, können sie sich an einen höheren Standard halten. Synthesis AI entwickelt beispielsweise ein System, das den Fahrerstatus überwacht und verschiedene Gesichter sorgfältig in seinen computergenerierten synthetischen Datensatz einbezieht, um sicherzustellen, dass reale Anwendungen für alle funktionieren.

Datenschutz ist ein weiterer potenzieller Gewinn. Wenn ein Unternehmen Millionen von Meilen damit verbringt, reale Daten für seine selbstfahrenden Autos zu sammeln, sammelt es viele Daten, die viele Menschen als persönlich betrachten – insbesondere ihre Gesichter. Große Unternehmen wie Google und Apple haben Möglichkeiten gefunden, diese Art von Problemen in ihrer Kartensoftware zu vermeiden, aber ihre Routen sind für kleine KI/ML-Teams, die ihre Algorithmen testen möchten, nicht machbar.

„Unternehmen kämpfen auch mit ethischen Fragen im Zusammenhang mit Modellvoreingenommenheit und Verbraucherschutz bei Produkten, die den Menschen in den Mittelpunkt stellen. Es ist klar, dass der Aufbau der nächsten Generation von Computer Vision ein neues Paradigma erfordert“, Yashar, CEO und Gründer des Unternehmens Behzadi ​sagte​ zu den Medien.

Während synthetische Daten zu Beginn auf einem Startwert basieren, können sie angepasst und modifiziert werden, um KI/ML-Anwendungen in Grenzfällen zu trainieren, die im wirklichen Leben schwierig oder gefährlich zu erfassen sind. Die Unternehmen, die hinter selbstfahrenden Autos stehen, hoffen, dass sie Objekte oder Personen besser identifizieren können, die nur teilweise sichtbar sind, etwa ein Stoppschild, das sich hinter einem Lastwagen versteckt, oder einen Fußgänger, der zwischen zwei Autos steht, die auf die Straße rasen.

Angesichts dieser Erfolge und trotz einiger Bedenken hinsichtlich des Henne-Ei-Problems bei der Kodierung von Verzerrungen in synthetische Daten prognostiziert Gartner

​, dass bis 2024​​ 60 % der Daten synthetisch generiert werden. Sie gehen davon aus, dass sich ein Großteil der neuen Daten auf die Korrektur von Vorhersagemodellen konzentrieren wird, wenn die historischen Daten, auf denen sie basieren, an Relevanz verlieren oder auf früheren Erfahrungen basierende Annahmen versagen.

Aber es gibt immer

einigeDaten aus der realen Welt, die gesammelt werden müssen, daher sind wir noch weit davon entfernt, von den Avataren unseres universellen, unvoreingenommenen Selbst völlig überholt zu werden.

Das obige ist der detaillierte Inhalt vonWerden synthetische Daten die Zukunft des KI/ML-Trainings bestimmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程强化学习再登Nature封面,自动驾驶安全验证新范式大幅减少测试里程Mar 31, 2023 pm 10:38 PM

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.