合成データは AI/ML トレーニングの将来を推進するのでしょうか?-AI-php.cn

ホームページ

テクノロジー周辺機器

合成データは AI/ML トレーニングの将来を推進するのでしょうか?

王林

Apr 14, 2023 am 09:52 AM

ai合成データml

合成数据会推动 AI/ML 训练的未来吗？

人工知能や機械学習 (AI/ML) をトレーニングするための実データの収集には、時間も費用もかかります。そして、多くの場合、これにはリスクが伴いますが、より一般的な問題は、データが少なすぎたり、偏ったデータが組織を誤った方向に導く可能性があることです。しかし、新しいデータ、いわゆる合成データを 生成できたらどうでしょうか?

ありそうもないように思えますが、Synthesis AI が 468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から 17 ドルを調達する予定なのはまさにこれです。シリーズA資金調達で100万ドル。

これは非常に信頼できる証拠です。同社はこの資金を、実データと合成データの混合分野での研究開発を拡大するために使用する予定だ。

Synthesis AI の CEO、Yashar Behzadi 氏は声明で次のように述べています。「合成データは導入の転換点にあり、私たちの目標はテクノロジーをさらに開発し、コンピュータービジョンシステムのあり方のパラダイムシフトを推進することです」業界は間もなく、仮想世界でコンピュータービジョンモデルを完全に設計およびトレーニングし、より高度で倫理的な人工知能を実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは、現実世界から収集されたものではなく、人間によって作成されます。現在、多くのアプリケーションは、コンピュータービジョンシステムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリケーションのテストや不正行為を検出するためのアルゴリズムの改善など、他のユースケースで合成データを作成できない実際的な理由はありません。これらは、物理レコードの高度に構造化されたデジタルツインに似ています。

大規模で現実的なデータセットを大規模に提供することで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップして、テストやトレーニングに直接取り組むことができます。

これは、現実世界のデータセットを作成するコストの多くは、生データの収集だけにとどまらないためです。コンピュータービジョンと自動運転車を例に挙げると、自動車メーカーや研究者はさまざまなカメラ、レーダー、ライダーセンサーを車両に取り付けて収集できますが、生データは AI/ML アルゴリズムにとって何の意味も持ちません。同様に困難な課題は、システムがより適切な意思決定を行えるように、コンテキスト情報を使用してデータに手動で ラベルを付けることです。

この課題の背景を見てみましょう。一時停止標識、交差点、駐車中の車、歩行者などがすべてある状態で短距離を定期的に運転していると想像してください。そして、あらゆる潜在的な危険にラベルを付けると仮定して、次のことを想像してください。大変な仕事です。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な大きさの、完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは、大量の新しいアルゴリズムで突然アルゴリズムをテストできます。その場合、世界データのみが実際に取得できるか、取得が困難な状況でのみ取得できます。自動運転車の例を続けると、データサイエンティストは、手動でデータを収集するためにドライバーを北や山中に派遣することなく、雪に覆われた道路などの過酷な状況で車を運転するように訓練するための合成データを作成できます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは実際のデータを取得する前にデータを作成できることになります。データが入手困難なときに、多くの新しい場所でアルゴリズムをテストします。自動運転車の例では、データサイエンティストは、ドライバーが手動でデータを収集するためにずっと北に行ったり山に入ったりすることなく、雪に覆われた道路などの悪条件で車を運転するように訓練するための合成データを作成できます。

ただし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用しないと作成できないため、鶏が先か卵が先かという問題が発生します。「シード」データセットから始めて、それを合成作成のベースラインとして使用します。つまり、最初のデータと同等の品質しか得られません。

(無形の) 利点

データジェネレーターが無限に供給されているように見えても、その恩恵を受けられないデータサイエンティストや研究者はいますか? 中心的な利点 – 現実世界のデータを手動で収集する必要がなくなること –合成データが AI/ML アプリケーションを高速化できる方法の 1 つにすぎません。

アナリストとデータサイエンティストはシードデータを厳密に管理しており、多様性を取り入れたり、外部のコンサルタントと協力してバイアスを発見して解読したりすることもできるため、より高い基準を維持することができます。たとえば、Synthesis AI は、ドライバーのステータスを監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人にとって確実に機能するようにするシステムを開発しています。

プライバシーももう 1 つの潜在的な利点です。企業が自動運転車の実世界データの収集に何百万マイルも費やすと、多くの人が個人的なものと考えるデータ、特に顔のデータを大量に収集することになります。 Google や Apple などの大企業は、自社の地図ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームには実現できません。

「企業は、人間中心の製品におけるモデルバイアスや消費者のプライバシーに関連する倫理的問題にも取り組んでいます。次世代のコンピュータービジョンの構築には、新たなパラダイムが必要であることは明らかです」と、同社 CEO の Yashar Behzadi 氏は述べています。創設者兼CEOはメディアに語った。合成データは開始する際にシードに依存しますが、現実の世界ではキャプチャが困難または危険なエッジケースで AI/ML アプリケーションをトレーニングできるように適応および変更できます。自動運転車を開発している企業は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してくる2台の車の間に立つ歩行者など、部分的にしか見えない物体や人を識別できるようになりたいと考えている。

これらの成果を踏まえ、またバイアスを合成データにエンコードするという卵が先か鶏が先かという問題についての懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が生成されると予測しています。合成的に。彼らは、新しいデータの多くは、その基礎となる過去のデータが関連性を失ったり、過去の経験に基づく仮定が崩れたりしたときに、予測モデルの修正に焦点を当てることになるだろうと予測しています。

しかし、some の実世界のデータを収集する必要は常にあるため、普遍的で公平な自己のアバターが完全に時代遅れになるには、まだ長い道のりです。

以上が合成データは AI/ML トレーニングの将来を推進するのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。