検索
ホームページテクノロジー周辺機器AI合成データ: 機械学習の未来

合成データ: 機械学習の未来

Apr 08, 2023 pm 08:41 PM
機械学習ディープラーニング合成データ

翻訳者 | Bugatti

レビュアー | Sun Shujuan

データは機械学習モデルの生命線であると言えます。しかし、この貴重なリソースへのアクセスが制限されたらどうなるでしょうか?多くのプロジェクトや企業が実証し始めているように、このような時代には合成データが、素晴らしいとは言えないにしても、実行可能な選択肢となります。

合成データ: 機械学習の未来

#合成データとは何ですか?

合成データは、直接測定では取得されない、人工的に生成された情報です。 「フェイク」データ自体は新しい概念でも革命的な概念でもありません。これは本質的に、適切に機能するために利用可能な情報または必要な情報が不足しているモデルのテスト データまたはトレーニング データを生成する方法です。

以前は、データが不足していたため、ランダムに生成されたデータ ポイントのセットを使用するという便利な方法が使用されていました。教育やテストの目的にはこれで十分かもしれませんが、ランダム データは、あらゆる種類の予測モデルをトレーニングする対象となるデータではありません。それが合成データの概念の違いであり、信頼性があります。

合成データは本質的に、ランダム化されたデータを巧みに生成できるユニークな概念です。したがって、このアプローチはテストだけでなく、より複雑なユースケースにも適用できます。

合成データを生成するにはどうすればよいですか?

合成データの生成方法は、より複雑な入力セットを介するという点でランダム データと変わりませんが、合成データは異なる目的を果たすため、固有の要件があります。

合成メソッドは、事前に入力として供給される特定の基準に基づいており、それに限定されます。実際にはランダムではありません。これは、データ ポイントの可能な範囲、分布、頻度を決定する特定の分布と基準を備えた一連のサンプル データに基づいています。大まかに言えば、目標は、実際のデータを複製して、機械学習モデルをトレーニングするのに十分な大きさになる、より大きなデータ セットを作成することです。

このアプローチは、合成データを洗練するための深層学習手法を検討する場合に特に興味深いものになります。アルゴリズムは、合成データを生成および識別する能力において互いを上回ることを目指して、互いに競合することができます。実際、ここでの目的は、超現実的なデータを生成するために人為的な軍備競争に参加することです。

なぜ合成データが必要なのでしょうか?

文明の進歩に必要な貴重な資源を収集できない場合、私たちはそれを作り出す方法を見つけるでしょう。この原則は現在、機械学習と人工知能のデータの世界にも同様に当てはまります。

アルゴリズムをトレーニングする場合、データのサンプル サイズを非常に大きくすることが重要です。そうしないと、アルゴリズムによって特定されるパターンが実際のアプリケーションには単純すぎる可能性があります。これは実際には非常に論理的です。人間の知能が問題を解決するために最も簡単なルートを選択することが多いのと同じように、機械学習や人工知能をトレーニングするときにも同じことがよく起こります。

たとえば、一連の猫の画像から犬を正確に識別できるオブジェクト認識アルゴリズムにこれを適用することを検討してください。データ量が少なすぎる場合、AI は識別しようとしているオブジェクトの本質的な特徴ではないパターンに依存する危険があります。この場合、AI は依然として有効である可能性がありますが、最初に識別したパターンに従っていないデータに遭遇すると機能不全に陥ります。

合成データは AI のトレーニングにどのように使用されますか?

それでは、解決策は何でしょうか?私たちは、わずかに異なる動物をたくさん描き、ネットワークに特定のピクセルの位置だけでなく、画像の基礎となる構造を見つけさせました。しかし、100 万匹の犬を手で描くよりも、分類アルゴリズムのトレーニングに使用できる、犬の描画に特化したシステムを構築する方が良いでしょう。機械学習をトレーニングするために合成データをフィードする場合、実際にこれが行われます。

ただし、このアプローチには明らかな欠陥があります。何もないところからデータを生成するだけでは現実世界を表すものではないため、実際のデータに遭遇するとアルゴリズムが失敗する可能性があります。解決策は、データのサブセットを収集し、その中の傾向と範囲を分析して特定し、そのデータを使用して、すべてを収集した場合にデータがどのようになるかを表す可能性が高い大量のランダム データを生成することです。私たち自身。

これも合成データの価値です。データを際限なく収集し、使用前にクリーンアップして処理する必要はもうありません。

データ プライバシーに関する増大する懸念を合成データが解決できるのはなぜですか?

世界は現在、特に欧州連合において、非常に劇的な変化を経験しています。プライバシーと生成されるデータはますます保護されています。機械学習やAIの分野では、データ保護の強化が長年の課題となっている。制限されたデータは、多くの場合、特に B2C ソリューションの場合、アルゴリズムをトレーニングして実行し、エンド ユーザーに価値を提供するためにまさに必要なものです。

プライバシーの問題は、個人がソリューションの使用を決定し、データの使用を承認するときに対処されることがよくあります。ここでの問題は、ユーザーが喜んで個人データを提供できる十分な価値を提供するソリューションを用意するまで、ユーザーに個人データを提供してもらうのが難しいことです。その結果、サプライヤーは鶏が先か卵が先かというジレンマに陥ることがよくあります。

合成データがソリューションであり、企業は早期採用者を通じてデータのサブセットにアクセスできるようになります。その後、この情報を基礎として使用して、機械学習と AI のトレーニングに十分なデータを生成できます。このアプローチにより、時間と費用がかかるプライベート データの必要性が大幅に軽減され、実際のユーザー向けにアルゴリズムを開発できるようになります。

医療、銀行、法律などの一部の業界では、合成データは、これまで利用できなかった大量のデータに簡単にアクセスする方法を提供し、新しいより高度なアルゴリズムが直面することが多い課題を解消します。 。

合成データは実際のデータを置き換えることができますか?

実際のデータの問題は、それが機械学習や AI アルゴリズムのトレーニングを目的として生成されたものではなく、単に私たちの周りで起こっている出来事の副産物であることです。前述したように、これにより収集されたデータの可用性と使いやすさが明らかに制限されるだけでなく、データのパラメーターや結果を損なう可能性のある欠陥 (外れ値) の可能性も制限されます。このため、モデルをトレーニングする際には、カスタマイズおよび制御できる合成データの方が効率的です。

ただし、合成データはトレーニング シナリオには非常に適していますが、それを作成する際には必ず実際のデータの少なくとも一部に依存することになります。したがって、合成データは、依存する元のデータを置き換えることはありません。より現実的には、アルゴリズムのトレーニングに必要な実際のデータの量が大幅に削減されます。このプロセスでは、テストよりもはるかに多くのデータが必要になります。通常、データの 80% がトレーニングに使用され、残りの 20% がテストに使用されます。

最後に、合成データは、正しく行われれば、現実世界からデータを取得するよりも低コストで、必要なデータをより迅速かつ効率的に取得する方法を提供し、煩わしいデータのプライベート問題を軽減します。

原題: Synthetic data: The future of machine learning 、著者: Christian Lawaetz Halvorsen

以上が合成データ: 機械学習の未来の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン