ホームページ >テクノロジー周辺機器 >AI >生成AIおよびエージェントAIの20のオープンソースデータセット
生成およびエージェントAI:トップオープンソースデータセットに深く潜ります
生成AI(GENAI)とエージェントAIの分野は、創造的なコンテンツ生成から自律的な意思決定に至るまで、すべてに革命をもたらしています。 この進捗は、モデルトレーニング、テスト、展開に使用される広大で公開されたデータセットによって促進されます。この記事では、生成的およびエージェントAIの両方の主要なオープンソースデータセットのキュレーションされた選択を紹介します。さまざまなデータタイプを網羅しています。広範なテキストや画像コレクションから、インテリジェントエージェントの構築や複雑な推論の問題に取り組むための専門的なリソースまで。
目次
大規模な言語モデルのトレーニング、洗練された自然言語理解システムの開発、および特定のテキスト生成タスクの微調整モデル。 link:
eleutherai - パイル一般的なクロール:Webスケールのデータ
Webスケール言語モデルの構築、情報検索と検索エンジン機能の強化、オンラインコンテンツの動向とユーザーの動作の分析。
link:common crawl
wikitextは、高品質のウィキペディア記事を活用して、言語モデリングデータセットを作成します。 その構造化されたコンテンツと言語の複雑さは、特に長距離依存関係を習得するために、モデルに挑戦的な学習環境をもたらします。 複数のバージョンが存在し、wikitext-103が前任者よりも大幅に大きい。
に最適なもの:>トレーニング言語モデルは、長距離コンテキスト、次のワードの予測とテキスト生成のベンチマーク、および要約と翻訳のための微調整モデルに焦点を当てています。
リンク:wikitext hugging face
に最適:
>多様なオンラインテキストを使用したWebスケール言語モデルのトレーニング、テキスト生成と要約のための微調整モデル、および現在のWebデータを使用した自然言語の理解の調査laion-5b:マルチモーダルの巨人
link:laion-5b
Coco ms:豊富な注釈付き画像
link:
ms cocoOpen Images Dataset:大規模なコミュニティの取り組み
Open Images Datasetは、ラベル、境界ボックス、セグメンテーションマスクを備えた大規模でコミュニティ主導の画像のコレクションです。 その広範なカバレッジと多様なコンテンツは、一般的な画像生成と認識モデルのトレーニングに最適です。
に最適:トレーニング汎用画像生成システム、オブジェクトの検出モデルの強化、堅牢な画像認識フレームワークの構築。
link:Open Images Dataset
Llamaのトレーニングデータ、オープンソースLLM事前化、および多領域/多言語データセットキュレーションを再現します。 リンク:
redpajama-1t、redpajama-v2Openai WebGPTデータセット:Webインタラクションデータ
>> Webブラウジングと情報検索エージェントのトレーニング、検索された自然言語処理システムの開発、およびWebコンテンツとの対話および理解のAIの能力の向上。
リンク:openai webgptデータセット
Obsidian Agent Dataset:シミュレートされた意思決定
link:
obsidian agent datasetWebShop Dataset:eコマースインタラクション
WebShopデータセットでは、製品の説明、ユーザーインタラクションログ、ブラウジングパターンを備えたeコマース環境をシミュレートします。 これは、製品の研究、推奨、自動購入のためにインテリジェントエージェントを開発するのに最適です。
WebShop Dataset
Meta EAIデータセット(具体化されたAI):ロボット工学と家庭用タスク
メタEAIデータセットは、特にロボット工学と家庭用タスクの計画のために、仮想および現実世界の環境と対話するトレーニングAIエージェントをサポートしています。
に最適:>実世界のタスクのためのインタラクティブロボットエージェントのトレーニング、家庭用タスクの計画と実行のシミュレーション、および仮想環境での具体化されたAIアプリケーションの開発。
リンク:Meta EAI Dataset
リアルなロボットシミュレーションのトレーニングモデル、シミュレートされた環境での高度な制御システムの開発、物理ベースのタスクに関するAIアルゴリズムのベンチマーク。
link:mujoco
に最適:
>実世界のロボットインタラクション、センサーベースの意思決定システムの開発、および動的環境での具体化されたAIパフォーマンスのベンチマークのためのAIのトレーニング。リンク:Robotics Datasets
Atari Games:補強学習ベンチマーク
atari games
Webがクロールしたインタラクション:実際のユーザーの動作データ
リンク:
WebがクロールしたインタラクションAI2 ARCデータセット:Commonsense Reasoning
AI2 ARCデータセットには、AIの常識的な推論と問題解決能力を評価するための挑戦的な複数選択の質問が含まれています。
MS MARCOは、通過ランキング、質問応答、情報検索、トレーニング、検索の高等発電システムの大規模なデータセットです。
に最適:>トレーニング検索された生成(RAG)モデル、高度なパッセージランキングと質問回答システムの開発、および実際のデータを使用した情報検索パイプラインを強化します。
link:ms marco
に最適:
ベンチマーク補強学習アルゴリズム、エージェントのシミュレートされたトレーニング環境の開発、および制御されたシナリオにおけるエージェントの動作の迅速なプロトタイピング。link:openai Gym
概要表 (オリジナルと同様に、データセットを要約するテーブルはここに含まれます。)
)議論されたオープンソースのデータセットは、高度な生成およびエージェントAIを開発するための強力な基盤を提供します。 彼らは、さまざまなAIドメインでイノベーションを促進するために必要な規模と多様性を提供します。
よくある質問以上が生成AIおよびエージェントAIの20のオープンソースデータセットの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。