Rumah >Peranti teknologi >AI >20 dataset sumber terbuka untuk AI generatif dan agentik AI

20 dataset sumber terbuka untuk AI generatif dan agentik AI

Lisa Kudrow
Lisa Kudrowasal
2025-03-04 09:38:09914semak imbas

AI Generatif dan Agenik: menyelam mendalam ke dataset sumber terbuka

Bidang generatif AI (genai) dan agentik AI merevolusi segala-galanya dari penjanaan kandungan kreatif kepada pengambilan keputusan autonomi. Kemajuan ini didorong oleh dataset yang boleh diakses secara umum untuk latihan, ujian, dan penempatan model. Artikel ini membentangkan pemilihan kumpulan data sumber terbuka yang terkemuka untuk kedua-dua AI generatif dan agenik, yang merangkumi pelbagai jenis data-dari koleksi teks dan imej yang luas kepada sumber khusus untuk membina ejen pintar dan menangani masalah penaakulan yang kompleks.

Jadual Kandungan

  • tumpukan
  • Crawl biasa
  • wikitext
  • OpenWebtext
  • laion-5b
  • MS COCO
  • Buka dataset imej
  • redpajama-1t
  • redpajama-v2
  • Dataset WebGPT OpenAI
  • Obsidian Ejen Dataset
  • WebShop Dataset
  • dataset meta eai (terkandung ai)
  • Mujoco
  • dataset robotik
  • Atari Games
  • Interaksi Web-Crawled
  • AI2 arc dataset
  • ms marco
  • Openai Gym
  • Jadual Ringkasan
  • Kesimpulan
  • Soalan Lazim

20 Open-Source Datasets for Generative AI and Agentic AI

  1. tumpukan: corpus teks besar

Tumpukan adalah dataset teks yang pelbagai dan pelbagai (kira -kira 800GB) yang disusun dari pelbagai sumber termasuk ARXIV, GitHub, dan Wikipedia. Pelbagai gaya dan topik penulisannya menjadikannya sesuai untuk melatih model bahasa berskala besar, meningkatkan pemahaman bahasa semula jadi dan keupayaan generasi.

Sesuai untuk: Latihan model bahasa yang besar, membangunkan sistem pemahaman bahasa semulajadi yang canggih, dan model penalaan halus untuk tugas penjanaan teks tertentu.

pautan: Eleutherai - The Pile

  1. Crawl Biasa: Data Skala Web

Crawl Common menyediakan dataset skala web yang benar-benar, mengagregatkan berbilion-bilion laman web yang dikemas kini setiap bulan. Koleksi besar kandungan dalam talian yang pelbagai ini tidak ternilai untuk melatih model bahasa yang mantap, memancarkan aplikasi dari pemodelan bahasa ke pengambilan maklumat berskala besar.

Sesuai untuk: Membina model bahasa skala web, meningkatkan keupayaan pengambilan maklumat dan enjin carian, dan menganalisis trend kandungan dalam talian dan tingkah laku pengguna.

pautan:

Crawl biasa

  1. wikitext: data wikipedia berkualiti tinggi

Wikitext memanfaatkan artikel Wikipedia berkualiti tinggi untuk membuat dataset pemodelan bahasa. Kandungan berstruktur dan kerumitan linguistiknya menunjukkan persekitaran pembelajaran yang mencabar untuk model, terutamanya untuk menguasai ketergantungan jarak jauh. Pelbagai versi wujud, dengan Wikitext-103 jauh lebih besar daripada pendahulunya.

Sesuai untuk: Model bahasa latihan yang difokuskan pada konteks jarak jauh, penanda aras ramalan kata-kata dan penjanaan teks, dan model penalaan halus untuk ringkasan dan terjemahan.

pautan: wikitext pada muka pelukan

  1. OpenWebtex: Rekreasi Webtext

OpenWebtext adalah rekreasi sumber terbuka dataset Webtext OpenAI, yang disusun dari laman web yang berkaitan dengan Reddit. Koleksi teks dalam talian berkualiti tinggi ini sangat berharga untuk model latihan yang memerlukan pelbagai gaya bahasa dan wacana dalam talian kontemporari.

Sesuai untuk: model bahasa skala web latihan menggunakan teks dalam talian yang pelbagai, model penalaan halus untuk penjanaan teks dan ringkasan, dan meneliti pemahaman bahasa semulajadi menggunakan data web semasa.

pautan:

OpenWebtext pada GitHub

    laion-5b: gergasi multimodal
  1. laion-5b adalah dataset besar-besaran (5.85 bilion pasangan teks imej) yang menyediakan sumber yang tiada tandingan untuk AI multimodal. Skala dan kepelbagaian sokongan latihan model teks-ke-imej canggih, membolehkan sistem untuk menterjemahkan bahasa secara berkesan ke dalam kandungan visual.

Ideal untuk:

Model generatif teks-ke-imej, membangunkan sistem sintesis kandungan multimodal, dan mewujudkan aplikasi imej lanjutan dan aplikasi bercerita visual.

Pautan:

laion-5b

    MS COCO: Imej beransur -ansur yang kaya
  1. Ms Coco menawarkan koleksi imej yang komprehensif dengan anotasi terperinci untuk pengesanan objek, segmentasi, dan kapsyen. Kerumitannya mencabar model untuk menghasilkan penerangan menyeluruh tentang adegan visual, kemajuan memandu dalam pemahaman imej dan generasi.

Sesuai untuk:

Membangunkan model pengesanan dan segmentasi objek yang mantap, model latihan untuk keterangan imej dan penerangan visual, dan mewujudkan sistem sintesis imej yang menyedari konteks. Pautan:

MS COCO

Dataset Terbuka Imej: Usaha Komuniti Skala Besar
  1. Dataset Imej Terbuka adalah koleksi imej yang didorong oleh komuniti dengan label, kotak sempadan, dan topeng segmentasi. Liputannya yang luas dan kandungan yang pelbagai sangat sesuai untuk melatih generasi imej dan model pengiktirafan umum.
  2. Ideal untuk: Latihan sistem penjanaan imej tujuan umum, meningkatkan model pengesanan objek dan segmentasi, dan membina kerangka pengiktirafan imej yang mantap.

    pautan: Buka dataset imej

    1. Redpajama-1T dan Redpajama-V2: Menghasilkan dan Menapis Data Llama

      Redpajama-1T adalah pembiakan sumber terbuka dataset pretraining Llama, sementara Redpajama-V2 menyempurnakannya dengan memberi tumpuan kepada data web berkualiti tinggi dan sokongan berbilang bahasa. Kedua -duanya menawarkan sumber yang berharga untuk pretraining model bahasa yang besar dan kurasi dataset.

    Sesuai untuk: Menghasilkan semula data latihan Llama, pretraining LLM sumber terbuka, dan pengkhususan dataset berbilang domain/berbilang bahasa.

    Pautan: redpajama-1t, redpajama-v2

    1. Dataset WebGPT OpenAI: Data Interaksi Web

    Dataset WebGPT OpenAI memberi tumpuan kepada latihan ejen AI yang berinteraksi secara dinamik dengan web. Ia mengandungi data annotasi manusia bagi interaksi pelayaran web dunia nyata, penting untuk membangunkan sistem penjanaan pengambilan pengambilan semula.

    Sesuai untuk: latihan web-penyembuhan dan ejen pengambilan maklumat, membangunkan sistem pemprosesan bahasa semula jadi yang diperolehi semula, dan meningkatkan keupayaan AI untuk berinteraksi dengan dan memahami kandungan web.

    Pautan: Dataset WebGPT OpenAI

    1. dataset ejen obsidian: membuat keputusan simulasi

    Dataset Ejen Obsidian menggunakan data sintetik untuk mensimulasikan persekitaran untuk membuat keputusan autonomi, menguji perancangan kompleks dan kemahiran membuat keputusan dalam ejen AI.

    Sesuai untuk: Latihan model membuat keputusan autonomi, meniru penalaran berasaskan ejen dalam persekitaran terkawal, dan bereksperimen dengan data sintetik untuk tugas perancangan AI yang kompleks.

    pautan: dataset ejen obsidian

    1. Dataset WebShop: Interaksi e-dagang

    Dataset WebShop mensimulasikan persekitaran e-dagang, yang menampilkan penerangan produk, log interaksi pengguna, dan corak pelayaran. Ini sesuai untuk membangunkan ejen pintar untuk penyelidikan produk, cadangan, dan pembelian automatik.

    Sesuai untuk: Membina ejen AI untuk navigasi e-dagang dan penyelidikan produk, membangunkan sistem cadangan untuk pembeli dalam talian, dan mengautomasikan perbandingan produk dan proses pembelian.

    pautan: Dataset webshop

    1. Meta Eai dataset (terkandung AI): Robotik dan Tugas Rumah

    Dataset Meta EAI menyokong latihan ejen AI yang berinteraksi dengan persekitaran maya dan dunia nyata, terutamanya untuk robotik dan perancangan tugas isi rumah.

    Ideal untuk: Ejen robotik interaktif untuk tugas-tugas dunia nyata, mensimulasikan perancangan tugas dan pelaksanaan isi rumah, dan membangunkan aplikasi AI yang terkandung dalam persekitaran maya.

    pautan: Meta Eai dataset

    1. Mujoco: Simulasi Fizik Realistik

    Mujoco adalah enjin fizik untuk mewujudkan simulasi yang realistik, terutamanya untuk robotik. Ia membolehkan model AI mempelajari tugas gerakan dan kawalan yang kompleks dalam persekitaran berasaskan fizik.

    Ideal untuk: Model latihan untuk simulasi robot yang realistik, membangunkan sistem kawalan lanjutan dalam persekitaran simulasi, dan penanda aras algoritma AI pada tugas-tugas berasaskan fizik.

    Pautan: Mujoco

    1. dataset robotik: data robot dunia sebenar

    dataset robotik menangkap data sensor dunia sebenar dan interaksi robot, memberikan maklumat kontekstual yang kaya untuk penyelidikan AI yang terkandung.

    Ideal untuk: Latihan AI untuk interaksi robot dunia sebenar, membangunkan sistem pembuatan keputusan berasaskan sensor, dan penanda aras prestasi AI yang terkandung dalam persekitaran dinamik.

    pautan: dataset robotik

    1. permainan atari: penanda aras pembelajaran tetulang

    Atari Games menyediakan penanda aras klasik untuk algoritma pembelajaran tetulang, menawarkan suite persekitaran permainan untuk tugas membuat keputusan berurutan.

    Sesuai untuk: Strategi Pembelajaran Pengukuhan Penandaarasan, menguji prestasi AI dalam persekitaran permainan yang berbeza-beza, dan membangunkan algoritma untuk membuat keputusan berurutan.

    pautan: Atari Games

    1. Interaksi Web-Crawled: Data Perilaku Pengguna Sebenar

    Interaksi Web-Crawled menangkap data tingkah laku pengguna berskala besar dari platform dalam talian, menawarkan pandangan untuk melatih ejen interaktif dan memahami tingkah laku pengguna dunia sebenar.

    Sesuai untuk: Ejen interaktif latihan berdasarkan tingkah laku pengguna sebenar, meningkatkan sistem cadangan dengan data interaksi dinamik, dan menganalisis trend penglibatan untuk AI perbualan.

    Pautan: Interaksi Web-Crawled

    1. dataset arka ai2: penalaran komonsense

    Dataset AI2 ARC mengandungi soalan pelbagai pilihan yang mencabar untuk menilai kebolehan dan kemampuan penyelesaian masalah AI.

    Ideal untuk: Penandaarasan Keupayaan Penalaran akal sehat, model latihan untuk mengendalikan soalan ujian piawai, dan meningkatkan masalah penyelesaian masalah dan logik dalam sistem AI.

    pautan: dataset arka ai2

    1. MS Marco: Pengambilan maklumat dan soalan menjawab

    MS Marco adalah dataset berskala besar untuk ranking laluan, menjawab soalan, dan pengambilan maklumat, latihan dan pengujian sistem penjanaan pengambilan semula.

    Ideal untuk: Model Generasi Pengambilan-Agen (RAG), membangunkan peringkat lanjutan dan sistem soal jawab, dan meningkatkan saluran paip pengambilan maklumat dengan data dunia sebenar.

    Pautan: ms marco

    1. Openai Gym: Toolkit Pembelajaran Penguatkuasaan

    Openai Gym adalah toolkit standard dengan persekitaran simulasi untuk membangun dan menanda aras algoritma pembelajaran tetulang.

    Sesuai untuk: algoritma pembelajaran penanda aras penanda aras, membangunkan persekitaran latihan simulasi untuk ejen, dan prototaip cepat tingkah laku agentik dalam senario terkawal.

    pautan: Openai Gym

    Jadual Ringkasan

    (jadual yang meringkaskan dataset, sama dengan yang asal, akan dimasukkan di sini.)

    Kesimpulan

    Dataset sumber terbuka yang dibincangkan menyediakan asas yang kukuh untuk membangunkan AI generatif dan agenik yang maju. Mereka menawarkan skala dan kepelbagaian yang diperlukan untuk memacu inovasi di pelbagai domain AI.

    Soalan Lazim

    (bahagian FAQ, serupa dengan yang asal, akan dimasukkan di sini.)

Atas ialah kandungan terperinci 20 dataset sumber terbuka untuk AI generatif dan agentik AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn