Apabila kita bercakap tentang kecerdasan buatan dalam perniagaan dan masyarakat hari ini, kita sebenarnya merujuk kepada pembelajaran mesin. Pembelajaran mesin ialah aplikasi yang menggunakan algoritma (satu set arahan) untuk menjadi lebih baik dan lebih baik dalam melaksanakan tugas tertentu kerana ia terdedah kepada lebih banyak data yang berkaitan dengan tugas itu.
Tugas ini boleh terdiri daripada menjawab soalan, mencipta teks atau imej (seperti yang boleh dilakukan oleh aplikasi seperti ChatGPT atau Dall-E) kepada mengenali imej (penglihatan komputer) atau mendapatkan kereta pandu sendiri dari titik A ke Navigate ke lokasi B.
Perusahaan yang ingin melatih algoritma pembelajaran mesin mereka sendiri untuk mengautomasikan tugas harian memerlukan sumber data untuk menyokong tugasan ini.
Apakah jenis data yang ada?
Data perusahaan biasanya dibahagikan kepada dua kategori - data dalaman dan data luaran.
- Data dalaman ialah data yang dikumpul oleh organisasi itu sendiri daripada operasinya, yang biasanya termasuk data kewangan, data maklum balas pelanggan, data sumber manusia, data operasi dan data lain daripada lebih banyak sumber. Data yang dikumpul oleh organisasi semasa memantau operasinya sendiri dipanggil data proprietari dan bernilai kerana ia memberikan maklumat tentang perniagaan tertentu.
- Data luaran ialah data daripada sumber luar organisasi, biasanya dikumpulkan daripada sumber data pihak ketiga yang disenaraikan di bawah. Jika data tersedia secara bebas kepada sesiapa sahaja, ia dipanggil data terbuka.
Selain itu, data juga boleh dikelaskan kepada data berstruktur, tidak berstruktur atau separa berstruktur.
- Data berstruktur ialah maklumat yang sesuai dengan baik dan kemas ke dalam jadual - contohnya, data jualan yang menunjukkan produk yang dijual oleh perniagaan, bila, di mana dan pada berapa harga data berstruktur dalaman. Sebagai alternatif, perniagaan boleh memilih untuk menganalisis data pasaran sejarah dan penunjuk ekonomi untuk meramalkan arah aliran masa depan dalam pasaran mereka (data luaran berstruktur).
- Data tidak berstruktur ialah segala-galanya, seperti imej, video, teks dan kandungan media sosial, yang pastinya boleh mengandungi cerapan berharga tetapi lebih sukar untuk dianalisis. Walau bagaimanapun, AI telah terbukti sangat berguna untuk mengekstrak makna daripada data tidak berstruktur. Sebagai contoh, algoritma pengecaman imej boleh memberitahu perniagaan maklumat berguna tentang tingkah laku pelanggan dengan menganalisis imej CCTV dalam kedai (data tidak berstruktur dalaman), dan juga dengan menganalisis imej berkaitan perniagaan yang disiarkan di media sosial (data luaran tidak berstruktur) untuk mencari cerapan berharga.
Nasib baik, data ada di mana-mana. Kerajaan, institusi penyelidikan, syarikat swasta, NGO semuanya menyediakan data secara percuma untuk penyelidikan dan juga tujuan komersial. Jadi berikut ialah beberapa sumber terbaik data dalam talian percuma yang tersedia pada tahun 2023.
Enjin Carian dan Repositori Data
- Carian Set Data Google – Ini pada asasnya adalah enjin carian untuk set data katalog Google menggunakan enjin carian ini untuk mencari hampir semua data yang anda perlukan.
- Carian Data Terbuka AWS - Satu lagi enjin carian set data yang disediakan oleh AWS Amazon.
- Data Terbuka Microsoft Research - Satu set data terbuka percuma yang dikumpul oleh Microsoft dengan tumpuan utama pada sains.
- Repositori Pembelajaran Mesin UCI - Repositori lebih daripada 600 set data terbuka yang dipilih susun dan diselenggara oleh Universiti California, Irvine, yang boleh digunakan untuk melatih algoritma pembelajaran mesin.
- Set Data Kaggle – Platform sains data dalam talian Kaggle juga menawarkan katalog set data terpilih yang meliputi segala-galanya daripada kedudukan universiti hingga aliran carian Google, jualan runcit, ulasan filem dalam talian dan statistik jenayah.
- Reddit R/Set Data - Set data besar yang diserahkan oleh pengguna tapak komuniti dalam talian Reddit, meliputi ratusan topik.
Set data kerajaan dan organisasi antara kerajaan
- Data.Gov - portal data terbuka yang disediakan oleh kerajaan AS, menganjurkan satu juta data yang diterbitkan oleh agensi kerajaan Hampir satu perempat daripada data tertumpu.
- Data.Census.Gov – Jika anda secara khusus mencari data demografi di Amerika Syarikat, ini adalah tempat yang bagus untuk bermula!
- Data.EU - portal data terbuka EU, yang mengandungi data daripada organisasi EU dan data daripada kerajaan negara anggota.
- Data.gov.uk - set data terbuka yang diterbitkan oleh agensi kerajaan UK.
- Data Pertubuhan Kesihatan Sedunia - koleksi data yang berkaitan dengan kesihatan dan kesejahteraan global.
- Data Terbuka Bank Dunia - Set data yang berkaitan dengan pembangunan ekonomi, pasaran kewangan antarabangsa, penunjuk sosial dan isu alam sekitar.
Data Imej
- Imej Terbuka Google - berjuta-juta imej yang dikelaskan dan dilabelkan dalam pelbagai cara, digunakan untuk melatih pelbagai jenis algoritma penglihatan komputer .
- Set Data Terbuka ImageNet - Satu lagi set data yang terdiri daripada imej berlabel yang percuma untuk digunakan dalam aplikasi pembelajaran mesin bukan komersial.
- Set Data COCO - Dataset Common Objects in Context (COCO) mengandungi lebih 200,000 imej yang dipilih untuk melatih algoritma pengesanan objek dan kapsyen.
Data Suara
- Mozilla Common Voice - set data rakaman terbuka yang boleh digunakan untuk melatih mana-mana aplikasi AI yang melibatkan pertuturan.
- Audioset - Satu lagi set data yang dipilih susun oleh Google, set ini memfokuskan pada bunyi dan mengandungi ratusan ribu sampel 10 saat yang dipecahkan kepada kategori seperti instrumen, kenderaan dan vokal.
- Set Data Juta Lagu - Sampel dan metadata daripada satu juta trek muzik pop kontemporari.
Data Teks
- Wikidata - Muat turun pangkalan data artikel Wikipedia dalam pelbagai format.
- Common Crawl - repositori data terbuka yang dikikis daripada World Wide Web, yang paling terkenal kerana melatih model bahasa besar GPU untuk ChatGPT dan bot sembang lain.
Set Data Lain dan Pelbagai
- Ulasan Amazon - Pangkalan data kira-kira 35 juta ulasan produk Amazon, termasuk maklumat dan penilaian produk.
- Waymo Open Dataset - Anak syarikat pandu kendiri Alphabet Waymo telah mendedahkan sejumlah besar data yang dikumpul melalui kenderaan pandu sendiri, termasuk data daripada kamera dan penderia LiDAR.
- Set Data Apolloscape - Lebih banyak data pemanduan autonomi disediakan oleh platform Apollo sumber terbuka Baidu.
Atas ialah kandungan terperinci Ambil stok lebih daripada 20 sumber data yang berkuasa dan percuma yang boleh digunakan oleh sesiapa sahaja untuk membina AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!