Rumah > Artikel > Peranti teknologi > Perkembangan era model besar AI memerlukan teknologi storan canggih untuk mencapai kemajuan yang stabil
Disiplin kecerdasan buatan bermula pada tahun 1956, dan kemudian hampir tiada kemajuan dalam separuh abad berikutnya Perkembangan kuasa pengkomputeran dan data ketinggalan jauh daripada algoritma. Walau bagaimanapun, dengan kemunculan era Internet pada tahun 2000, had kuasa pengkomputeran telah dipecahkan, kecerdasan buatan secara beransur-ansur menembusi semua lapisan masyarakat, dan membawa kepada era model berskala besar. Walau bagaimanapun, data berkualiti tinggi nampaknya telah menjadi "bottleneck" terakhir dalam pembangunan kecerdasan buatan
Huawei OceanStor Pacific memenangi "Anugerah Inovasi Terbaik untuk Pangkalan Penyimpanan AI" pada Persidangan Tahunan Akademik Pengkomputeran Prestasi Tinggi Kebangsaan yang diadakan baru-baru ini (CCF HPC China 2 perlu ditulis semula sebagai: 023)
Kemunculan konsep pengekalan AI sebenarnya mencerminkan peningkatan berterusan nilai data untuk AI
Kandungan yang perlu ditulis semula ialah: 01
Data menentukan tahap kecerdasan kecerdasan buatan
Pembangunan kecerdasan buatan ialah proses pengumpulan dan analisis data yang berterusan. Data, sebagai pembawa maklumat, adalah asas untuk kecerdasan buatan untuk belajar dan memahami dunia. Kecerdasan am ialah matlamat utama pembangunan kecerdasan buatan Ia boleh belajar, memahami, menaakul dan menyelesaikan masalah secara autonomi, dan data merupakan daya penggerak terbesar untuk pembangunannya
Jadi, semakin banyak data, semakin pintar AI? Selagi terdapat sejumlah besar data, bolehkah AI mengatasi peranan pakar?
Ambil sistem kecerdasan buatan dalam bidang perubatan sebagai contoh Banyak kes diagnostik sebenarnya tidak mempunyai satu jawapan yang betul. Dalam diagnosis perubatan, setiap set simptom mempunyai pelbagai kemungkinan punca dengan kebarangkalian yang berbeza-beza, jadi pembuatan keputusan yang dibantu AI boleh membantu doktor mengecilkan kemungkinan punca sehingga penyelesaian ditemui. Dalam kes ini, kecerdasan buatan perubatan tidak bergantung pada jumlah data yang besar, tetapi pada data yang tepat dan berkualiti tinggi Hanya dengan cara ini ia dapat memastikan punca sebenar yang mungkin tidak terlepas semasa "penyaringan"
Kepentingan kualiti data untuk kecerdasan AI ditunjukkan dalam demonstrasi biasa ini
Dalam industri kecerdasan buatan, sentiasa ada konsensus bahawa "sampah masuk, sampah keluar". Ini bermakna tanpa input data berkualiti tinggi, tidak kira betapa majunya algoritma atau betapa kuatnya kuasa pengkomputeran, ia tidak akan dapat menghasilkan hasil yang berkualiti tinggi
Pada zaman ini, kita berada di puncak model besar. Model besar kecerdasan buatan bermunculan seperti cendawan selepas hujan. Sebilangan model besar di China, seperti Huawei's Pangu, iFlytek's Spark, dan Zidong's Taichu, sedang membangun dengan pesat dan komited untuk membina platform keupayaan kecerdasan buatan sejagat merentas industri untuk menyediakan kuasa bagi transformasi digital semua lapisan masyarakat
Menurut "Laporan Penyelidikan Peta Model Besar Kecerdasan Buatan China" yang dikeluarkan oleh Pusat Penyelidikan Pembangunan Kecerdasan Buatan Generasi Baharu Kementerian Sains dan Teknologi China pada akhir Mei, 79 model besar dengan skala lebih daripada satu bilion parameter telah dikeluarkan di China. Walaupun corak "Battle of 100 Models" telah dibentuk, ia juga telah mencetuskan pemikiran yang mendalam tentang pembangunan model besar
Keupayaan ekspresif model berdasarkan data berskala kecil dihadkan oleh saiz data dan hanya boleh melakukan simulasi dan ramalan berbutir kasar Ia tidak lagi terpakai dalam situasi di mana keperluan ketepatan agak tinggi. Jika anda ingin meningkatkan lagi ketepatan model, anda perlu menggunakan data besar-besaran untuk menjana model yang berkaitan
Kandungan yang ditulis semula ialah: Ini bermakna jumlah data menentukan tahap kecerdasan AI. Tanpa mengira kualiti data, kuantiti data adalah bidang tumpuan yang perlu difokuskan untuk membina "kapasiti storan AI"
Apa yang perlu ditulis semula ialah: 02
Dalam era data besar, cabaran yang dihadapi oleh data
Apabila kecerdasan buatan berkembang ke arah model besar dan pelbagai mod, perusahaan menghadapi banyak cabaran apabila membangunkan atau melaksanakan aplikasi model besar
Pertama sekali, kitaran prapemprosesan data adalah sangat panjang. Memandangkan data diedarkan di pusat data yang berbeza, aplikasi yang berbeza dan sistem yang berbeza, terdapat masalah seperti kelajuan pengumpulan yang perlahan Akibatnya, ia mengambil masa kira-kira 10 hari untuk mempraproses 100 TB penggunaan sistem perlu dipertingkatkan permulaan.
Kedua, masalah kecekapan pemuatan set latihan yang rendah perlu diselesaikan. Pada masa kini, skala model berskala besar semakin besar, dengan tahap parameter mencecah ratusan bilion atau bahkan trilion Proses latihan memerlukan sejumlah besar sumber pengkomputeran dan ruang penyimpanan. Sebagai contoh, model berskala besar berbilang modal menggunakan teks dan imej besar-besaran sebagai set latihan, tetapi kelajuan pemuatan semasa fail kecil besar adalah perlahan, mengakibatkan pemuatan set latihan yang tidak cekap
Selain itu, ia juga menghadapi cabaran penalaan kerap parameter model besar dan platform latihan yang tidak stabil, dengan gangguan latihan berlaku secara purata setiap dua hari. Untuk meneruskan latihan, mekanisme pusat pemeriksaan perlu digunakan, dan masa untuk pulih daripada kegagalan melebihi satu hari, yang membawa banyak cabaran kepada kesinambungan perniagaan
Untuk berjaya dalam era model besar AI, kita perlu memberi perhatian kepada kualiti dan kuantiti data serta membina infrastruktur storan berprestasi tinggi berkapasiti besar. Ini telah menjadi elemen utama kepada kemenangan
Kandungan yang perlu ditulis semula ialah: 03
Kunci era AI adalah pangkalan storan kuasa
Dengan gabungan data besar, kecerdasan buatan dan teknologi lain dengan pengkomputeran berprestasi tinggi, analisis data berprestasi tinggi (HPDA) telah menjadi satu bentuk baharu untuk merealisasikan nilai data. Dengan menggunakan lebih banyak data sejarah, pelbagai kuasa pengkomputeran heterogen dan kaedah analisis, HPDA boleh meningkatkan ketepatan analisis. Ini menandakan peringkat baharu penyelidikan pintar dalam penyelidikan saintifik, dan teknologi kecerdasan buatan akan mempercepatkan penerapan hasil termaju
Hari ini, paradigma baharu berasaskan "sains intensif data" sedang muncul dalam bidang penyelidikan saintifik. Paradigma ini lebih menumpukan pada menggabungkan perlombongan pengetahuan data besar dan latihan kecerdasan buatan serta teknologi penaakulan untuk mendapatkan pengetahuan dan penemuan baharu melalui pengiraan dan analisis. Ini juga bermakna bahawa keperluan untuk infrastruktur data asas akan berubah secara asasnya. Sama ada pengkomputeran berprestasi tinggi atau pembangunan kecerdasan buatan masa hadapan, infrastruktur storan lanjutan perlu diwujudkan untuk menangani cabaran data
Untuk menyelesaikan cabaran data, kita perlu bermula dengan inovasi penyimpanan data Bak kata pepatah, orang yang membuka loceng mesti mengikat loceng
Pangkalan storan AI dibangunkan berdasarkan storan teragih OceanStor Pacific dan mematuhi konsep reka bentuk Asli AI untuk memenuhi keperluan storan semua aspek AI. Sistem AI menimbulkan cabaran menyeluruh kepada storan, termasuk pecutan pengkomputeran data, pengurusan storan data, dan peredaran yang cekap antara penyimpanan data dan pengkomputeran. Dengan menggunakan gabungan "storan berkapasiti besar + storan berprestasi tinggi", kami dapat memastikan penjadualan dan penyelarasan sumber storan yang konsisten, supaya setiap pautan dapat beroperasi dengan cekap, dengan itu mengeluarkan sepenuhnya nilai sistem AI
Bagaimanakah storan yang diedarkan OceanStor Pacific menunjukkan keupayaan terasnya?
Pertama sekali, seni bina teknikal adalah unik dalam industri. Sistem storan ini menyokong pengembangan mendatar tanpa had dan boleh mengendalikan beban bercampur dengan cekap mengendalikan IOPS fail kecil dan lebar jalur membaca dan menulis fail besar dengan cekap. Ia mempunyai fungsi aliran data hierarki pintar pada lapisan prestasi dan lapisan kapasiti, dan boleh merealisasikan pengurusan data AI proses penuh seperti pengumpulan, prapemprosesan, latihan dan inferens data besar-besaran. Selain itu, ia mempunyai keupayaan analisis data yang sama seperti HPC dan data besar
Kandungan yang ditulis semula ialah: Kedua, cara terbaik untuk meningkatkan kecekapan dalam industri adalah melalui inovasi storan. Yang pertama ialah tenunan data, yang bermaksud mengakses data mentah yang bertaburan di wilayah yang berbeza melalui sistem fail global GFS untuk mencapai paparan dan penjadualan data bersatu global merentas sistem, wilayah dan awan berbilang, memudahkan proses pengumpulan data. Yang kedua ialah pengkomputeran memori dekat, yang merealisasikan prapemprosesan data dekat dengan menyimpan kuasa pengkomputeran terbenam, mengurangkan penghantaran data tidak sah dan mengurangkan masa menunggu pelayan prapemprosesan, sekali gus meningkatkan kecekapan prapemprosesan dengan ketara
Malah, "Pertempuran Ratusan Model" bukanlah "tanda" pembangunan model AI yang besar. Pada masa hadapan, semua lapisan masyarakat akan menggunakan keupayaan model besar AI untuk mempromosikan pembangunan transformasi digital yang mendalam, dan pembinaan infrastruktur data juga akan dipercepatkan. OceanStor Pacific mengedarkan inovasi storan dalam seni bina teknologi dan kecekapan tinggi telah membuktikan dirinya sebagai pilihan pertama industri
Kami faham bahawa data telah menjadi faktor pengeluaran baharu bersama tanah, buruh, modal dan teknologi. Banyak definisi tradisional dan model operasi dalam pasaran digital masa lalu akan ditulis semula. Hanya dengan keupayaan sedia ada kami boleh memastikan kemajuan mantap era model besar kecerdasan buatan dipacu data
Atas ialah kandungan terperinci Perkembangan era model besar AI memerlukan teknologi storan canggih untuk mencapai kemajuan yang stabil. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!