Rumah > Artikel > Peranti teknologi > Yang Fan, pengasas bersama SenseTime: Peluang baharu untuk pembangunan industri AI yang dibawa oleh gelombang model besar
36 Krypton menganjurkan sidang kemuncak pembangunan industri yang dipanggil "Gangguan · AIGC" pada 23 Mei. Sidang kemuncak ini menghimpunkan tenaga industri untuk bersama-sama membincangkan strategi tindak balas perusahaan dan industri apabila menghadapi perubahan, berkongsi pemikiran, meneroka dan menemui perusahaan yang paling berpotensi dan teknologi paling berharga dalam industri, dan meneroka jalan ke hadapan dalam persekitaran yang bergelora.
Pada persidangan itu, Yang Fan, pengasas bersama SenseTime dan presiden kumpulan perniagaan peranti besar, menyampaikan ucaptama bertajuk "Peluang Baharu untuk Pembangunan Industri AI yang Dibawa oleh Gelombang Model Besar". Yang Fan percaya bahawa gelombang baharu AI mempunyai dua ciri: pertama, kitaran daripada penemuan teknologi kepada inovasi model perniagaan adalah lebih pendek, dan pencapaian teknologi lebih cepat digunakan dalam penerokaan dan amalan komersil dan perindustrian, berbanding dengan sepuluh tahun yang lalu , , perindustrian semasa kecerdasan buatan memudahkan untuk mengubah kelebihan teknologi kepada halangan data dan kelebihan skala.
Yang Fan juga mengemukakan pandangannya sendiri dan menjelaskan sebab-sebab kemajuan terobosan teknologi kecerdasan buatan. Beliau percaya bahawa walaupun kejayaan model besar masih mengesahkan estetika ganas "data, kuasa pengkomputeran dan algoritma" kecerdasan buatan, di sebalik ketiga-tiga elemen ini sebenarnya adalah kejuruteraan sistem yang komprehensif. Mengambil OpenAI sebagai contoh, Yang Fan menegaskan bahawa cara melakukan kerja yang baik dalam kejuruteraan data, cara meningkatkan penggunaan sumber cip yang berkesan dan cara mereka bentuk algoritma yang berkos lebih rendah tetapi tersusun dengan baik, setiap pautan memerlukan sokongan pengalaman pakar dan pengetahuan serta keupayaan kejuruteraan sistem. Beliau percaya bahawa ini bukan sahaja manifestasi muktamad keupayaan teknikal teras perusahaan lapisan model, tetapi juga keupayaan utama yang diperlukan untuk menyediakan perkhidmatan infrastruktur AI.
Berikut ialah transkrip ucapan Yang Fan (disusun dan disunting oleh 36 Krypton):
Hello semua! Saya berbesar hati kerana dapat berkongsi beberapa trend industri model besar dengan anda pada acara 36 Krypton hari ini.
Dalam tempoh perubahan melampau dalam industri, saya ingin berkongsi sedikit pandangan. Pertama sekali, apabila kita bercakap tentang model besar hari ini, tidak ada definisi yang tepat Adakah ia lebih besar daripada ratusan bilion atau puluhan bilion? Pada pendapat saya, dari 2012 hingga sekarang, dalam tempoh sepuluh tahun yang lalu, struktur model kecerdasan buatan semakin besar, dan bilangan parameter juga semakin besar Mengapa semua orang nampaknya tiba-tiba mempunyai konsep sekarang. yang manakah telah mencetuskan lebih banyak tempat tumpuan? Kami dapat melihat bahawa terdapat korelasi yang kuat antara aplikasi baharu yang diwakili oleh AlphaGo pada tahun 2016 dan pengguna individu Dalam tempoh dua tahun yang lalu, teknologi kecerdasan buatan telah mencapai kemajuan dan penemuan baharu Pertama sekali, kemajuan dan kejayaan ini adalah relevan kepada semua orang. Ia lebih berkaitan secara langsung, dan semua orang dapat merasainya secara langsung Kedua, penemuan ini sememangnya memberi impak yang lebih besar, saya fikir kecerdasan buatan boleh menyelesaikan beberapa kerja inovatif dalam bidang penyelidikan saintifik, sama ada biologi, fizik, kimia, atau Bidang lain, seperti model ChatGPT yang diberi perhatian oleh semua orang hari ini, sangat bermakna kerana ia berpotensi untuk memacu keseluruhan teknologi asas kami dan menghasilkan kemajuan baharu. Kemajuan baharu sebegini berkemungkinan akan membawa lebih banyak peningkatan kepada umat manusia pada masa hadapan.
Mulai 2021, lebih banyak penemuan teknologi akan terus berlaku Pada masa yang sama, kami telah melihat fenomena yang sangat menarik Selepas pusingan penemuan teknologi ini mencapai keputusan tertentu dalam teknologi, kami mula meneroka dan meneroka dalam industri dan perniagaan. Dalam amalan, kitaran ini menjadi lebih pendek daripada sebelumnya. Selepas itu, sebilangan besar syarikat inovatif telah ditubuhkan di dalam dan di luar negara, dan profesor dan sarjana mula memulakan perniagaan mereka sendiri, saya fikir mungkin terdapat beberapa laluan untuk ini di pasaran pada masa lalu, dan pelabur telah menjadi lebih dikenali , termasuk pengumuman beberapa API Vincentian Selepas itu, orang ramai mula mencuba untuk menjadi selebriti internet di Xiaohongshu.
Kami melihat banyak trend, daripada penemuan teknologi kepada inovasi komersial, kitaran ini nampaknya lebih pendek. Dalam beberapa forum yang saya sertai baru-baru ini, saya mendapati bahawa kebanyakan orang bercakap tentang jenis model besar yang mereka mahu buat, betapa besar dan berkuasa model itu, perkara yang mereka mahu lakukan dengan model ini dan cara membinanya senario khusus tertentu APP super baharu, dsb. Walaupun tiada model utama di China yang masih menerima lesen API rasmi daripada penyeliaan kerajaan, terdapat perubahan pengembangan yang begitu besar dalam tempoh dua bulan yang lalu.
Jadi saya rasa ini adalah fenomena yang patut diberi perhatian lebih. Kami melihat bahawa pusingan model berskala besar ini dikomersialkan dengan lebih pantas. Perkara yang sangat penting ialah kita melihat banyak teknologi baharu yang boleh melakukan lebih banyak aplikasi C-side Pada masa yang sama, ia secara semula jadi boleh membentuk gelung tertutup pengumpulan data, yang menjadikannya lebih mudah untuk mewujudkan halangan perniagaan daripada keusahawanan teknikal pada masa lalu. . Saya fikir ini adalah trend yang telah kita lihat dalam industri dalam beberapa bulan kebelakangan ini.
Yang Fan, pengasas bersama SenseTime dan presiden kumpulan perniagaan peranti besar
Kedua, ia adalah perkara di sebalik teknologi model besar yang kita lakukan hari ini. Setiap orang mempunyai konsensus bahawa sama ada ia adalah model besar atau melihat ke belakang pada 10 tahun yang lalu, pembangunan dan perubahan keseluruhan industri kecerdasan buatan pada asasnya adalah kejayaan estetika yang ganas, termasuk tiga elemen tradisional kecerdasan buatan: data, kuasa pengkomputeran, dan algoritma. Algoritma boleh difahami sebagai struktur model Hari ini kita memanggil model besar ini, atau model yang telah mencapai keputusan teknikal yang lebih baru Hampir semua model digunakan dalam setiap bidang, sama ada skala kuasa pengkomputeran yang digunakan dalam skala set data atau. Algoritma itu sendiri. Struktur, serta bilangan parameter model, sebenarnya mengekalkan kadar pertumbuhan yang sangat tinggi. Model Transformer sangat stabil dan sangat berkesan. Apabila kami mendapati bahawa jumlah data cukup besar untuk mendapatkan hasil yang sangat umum, dalam erti kata lain, ia seterusnya membuktikan bahawa hala tuju umum kemajuan teknologi kecerdasan buatan adalah menggunakan keganasan untuk menghasilkan keajaiban, dan menyepadukan lebih banyak sumber boleh Anda boleh mendapat hasil yang lebih baik.
Namun, mempunyai sumber seperti itu sahaja sebenarnya masih jauh dari mencukupi. Mari kita lihat tiga elemen yang sepadan Sebelum setiap elemen boleh membentuk hasil yang baik, sejumlah besar amalan kejuruteraan profesional mesti dilakukan dalam setiap bidang.
Malah, ucapan tetamu sebentar tadi menjelaskan mengapa kita memerlukan kuasa pengkomputeran yang besar dalam bidang kuasa pengkomputeran Bagaimana kuasa pengkomputeran yang besar ini boleh disambungkan? Jika terdapat 1,000 kad hari ini, bolehkah kita menjadikannya kos efektif dan mencapai kadar penggunaan yang berkesan sebanyak 60%, 80% atau 90%? Atau, jika kita menyambung 1,000, 2,000, atau 4,000 kad hari ini, apakah kesannya? OpenAI sebelum ini menyambungkan 10,000 kad V100 tiada siapa yang boleh menyambungkan 10,000 kad bersama-sama untuk menjalankan tugas latihan yang sama dan mencapai kadar penggunaan sumber yang berkesan lebih daripada 50% atau 60%. belum ada keputusan seperti itu, kenapa? Di belakangnya adalah acara kejuruteraan yang sangat kompleks. Contohnya: model dengan ratusan bilion parameter memerlukan sejumlah besar interaksi data dan interaksi maklumat kecerunan pertengahan semasa latihan Apabila anda menggabungkan jumlah penghantaran data yang besar dan hasil penghantaran operasi pada beribu-ribu kad GPU, keseimbangan yang berkesan terbentuk, banyak kali model dijalankan antara titik-ke-titik, dan penghantaran dua-ke-dua diperlukan dalam struktur rangkaian. Apabila kami menyambungkan beribu-ribu kad bersama-sama, apakah keadaan yang boleh diterima kesannya. Ia sebenarnya tidak rumit sama sekali. Sama seperti jika anda telah melakukan ini, anda sudah cukup dengan baik, anda akan dapat menyesuaikannya dengan lebih baik daripada yang lain. Perkara ini adalah isu pengalaman yang sangat penting.
Begitu juga dengan algoritma reka bentuk struktur algoritma hari ini boleh menjadi lebih murah daripada yang asal. Jika struktur direka dengan baik, menggunakan lebih sedikit parameter dan data yang lebih kecil boleh mencapai kesan algoritma akhir yang serupa dengan reka bentuk tanpa pengoptimuman khas Terdapat juga banyak pengetahuan pakar yang terlibat, apatah lagi data.
Apabila OpenAI mengusahakan ChatGPT4, ia hanya menggunakan sebahagian kecil daripada data yang dikumpul, mungkin kurang daripada 10%, untuk latihan Ini adalah jurang yang besar antara penjimatan sumber dan latihan penuh besar. Data manakah yang lebih berkesan dan data manakah yang mempunyai nilai terbenam yang lebih tinggi? Apabila kita melakukan latihan, sebenarnya terdapat banyak percubaan dan kesilapan di antara data mana yang perlu dibuang dahulu dan kaedah mana yang perlu dibuang kemudian. Mengapakah terdapat kekurangan kuasa pengkomputeran dan semua orang memerlukan lebih banyak kuasa pengkomputeran? Oleh kerana ramai orang yang membuat model besar sedang mencuba dan melakukan kesilapan, mereka mungkin dibahagikan kepada tiga atau empat kumpulan pada masa yang sama untuk mencuba dan membuat kesilapan dalam arah yang berbeza, dan kemudian secara beransur-ansur membuat pengoptimuman berulangan atau pengumpulan sumber berskala besar adalah yang membolehkan teknologi AI dan algoritma AI hari ini Sebab untuk pemerolehan berterusan.
Kejuruteraan sistem yang komprehensif memerlukan pengalaman pakar dan keupayaan kejuruteraan sistem dalam setiap pautan. Ini juga menunjukkan bahawa OpenAI membenarkan saintis terbaik untuk melakukan kejuruteraan data dan bukannya algoritma Ini sangat melebihi pemahaman kami yang terdahulu tentang bidang tersebut Pada masa hadapan, ini mungkin menjadi ambang utama dan juga akan Menjadi keupayaan teras kami untuk menyediakan perkhidmatan kepada pasaran .
Mengapakah selepas kemunculan teknologi kecerdasan buatan baharu, gelombang industri mengikuti dengan cepat Kami melihat bahawa perkhidmatan model secara semula jadi sesuai untuk banyak bidang Orang dalam kalangan Internet sangat teruja, dan pelabur berpendapat ia akan berkembang sepantas Internet. Perubahan dalam ambang pengkomersilan dan halangan akan membawa beberapa peluang yang lebih baharu kepada model berskala besar, tetapi akses kepada peluang ini bergantung pada perbezaan dan kepakaran individu yang berbeza. Walau apa pun, berbanding dengan 10 tahun yang lalu, perindustrian kecerdasan buatan hari ini akan mempunyai kelebihan yang sangat besar, kerana ia bukan satu halangan teknikal tunggal hari ini boleh diubah menjadi halangan data dan kelebihan skala Kami percaya bahawa akan ada lebih banyak lagi pada masa hadapan.
SenseTime mula membuat model besar awal pada 2019. Pada pendapat kami, keseluruhan model AI telah menjadi semakin besar, jadi kami telah mengumpul banyak keupayaan dalaman, termasuk beberapa model CV dan NLP yang dibangunkan sendiri. Pada bulan April tahun ini, SenseTime membuka API beberapa model untuk kegunaan percubaan oleh rakan kongsi industri, termasuk beberapa model bahasa yang besar Pada pandangan kami, ini lebih merupakan manifestasi utama pengumpulan keupayaan teknikal asas.
Kami mengeluarkan satu siri model tahun ini Di sebalik sokongan perkhidmatan untuk pasaran adalah peranti besar kami. Kami merasakan bahawa seluruh industri kecerdasan buatan bergerak ke hadapan, seseorang perlu menyediakan infrastruktur berskala besar dan cekap ia adalah jalan yang tidak dapat dielakkan. Jika keseluruhan gelombang teknologi AI menjadi permainan yang melibatkan lebih banyak penggunaan sumber dan pengumpulan pengalaman pakar pada masa hadapan, ambang itu sebenarnya sangat tinggi, yang tidak kondusif untuk AI digunakan secara meluas dan pantas oleh industri itu, kami menilai itu pembezaan pasti akan terbentuk, dan pasti akan ada orang yang Menyediakan perkhidmatan infrastruktur, sama ada dalam bentuk memanggil model API, membuat model kecil berdasarkan ini, atau dengan cara lain, boleh dengan cepat menggunakan sumber dan keupayaan AI asas dengan ambang rendah dan kos rendah , dengan itu cepat Meningkatkan model perniagaan gelung tertutup anda sendiri.
Penempatan peralatan berskala besar SenseTime adalah untuk menjadi penyedia infrastruktur AI Hari ini kami mempunyai nod pengkomputeran kecerdasan buatan terbesar di Asia Kami mempunyai lebih daripada 5000P kuasa pengkomputeran dan juga menyediakan banyak kerjasama industri untuk membolehkan rakan kongsi kepada Kami dapat menggunakan model besar mereka untuk latihan pada peranti besar, yang mencerminkan pengumpulan mendalam SenseTime Sama ada di peringkat sumber atau di peringkat kognitif kejuruteraan pakar, sebahagian daripada keupayaan kami boleh diseragamkan dan diubah menjadi perisian dan perkhidmatan. Kami tidak boleh Untuk bahagian standard, kami boleh mengubahnya menjadi perkhidmatan klasifikasi profesional Kami berharap untuk membungkus keupayaan ini dan menyediakannya kepada seluruh industri untuk membantu pelanggan membuat model domain atau aplikasi model mereka sendiri.
Latih model besar AI menggunakan peranti SenseTime yang besar.
Sumber: 36氪
Atas ialah kandungan terperinci Yang Fan, pengasas bersama SenseTime: Peluang baharu untuk pembangunan industri AI yang dibawa oleh gelombang model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!