Rumah  >  Artikel  >  Peranti teknologi  >  Bolehkah persaingan model besar menegak menembusi "titik tersekat" data?

Bolehkah persaingan model besar menegak menembusi "titik tersekat" data?

WBOY
WBOYke hadapan
2023-05-27 16:14:34858semak imbas

Model besar AI popular di seluruh dunia, dan industri China juga telah mengilhamkan semangat baharu untuk aplikasi kecerdasan buatan.

Bolehkah persaingan model besar menegak menembusi titik tersekat data?

Memandangkan pengeluar utama mengambil bahagian dalam persaingan, pasaran terbahagi kepada dua laluan utama: umum dan menegak Perbezaan antara kedua-duanya dalam tahap parameter, senario aplikasi, model perniagaan , dsb. telah muncul secara beransur-ansur.

1. Perusahaan memasuki trek model besar menegak

Model besar AI umum seperti ChatGPT boleh mengendalikan bahasa semula jadi dalam pelbagai bidang dan senario, tetapi mereka memerlukan sumber pengkomputeran dan volum data yang besar, mempunyai menjadi projek utama pengeluar utama dalam dan luar negara.

Perusahaan jenis ini biasanya mempunyai pasukan teknikal dan sokongan kewangan yang kukuh, serta senario dan kelebihan trafiknya sendiri. Baidu, Alibaba, Tencent, Byte, Huawei dan syarikat lain telah menggunakan model besar AI am mereka sendiri dalam carian, rangkaian sosial, e-dagang, pejabat dan bidang lain.

Sebagai perbandingan, sukar bagi syarikat pemula dan syarikat dalam bidang khusus untuk memperoleh kelebihan penggerak pertama atau kelebihan pembezaan dalam persaingan sedemikian.

Model besar AI menegak hanya memfokuskan pada bidang atau senario tertentu Ia boleh menggunakan data dan pengetahuan industri untuk menyediakan penyelesaian yang lebih tepat dan cekap untuk memuaskan hati pengguna dalam bidang atau senario tertentu, seperti sebagai: perubatan, kewangan, pendidikan, dsb.

Pada masa yang sama, ia boleh menggunakan beberapa model besar AI umum sumber terbuka atau tertutup sebagai asas, dan kemudian melakukan penalaan arahan padanya untuk menyesuaikan diri dengan medan atau senario sasarannya sendiri.

Oleh itu, skala parameternya adalah satu urutan magnitud lebih rendah daripada model besar umum Jika latihan roda tenaga dan model data boleh digabungkan dengan baik, dalam beberapa bidang tertentu ia boleh berprestasi lebih baik dan kosnya lebih rendah daripada. model besar umum.

Dalam konteks ini, semakin banyak syarikat telah menyertai trek model besar menegak.

Pada 18 Mei, Sangfor mengeluarkan model keselamatan yang dibangunkan sendiri yang pertama di China, menjadi aplikasi pertama teknologi GPT dalam bidang keselamatan

Pada 5 Mei, Xueersi mengumumkan bahawa ia sedang menjalankan kerja sendiri; penyelidikan Penyelidikan dan pembangunan model matematik yang besar, bernama MathGPT, ditujukan kepada peminat matematik dan institusi penyelidikan saintifik di seluruh dunia

Pada bulan Mac, Daguan Data mengumumkan bahawa ia sedang membangunkan sistem Caozhi, memfokuskan kepada besar; model bahasa dalam bidang menegak seperti kewangan, hal ehwal kerajaan, dan pembuatan.

Senario pengkomersilan yang jelas dan kos kuasa pengkomputeran yang lebih rendah telah membuka pintu kepada pelbagai perusahaan untuk memasuki model skala besar menegak.

2. Ujian model besar menegak

Kelebihan model besar menegak ialah ia tidak cukup besar: kuasa pengkomputeran tidak cukup besar dan kesukaran algoritma adalah rendah, tetapi ini tidak bermakna semua orang boleh melakukan model besar menegak.

Seperti yang kita semua tahu, tiga elemen model AI yang besar: kuasa pengkomputeran, algoritma dan data adalah semua "suapan" yang memberi suapan kepada AI.

Mari kita bercakap tentang kuasa pengkomputeran dahulu.

Sebab model besar "besar" adalah kerana bilangan parameter yang besar dan jumlah data yang besar. Jumlah pengiraan yang diperlukan untuk model AI yang besar adalah kira-kira bersamaan dengan produk jumlah parameter dan jumlah data.

Dalam tempoh lima tahun yang lalu, bilangan parameter model AI yang besar telah meningkat mengikut susunan magnitud hampir setiap tahun Contohnya, bilangan parameter GPT-4 ialah 16 kali ganda daripada GPT-3 , mencecah 1.6 trilion.

Dengan pengenalan data berbilang modal seperti imej, audio dan video, jumlah data dalam model besar juga berkembang pesat. Ini bermakna jika anda ingin bermain dengan model besar, anda mesti mempunyai kuasa pengkomputeran yang besar.

Sebagai rujukan, kos latihan dan inferens bagi set model menegak yang besar boleh menjadi susunan magnitud yang lebih rendah daripada model Open AI dengan skala parameter yang sama dalam senario teknologi vertebral manusia digital, seperti Qiyuan Wang Sijie , pengarah strategik dunia, pernah menyebut: Mula-mula bina model menegak yang lebih kecil (seperti berpuluh bilion parameter, berbilion parameter), supaya roda tenaga data dan latihan model boleh digabungkan dengan baik daripada Model Menegak dalam beberapa bidang AI lebih berkesan dan lebih murah.

Walaupun keperluan kuasa pengkomputeran model menegak besar jauh lebih rendah daripada model besar umum, pelaburan dalam infrastruktur kuasa pengkomputeran masih akan menghalang beberapa syarikat kecil daripada masuk.

Mari kita bincangkan tentang algoritma.

Antara ketiga-tiga elemen tersebut, kesukaran pembangunan algoritma adalah agak rendah Setiap syarikat mempunyai algoritma laluan sendiri untuk merealisasikan model besar, dan terdapat banyak projek sumber terbuka yang boleh digunakan sebagai rujukan paling mudah untuk memendekkan atau menutup jurang.

Akhir sekali, mari bercakap tentang data.

Data berkualiti tinggi ialah kunci untuk membantu latihan dan penalaan AI. Data yang cukup dan kaya ialah asas model AI yang besar.

OpenAI sebelum ini mendedahkan bahawa untuk AI bercakap dengan lancar seperti manusia, pembangun menyediakan GPT-3.5 dengan sehingga 45TB korpus teks, bersamaan dengan 4.72 juta set "Empat Klasik Hebat" China. Sumber korpus ini datang daripada pelbagai sumber, termasuk Wikipedia, artikel dalam talian, buku dan jurnal, dsb., malah platform kod sumber terbuka Github disertakan.

Tetapi apabila memfokuskan kepada industri yang dipecah bahagi, tidak begitu mudah untuk mendapatkan data.

Industrial Securities secara terbuka menyatakan bahawa untuk melatih model industri berskala besar profesional, data industri berkualiti tinggi dan data awam adalah penting.

Mengenai pasaran data domestik, menurut pendedahan rasmi daripada Suruhanjaya Pembangunan dan Pembaharuan Negara, sumber data kerajaan negara kita menyumbang lebih daripada 3/4 daripada sumber data negara, tetapi skala keterbukaan adalah kurang daripada 10% daripada Amerika Syarikat, dan skala yang boleh digunakan oleh individu dan perusahaan Ia adalah kurang daripada 7% di Amerika Syarikat.

Dan data industri ialah data domain peribadi yang sangat teras Semakin besar jumlah data domain peribadi dan semakin tinggi kualitinya, semakin bernilai.

Jika syarikat perubatan mempunyai data perubatan dan data kes yang kaya, ia mempunyai keupayaan untuk membangunkan produk model menegak berskala besar yang serupa dengan produk dalam industri perubatan. Data projek dalam industri pembinaan, data profil pengguna dalam industri kewangan dan data kedudukan kapal dalam industri perkapalan ialah semua sumber data utama yang menyediakan sokongan untuk model menegak yang besar.

Walau bagaimanapun, data domain peribadi ini semuanya berada di tangan perusahaan itu sendiri, dan demi keselamatan dan pematuhan data, kebanyakan institusi memerlukan penempatan tempatan sebelum mereka mencuba latihan model besar. Sukar untuk membayangkannya perusahaan akan menggunakan mereka sendiri Data teras diberikan kepada orang lain untuk latihan.

Selain itu, cara melabel dan menganotasi data secara munasabah juga sangat penting. Tulis semula perkataan asal sebagai: Mengelaskan data pada tahap yang berbeza boleh meningkatkan kecekapan produk, dan data berlabel yang sangat tepat boleh meningkatkan lagi prestasi profesional model besar.

Walau bagaimanapun, pada peringkat ini, kos bagi industri menegak untuk mendapatkan data anotasi berketepatan tinggi adalah agak tinggi, dan data industri profesional yang kurang dalam pangkalan data awam, jadi pembinaan model menegak yang besar sangat menuntut.

Secara amnya, jika anda ingin membina model menegak yang besar, kepentingan data jauh melebihi kuasa pengkomputeran dan algoritma.

Data telah menjadi "titik tersekat" bagi perusahaan untuk menembusi model menegak yang besar.

3. Jadi selangkah ke hadapan dengan data industri di tangan

Model skala besar menegak menekankan aplikasi dan logik senario pertama, dan di China, mereka menekankan nilai bahagian industri.

Di satu pihak, di bawah gelombang kecerdasan semasa di China, terdapat permintaan pasaran yang luas untuk inovasi digital di sisi industri sebaliknya, di bawah ekosistem toB, amalan berdasarkan aplikasi menegak adalah juga kondusif kepada pembentukan roda tenaga data Roda tenaga dengan pemandangan.

Premis semua ini ialah syarikat yang melancarkan model menegak yang besar telah mewujudkan halangan teknikal dan parit dalam industri, iaitu kelebihan daya saing "tiada siapa yang mempunyai apa yang saya ada".

Nampaknya syarikat yang telah terlibat secara mendalam dalam industri menegak selama bertahun-tahun mungkin mempunyai peluang yang lebih besar untuk menang.

Syarikat ini mempunyai pengumpulan yang mendalam dalam bidang pemprosesan data, model berskala besar dan graf pengetahuan, serta mempunyai kelebihan yang lebih besar dalam mengoptimumkan model berskala besar. Pada masa yang sama, mereka mempunyai pemahaman yang mendalam tentang keperluan pelanggan B dan senario pelaksanaan, yang boleh memastikan kredibiliti dan kebolehpercayaan produk model besar menegak dan memenuhi keperluan peringkat perusahaan untuk keselamatan, kebolehkawalan dan pematuhan.

Pada masa ini, beberapa model menegak besar telah diuji dalam senario kewangan, pendidikan, perubatan, pemasaran dan lain-lain.

Sebagai contoh, Bloomberg menggunakan sumber data kewangannya sendiri yang kaya dan melatih semula berdasarkan rangka kerja GPT-3 sumber terbuka untuk membangunkan model besar khusus kewangan BloombergGPT

NetEase Youdao berorientasikan pendidikan senario. Pelancaran model seperti ChatGPT "Ziyue" yang dibangunkan sendiri;

Hanya beberapa minggu selepas keluaran ChatGPT, Google mengumumkan Med-PaLM, model bahasa perubatan berskala besar yang direka khusus untuk menjawab penjagaan kesihatan- soalan berkaitan.... ..

Apabila lebih banyak syarikat menyertai, model berskala besar dalam bidang menegak akan muncul secara meluas dalam pelbagai industri dan subbahagian. Dan syarikat-syarikat yang boleh mengkhusus dan memahami bidang menegak, menggunakan data berkualiti tinggi untuk terus mengoptimumkan model, berjalan melalui gelung tertutup perniagaan dan membina ekosistem perindustrian akhirnya akan menjadikan rantaian nilai cukup panjang.

Atas ialah kandungan terperinci Bolehkah persaingan model besar menegak menembusi "titik tersekat" data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam