Rumah  >  Artikel  >  Peranti teknologi  >  Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

PHPz
PHPzke hadapan
2023-06-08 11:38:451153semak imbas

#Artikel ini dihasilkan oleh "Pelan Insentif Asal" Pengurus Produk.

Walaupun model AI berskala besar kini sangat popular dan setiap perusahaan mahukan sebahagian daripadanya, algoritma dan data yang terlibat dalam merealisasikan proses ini tidak mudah untuk difahami. Antaranya, penghantaran dan pengurusan data adalah masalah besar. Artikel ini memfokuskan pada kesesakan latihan aplikasi AI, meringkaskan kesukaran latihan AI dan menggabungkannya dengan laporan analisis IDC untuk menyimpulkan bahawa "data" adalah kesesakan terbesar, dan mempertimbangkan penyelesaian kepada masalah ini.

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

1. Latar belakang produk

“Baru-baru ini, terdapat suara-suara yang membincangkan AI sekali lagi Berbeza dengan sikap tunggu dan lihat terhadap AI dalam dua tahun yang lalu, ramai orang mengatakan bahawa dengan aplikasi ChatGPT, era AI benar-benar tiba. dan pelajar produk dan operasi semuanya sibuk Kami faham apa itu ChatGPT, apa itu Stable Diffusion, dsb., tetapi jurutera algoritma mengalami sakit kepala gila dan mengadu gila Pemimpin meminta mereka membina model besar secepat mungkin, memperbaikinya penunjuk model algoritma secepat mungkin, dan berkhidmat kepada perniagaan Setelah melalui pasukan algoritma, saya mendengar Zhang Gong dan Hu Perbualan berikut antara pekerja:

Gong Zhang: Abang Hu, bagaimanakah latihan model anda?

Gong Hu: Malangnya, sukar untuk dijelaskan dalam satu ayat Tiada data akhirnya saya menyerahkan data itu kepada jabatan perniagaan, tetapi sama ada mereka tidak dapat mengumpulnya, atau data yang mereka kumpulkan semuanya berbeza dan boleh. tidak digunakan?

Gong Zhang: Siapa yang tidak? Begitu juga dengan saya Baru-baru ini, gambar dan video pelanggan menambah sehingga lebih daripada 10 T. Kami telah diminta untuk menghantarnya sendiri data.

Gong Hu berkata bahawa jika syarikat itu boleh membina platform data yang membolehkan kami mendapatkan data dengan cepat dan mengurus data, ia akan menjadi lebih mudah untuk kami menggunakan data dalam kerja harian kami. ”

Selepas mendengar perbualan di atas, saya mendapat idea Platform pengurusan data yang saya bina baru-baru ini untuk pelanggan berdasarkan idea menganyam data hanya dapat menyelesaikan masalah mereka, jadi saya dengan cepat memberi mereka pengenalan produk terperinci dan memberitahu mereka. cara menggunakannya. Konsep reka bentuk "tenunan data" membina platform pengurusan data untuk membantu pengguna mengatasi kesesakan data dalam latihan aplikasi AI.

2. Kesukaran dalam aplikasi latihan AI

Tidak termasuk isu subjektif kakitangan, kami meringkaskan kesukaran objektif latihan aplikasi AI, yang boleh diringkaskan kepada tiga perkara berikut:

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Data berkualiti tinggi: Untuk mencapai hasil yang baik dalam latihan algoritma, syarat pertama ialah data berkualiti tinggi Walau bagaimanapun, cara mendapatkan data berkualiti tinggi mempunyai kesukaran berikut:

  • Kepelbagaian data: Terdapat data berstruktur/tidak berstruktur dalam banyak format, dan data yang disediakan oleh sistem yang berbeza tidak mempunyai standard bersatu.
  • Pengedaran data: Banyak data perniagaan disimpan secara diskret dan tidak mempunyai platform pengurusan data yang bersatu Adalah sukar untuk mendapatkan data sebelum latihan aplikasi.
  • Anotasi data: Data boleh diperolehi serta-merta, tetapi sejumlah besar data perniagaan perlu diberi anotasi sebelum ia boleh digunakan, dan anotasi memakan masa dan intensif buruh.

Kuasa pengkomputeran yang cekap: merujuk kepada fakta bahawa apabila melatih model, jumlah kuasa pengkomputeran yang besar biasanya diperlukan Pada masa yang sama, sukar untuk menggunakan kuasa pengkomputeran dengan cekap

  • Pada bila-bila masa, model besar dipromosikan secara beransur-ansur, saiz model semakin besar, dan permintaan untuk kuasa pengkomputeran juga meningkat dengan pesat.
  • Apabila storan data adalah diskret, akses kepada data akan menjadi perlahan Walaupun dengan kuasa pengkomputeran kelompok, apabila keselarian tidak mungkin, kuasa pengkomputeran tidak akan digunakan dengan cekap.

Rangka kerja matang: merujuk kepada aplikasi algoritma yang memerlukan rangka kerja algoritma matang, stabil dan sangat berskala

  • Rangka kerja aplikasi: Pada masa ini terdapat banyak rangka kerja algoritma pembelajaran mendalam di dalam dan luar negara Untuk penyelidikan algoritma (Pytorch) dan aplikasi industri (Tensorflow), anda perlu memilih rangka kerja yang berbeza.
  • Penukaran data: Oleh kerana rangka kerja yang berbeza dan bahasa yang berbeza digunakan, walaupun data berkualiti tinggi disediakan, ia perlu disesuaikan dengan cepat kepada bahasa dan rangka kerja latihan yang berbeza.

Ringkasan: Daripada analisis tiga kesukaran dalam latihan aplikasi AI, semuanya berkaitan dengan data Oleh itu, jika masalah data dapat diselesaikan, ia dapat membantu latihan aplikasi AI dengan berkesan melaluinya kesesakan.

3. Adakah data merupakan hambatan bagi aplikasi AI?

Walaupun meringkaskan data dari sisi aplikasi adalah hambatan latihan aplikasi AI, berapa ramai pengguna yang berpendapat demikian? Sekeping data diperlukan untuk menggambarkan.

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Kedudukan cabaran utama dalam aplikasi kecerdasan buatan

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Berapa banyak kerja yang dilaburkan dalam penyediaan data semasa pembangunan model kecerdasan buatan

Nota: Data datang daripada laporan statistik IDC

Ia boleh dilihat daripada statistik bahawa 29% pengguna percaya bahawa aplikasi kecerdasan buatan kekurangan data latihan dan ujian, dan 85% pengguna percaya bahawa sekurang-kurangnya separuh daripada beban kerja dibelanjakan untuk menyediakan data.

Ringkasan: Memandangkan data telah terbukti sebagai hambatan bagi aplikasi AI, anda boleh mempertimbangkan untuk mencari titik masuk daripada data untuk menyediakan piawaian bersatu dan akses pantas kepada kumpulan besar sumber data yang tersedia Lakukan perancangan produk untuk kedudukan.

4. Reka Bentuk Produk

Selepas mencari data sebagai titik masuk, kami memikirkan cara membina produk berasaskan data Berdasarkan analisis di atas, kami dapati bahawa kami perlu menyelesaikan tiga masalah berasaskan data dalam produk kami:

  • Soalan 1: Storan data, cuba untuk tidak menukar lokasi storan data sumber dan meminimumkan kos penyimpanan data.
  • Soalan 2: Akses pantas, daripada pertanyaan data awal kepada penaakulan data, cari dengan pantas data yang diperlukan.
  • Soalan 3: Menyatukan piawaian untuk menyeragamkan data kompleks untuk aplikasi mudah.

Berdasarkan platform pengurusan data tradisional, kami mengguna pakai konsep "tenunan data + graf pengetahuan" untuk menjalankan reka bentuk inovatif untuk menangani masalah di atas. Titik terobosan bagi setiap isu adalah seperti berikut:

  • Soalan 1: Reka bentuk berdasarkan idea anyaman data
  • Soalan 2: Reka bentuk berdasarkan idea graf pengetahuan
  • Soalan 3: Menyediakan perkhidmatan luaran berdasarkan platform data bersatu

Langkah seterusnya ialah reka bentuk terperinci produk, yang akan diperkenalkan daripada kedudukan produk, seni bina aplikasi, daya saing yang berbeza dan laluan pembinaan.

1. Seni Bina Produk

1) Kedudukan produk

Menggunakan idea menganyam data untuk menyediakan platform pengurusan data gaya graf pengetahuan untuk memberi perkhidmatan kepada pelanggan yang memerlukan data berkualiti tinggi.

Nota: Walaupun matlamat utama adalah untuk menyelesaikan kesesakan data latihan aplikasi AI, dari perspektif perancangan produk, kami telah mengembangkan senario pengguna, dan sesiapa yang memerlukan perkhidmatan data ialah pengguna sasaran produk ini.

2) Seni bina aplikasi produk

Daripada lapisan data ke lapisan aplikasi produk, kami mereka bentuk seni bina produk berikut:

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Lapisan data: menyokong akses kepada jenis data yang berbeza, serta data berstruktur dan data tidak berstruktur Terdapat banyak jenis data untuk latihan AI, terutamanya aplikasi berbilang modal yang memerlukan berbilang jenis data.

Lapisan storan: Memandangkan sifat diskret data, adalah perlu untuk menyokong penyimpanan data di lokasi yang berbeza dan menyokong akses daripada data awan kepada data tempatan.

Platform pengurusan data: Produk teras yang akan direka bentuk kali ini terutamanya merangkumi empat bahagian:

  1. Tadbir urus data: Modul biasa ditemui dalam platform pengurusan data tradisional, menyediakan fungsi seperti analisis data, pembersihan dan definisi peraturan.
  2. Keselamatan data: Ia juga merupakan modul tradisional dan menyediakan fungsi yang berkaitan dengan keselamatan data, seperti penyahpekaan data, penghantaran data selamat, dsb.
  3. Storan maya data & cache yang diedarkan: Di sini, idea menganyam data digunakan untuk menganyam-grid data daripada platform yang berbeza untuk membentuk paparan data Pada masa yang sama, hanya maklumat logik data yang disimpan dimaya tanpa metadata. Penghijrahan dan penyalinan data mengurangkan kos penyimpanan, walau bagaimanapun, untuk mendapatkan data dengan cepat, cache yang diedarkan disediakan dalam reka bentuk untuk menyimpan data yang kerap diakses, meningkatkan kelajuan I/O dan keselarian data untuk latihan algoritma AI, dan memaksimumkan Meningkatkan kecekapan kluster pengkomputeran.
  4. Graf pengetahuan: Membersihkan data, mentakrifkan peraturan, menyimpannya dalam bentuk graf pengetahuan tiga kali ganda, dan menyediakan perkhidmatan pertanyaan dalam bentuk graf pengetahuan Kondusif untuk mencari alasan, yang boleh dilakukan melalui a data Satu entiti tertentu berkaitan dengan data entiti lain Contohnya, jika anda menanyakan data video filem, anda boleh mencari "Orang ramai sedang menuju ke arah memalukan".囧" akan dikaitkan. Pertanyaan melalui penaakulan perkaitan boleh membantu pengguna mengekstrak data yang diperlukan dengan pantas daripada platform.

Perkhidmatan data: Selepas mereka bentuk platform, adalah perlu untuk menempah saluran keluar untuk perkhidmatan luaran Bermula dari kedudukan produk, ia tertumpu terutamanya kepada pelanggan toB, jadi perlu mempertimbangkan kedua-dua perkhidmatan visual dan perkhidmatan API. .

  • Perkhidmatan API/SDK: Untuk syarikat atau pengguna yang mempunyai keupayaan teknikal, seperti kesesakan aplikasi latihan AI yang ingin diselesaikan oleh artikel ini, anda boleh terus menyepadukan platform AI dengan perkhidmatan API platform data untuk mendapatkan data yang diperlukan dan membersihkannya Data digunakan untuk latihan model. Nota: Secara amnya, platform latihan AI memerlukan data beranotasi, jadi anda boleh menyambungkan platform anotasi dahulu dan kemudian terus menghantar data ke platform latihan AI.
  • Pertanyaan visual: Selain mempertimbangkan dok tahap teknikal, sudah tentu, kami juga perlu mempertimbangkan gelagat pengguna perniagaan seperti menanya data dan memuat turun data pada platform, seperti pengurus produk dan pengurus operasi yang mereka perlukan bergantung pada pertanyaan visual yang disediakan oleh platform itu sendiri Selepas mendapatkan dan memuat turun data, , diimport ke platform perniagaan lain untuk pemprosesan dan pengeluaran, di mana pertanyaan visual menggunakan struktur graf dan menggunakan gaya Tianyancha sebagai rujukan data tertentu, data yang berkaitan dipersembahkan pada masa yang sama untuk memudahkan inferens dan pertanyaan pengguna.

Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI

Ilustrasi: Tangkapan skrin Tianyancha hanya untuk rujukan pembelajaran

2. Pengkomersilan

Setelah produk dilancarkan, pengkomersilan tidak tersedia, jadi hala tuju pengkomersilan perlu dipertimbangkan dengan jelas semasa peringkat perancangan produk, dan tiga aspek utama berikut harus dipertimbangkan:

1) Kandungan jualan

Untuk pelanggan B-end, kami menyediakan dua jenis kandungan jualan, termasuk produk standard "platform pengurusan data" dan "penyelesaian teknikal".

  • Produk standard: Bagi pengguna tanpa platform pengurusan data, pengguna hanya perlu membeli produk standard kami, mengakses data dan kemudian menggunakannya dalam perniagaan mereka, sedia untuk digunakan.
  • Penyelesaian teknikal: Selepas kesan trend transformasi digital, ramai pelanggan perusahaan bahagian B lebih kurang mempunyai platform pengurusan data mereka sendiri Oleh itu, satu lagi titik jualan toB ialah menjual penyelesaian teknikal yang matang, yang akan memanfaatkan sedia ada perusahaan. Pada masa ini, kami perlu mengubah produk pelanggan dari lapisan bawah kepada lapisan perkhidmatan berdasarkan idea reka bentuk "tenunan data + graf pengetahuan".

2) Kaedah jualan

Dua model jualan biasa untuk produk B-end ialah "kerjasama saluran" dan "jualan langsung", dan kaedah ini juga digunakan dalam produk ini.

  • Kerjasama saluran: Pilih dua jenis kerjasama saluran, satu ialah ejen di wilayah dan bandar, yang akan mempromosikannya secara tempatan, satu lagi ialah model ISV, cari ejen berpusat dengan keupayaan teknikal, dan integrasikan platform pengurusan data dengan produk mereka Kerjasama; boleh melengkapi kelebihan masing-masing dan mempromosikannya ke dunia luar bersama-sama.
  • Jualan langsung: Jualan langsung produk melalui pelancaran produk, promosi pengiklanan, lawatan pelanggan, dsb.

3) Kelebihan pembezaan

Memandangkan ia adalah platform pengurusan data berdasarkan idea reka bentuk baharu, semasa proses penjualan produk, ia perlu mencerminkan kelebihannya yang berbeza daripada platform pengurusan data tradisional untuk mengejar dan menarik pengguna, Kami boleh merumuskannya sebagai berikut 3 Kelebihan:

  • Tenunan data: Produk ini menggunakan idea tenunan data untuk pengurusan data dan menggunakan storan virtualisasi data untuk mengurangkan kos penyimpanan fizikal data pada masa yang sama, ia menggunakan caching data untuk mengurangkan kelewatan akses mendapatkan data semasa latihan aplikasi AI.
  • Keupayaan AI: Tidak seperti platform data tradisional yang mencari melalui pelbagai keadaan, produk ini dipersembahkan secara langsung dalam bentuk paparan graf pengetahuan Pengguna hanya boleh memasukkan syarat mudah, dan sistem boleh mengembalikan topologi perhubungan data yang berkaitan. , untuk merealisasikan "mencari orang melalui data".
  • Produk standard yang matang: Walaupun anda boleh menjual penyelesaian teknikal, sukar untuk menarik perhatian pelanggan tanpa produk standard yang matang Oleh itu, tidak seperti pengeluar tradisional yang menjual platform pengurusan data yang besar dan komprehensif, kami menjual produk sehenti "kecil tetapi halus". . Platform pengurusan data pintar.
3

Kematangan produk juga memerlukan laluan pembinaan yang berterusan Semasa proses pembinaan produk ini, ia berdasarkan "produk penggilap projek" dan dibina dalam dua peringkat utama.

  • Penyampaian projek, pengumpulan teknologi: Dengan menjalankan 1/2 projek data yang diswastakan, idea tenunan data dan pembinaan graf pengetahuan dicetuskan dalam projek, dan pemendakan teknologi dicapai.
  • Pelaksanaan produk dan promosi jenama: produk abstrak daripada projek sebenar dan laksanakan secara berulang Selepas membina produk, jenamakannya dan promosikannya secara luaran.
5

Artikel ini memfokuskan pada kesesakan latihan aplikasi AI, meringkaskan kesukaran latihan AI dan menggabungkannya dengan laporan analisis IDC untuk menyimpulkan bahawa "data" adalah kesesakan terbesar dan mempertimbangkan penyelesaian kepada masalah ini.

Lakukan reka bentuk transformasi produk berdasarkan konsep tenunan data dan graf pengetahuan, dan perkenalkan secara terperinci platform pengurusan data pintar "orang yang mencari data" daripada perspektif kedudukan produk, seni bina produk, senario aplikasi, dsb. , dan juga memperkenalkan susulan produk Dengan idea promosi perniagaan dan laluan pembinaan, kami boleh membantu pelanggan dengan senario aplikasi data, seperti platform latihan AI, platform anotasi data, dan juga pelanggan yang perlu mengubah dan meningkatkan pengurusan data tradisional produk.

Pada masa hadapan, kami akan meneroka idea mengembangkan jalinan data ke dalam proses sebenar latihan selari model untuk mendapatkan lebih banyak kemungkinan kecekapan data.

Kolumnis

Eric_d, Kolumnis Pengurus Produk untuk Semua Orang. Saya berminat dengan AI, data besar dan bidang lain. Saya mempunyai analisis keperluan yang sangat baik, proses produk dan kemahiran reka bentuk seni bina. Saya juga suka mendaki.

Artikel ini dihasilkan oleh "Pelan Insentif Asal" Pengurus Produk.

Gambar tajuk datang daripada Unsplash, berdasarkan lesen CC0.

Atas ialah kandungan terperinci Aplikasi industri AI: Tenunan data membantu penemuan latihan aplikasi AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:sohu.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam