Rumah  >  Artikel  >  Peranti teknologi  >  Aplikasi algoritma AI dalam tadbir urus data besar

Aplikasi algoritma AI dalam tadbir urus data besar

PHPz
PHPzke hadapan
2023-04-12 13:37:031713semak imbas

Aplikasi algoritma AI dalam tadbir urus data besar

Artikel ini terutamanya berkongsi pengalaman Datacake dalam menggunakan algoritma AI dalam tadbir urus data besar. Perkongsian ini dibahagikan kepada lima bahagian: bahagian pertama menjelaskan hubungan antara data besar dan data besar bukan sahaja boleh berkhidmat kepada AI, tetapi juga boleh menggunakan AI untuk mengoptimumkan perkhidmatannya sendiri. Kedua-duanya saling menyokong dan bergantung memperkenalkan penggunaan Amalan aplikasi model AI secara komprehensif menilai kesihatan tugasan data besar, menyediakan asas kuantitatif untuk tadbir urus data seterusnya bahagian ketiga memperkenalkan amalan aplikasi menggunakan model AI untuk secara bijak mengesyorkan tugas Spark menjalankan konfigurasi parameter, mencapai matlamat; mempertingkatkan penggunaan sumber awan; Bahagian keempat memperkenalkan amalan mengesyorkan enjin pelaksanaan tugas secara bijak mengikut model dalam senario pertanyaan SQL, bahagian kelima menantikan senario aplikasi AI dalam keseluruhan kitaran hayat data besar.

1 Data Besar dan AI

Aplikasi algoritma AI dalam tadbir urus data besar

Konsep umum ialah pengkomputeran awan mengumpul dan menyimpan data besar-besaran untuk membentuk data besar kemudian melalui perlombongan dan pembelajaran data besar, model AI dibentuk lagi. Konsep ini secara diam-diam menganggap bahawa data besar berfungsi untuk AI, tetapi mengabaikan fakta bahawa algoritma AI juga boleh memberi suapan semula kepada data besar Terdapat hubungan dua hala, saling menyokong dan bergantung antara mereka.

Aplikasi algoritma AI dalam tadbir urus data besar

Seluruh kitaran hayat data besar boleh dibahagikan kepada enam peringkat, setiap peringkat menghadapi Untuk beberapa masalah, penggunaan algoritma AI yang sesuai boleh membantu menyelesaikan masalah ini.

Pengumpulan data: Pada peringkat ini, lebih banyak perhatian akan diberikan kepada kualiti, kekerapan dan keselamatan pengumpulan data, seperti Sama ada data yang dikumpul lengkap, sama ada kelajuan pengumpulan data terlalu cepat atau terlalu perlahan, sama ada data yang dikumpul telah dinyahpekakan atau disulitkan, dsb. Pada masa ini, AI boleh memainkan beberapa peranan, seperti menilai rasionaliti pengumpulan log berdasarkan aplikasi yang serupa, dan menggunakan algoritma pengesanan anomali untuk mengesan peningkatan atau penurunan mendadak dalam volum data.

Penghantaran data: Peringkat ini memberi lebih perhatian kepada ketersediaan, integriti dan keselamatan data dan AI boleh digunakan Algoritma digunakan untuk melakukan beberapa diagnosis kesalahan dan pengesanan pencerobohan.

Storan data: Pada peringkat ini, kami memberi lebih perhatian sama ada struktur storan data adalah munasabah dan sama ada penggunaan sumber cukup rendah Sama ada ia cukup selamat, dsb., algoritma AI juga boleh digunakan untuk melakukan beberapa penilaian dan pengoptimuman.

Pemprosesan data: Peringkat ini adalah peringkat yang mempunyai kesan dan pengoptimuman pendapatan yang paling jelas Isunya ialah Untuk meningkatkan kecekapan pemprosesan data dan mengurangkan penggunaan sumber, AI boleh dioptimumkan dari pelbagai titik permulaan.

Pertukaran data: Terdapat lebih banyak kerjasama antara perusahaan, yang akan melibatkan isu Keselamatan data. Algoritma juga boleh digunakan dalam bidang ini Sebagai contoh, pembelajaran bersekutu yang popular boleh membantu berkongsi data dengan lebih baik dan lebih selamat.

Pemusnahan data: Adalah mustahil untuk menyimpan data sahaja tanpa memadamkannya, jadi anda perlu mempertimbangkan bila untuk memadamnya data, sama ada terdapat risiko. Berdasarkan peraturan perniagaan, algoritma AI boleh membantu dalam menentukan masa dan kesan berkaitan pemadaman data.

Secara keseluruhannya, pengurusan kitaran hayat data mempunyai tiga matlamat utama: kecekapan tinggi, kos rendah dan keselamatan. Pendekatan masa lalu adalah bergantung pada pengalaman pakar untuk merumuskan beberapa peraturan dan strategi, yang mempunyai kelemahan yang jelas, seperti kos tinggi dan kecekapan rendah. Penggunaan algoritma AI yang betul boleh mengelakkan kelemahan ini dan memberi maklum balas kepada pembinaan perkhidmatan asas data besar.

2. Penilaian kesihatan tugasan data besar

Dalam Teknologi Qingzi, terdapat beberapa senario aplikasi yang telah dilaksanakan kesihatan tugas.

Aplikasi algoritma AI dalam tadbir urus data besar

Pada platform data besar, beribu-ribu tugasan dijalankan setiap hari. Walau bagaimanapun, banyak tugas hanya kekal dalam peringkat menghasilkan nombor yang betul, dan tiada perhatian diberikan kepada masa berjalan tugas, penggunaan sumber, dsb., mengakibatkan kecekapan rendah dan pembaziran sumber dalam banyak tugas.

Walaupun pembangun data mula memberi perhatian kepada kesihatan tugas, adalah sukar untuk menilai dengan tepat sama ada tugas itu sihat atau tidak. Oleh kerana terdapat banyak penunjuk berkaitan tugas, seperti kadar kegagalan, memakan masa, penggunaan sumber, dll., dan terdapat perbezaan semula jadi dalam kerumitan tugas yang berbeza dan jumlah data yang diproses, adalah jelas tidak munasabah untuk hanya memilih nilai mutlak penunjuk tertentu sebagai kriteria penilaian bagi.

Tanpa kesihatan tugasan yang dikira, sukar untuk menentukan tugasan yang tidak sihat dan memerlukan tadbir urus, apatah lagi di mana masalahnya dan di mana untuk memulakan tadbir urus tadbir urus adalah Saya tidak tahu dengan tepat sejauh mana keberkesanannya, malah mungkin terdapat situasi di mana satu penunjuk bertambah baik tetapi penunjuk lain merosot.

Keperluan: Menghadapi masalah di atas, kami amat memerlukan penunjuk kuantitatif untuk menggambarkan kesihatan keseluruhan dengan tepat situasi misi. Merumuskan peraturan secara manual adalah tidak cekap dan tidak lengkap, jadi pertimbangkan untuk menggunakan kuasa model pembelajaran mesin. Matlamatnya ialah model boleh memberikan skor kuantitatif tugas dan kedudukannya dalam pengedaran global, dan memberikan masalah utama dan penyelesaian tugas.

Untuk memenuhi keperluan ini, penyelesaian modul berfungsi kami adalah untuk memaparkan maklumat utama semua tugasan di bawah nama pemilik pada antara muka pengurusan, seperti penilaian, tugasan kos, dan kadar penggunaan CPU, penggunaan memori, dsb. Dengan cara ini, kesihatan tugasan adalah jelas sepintas lalu, memudahkan pemilik tugas untuk menguruskan tugas itu nanti.

Aplikasi algoritma AI dalam tadbir urus data besar

Kedua, untuk penyelesaian model fungsi pemarkahan, kami menganggapnya sebagai masalah pengelasan. Secara intuitif, pemarkahan tugas jelas merupakan masalah regresi dan harus diberi sebarang nombor nyata antara 0 dan 100. Walau bagaimanapun, ini memerlukan bilangan sampel yang mencukupi, dan pelabelan manual adalah mahal dan tidak boleh dipercayai.

Oleh itu kami mempertimbangkan untuk menukar masalah kepada masalah pengelasan, dan kebarangkalian kelas yang diberikan oleh model pengelasan boleh dipetakan selanjutnya kepada skor nyata. Kami membahagikan tugas kepada dua kategori: tugas baik 1 dan tugas buruk 0, yang dilabelkan oleh jurutera data besar. Apa yang dipanggil tugas yang baik biasanya merujuk kepada tugas yang mengambil masa yang singkat dan menggunakan sumber yang lebih sedikit di bawah volum dan kerumitan tugas yang sama.

Aplikasi algoritma AI dalam tadbir urus data besar

Proses latihan model ialah:

Pertama ialah penyediaan sampel , kami Sampel datang daripada data tugasan menjalankan sejarah Ciri-ciri sampel termasuk masa berjalan, sumber yang digunakan, sama ada pelaksanaan gagal, dll. Label sampel ditandakan oleh jurutera data besar ke dalam kategori baik dan buruk berdasarkan peraturan atau pengalaman. Kemudian model itu boleh dilatih Kami telah mencuba model LR, GBDT, XGboost dan lain-lain kedua-dua teori dan amalan telah membuktikan bahawa XGboost mempunyai hasil pengelasan yang lebih baik. Model akhirnya akan mengeluarkan kebarangkalian bahawa tugas itu adalah "tugas yang baik".

Aplikasi algoritma AI dalam tadbir urus data besar

Selepas latihan, 19 ciri telah disaring daripada hampir 50 ciri asal 19 ciri ini pada asasnya boleh menentukan sama ada sesuatu tugasan adalah tugas yang baik. Sebagai contoh, kebanyakan tugas dengan bilangan kegagalan yang tinggi dan penggunaan sumber yang rendah tidak akan mendapat markah terlalu tinggi, yang pada asasnya konsisten dengan perasaan subjektif manusia.

Aplikasi algoritma AI dalam tadbir urus data besar

Selepas menggunakan model untuk menjaringkan tugasan, anda dapat melihat bahawa markah di bawah 0 hingga 30 adalah tidak sihat dan mendesak. Tugasan yang memerlukan pengurusan; Dengan cara ini, dengan penunjuk kuantitatif, pemilik tugas boleh dibimbing untuk menguruskan beberapa tugas secara aktif, dengan itu mencapai matlamat untuk mengurangkan kos dan meningkatkan kecekapan.

Selepas menggunakan model, kami telah membawakan kepada kami faedah berikut:

① Pertama, pemilik tugas boleh melakukan sesuatu tentang kesihatan tugas di bawah namanya. Anda boleh mengetahui sama ada tugas memerlukan pengurusan melalui markah dan kedudukan; >

③ Faedah dan penambahbaikan yang dicapai selepas pengurusan tugasan selesai juga boleh dikira melalui markah.

3. Pelarasan parameter pintar tugas Spark

Senario aplikasi kedua ialah pelarasan parameter pintar bagi tugas Spark. Tinjauan Gartner mendedahkan bahawa 70% sumber awan yang digunakan oleh pengguna awan adalah sia-sia. Apabila memohon sumber awan, ramai orang mungkin memohon lebih banyak sumber untuk memastikan pelaksanaan tugas yang berjaya, yang akan menyebabkan pembaziran yang tidak perlu. Terdapat juga ramai orang yang menggunakan konfigurasi lalai semasa membuat tugasan, tetapi sebenarnya ini bukan konfigurasi yang optimum. Jika anda boleh mengkonfigurasinya dengan berhati-hati, anda boleh mencapai hasil yang sangat baik, yang bukan sahaja dapat memastikan kecekapan dan kejayaan operasi, tetapi juga menjimatkan banyak sumber. Walau bagaimanapun, konfigurasi parameter tugas meletakkan permintaan yang tinggi kepada pengguna Selain memahami maksud item konfigurasi, ia juga perlu untuk mempertimbangkan kesan perkaitan antara item konfigurasi. Walaupun bergantung pada pengalaman pakar adalah sukar untuk mencapai keoptimuman, dan strategi berasaskan peraturan sukar untuk disesuaikan secara dinamik.

Aplikasi algoritma AI dalam tadbir urus data besar

Ini menimbulkan keperluan model ini diharapkan dapat mengesyorkan konfigurasi parameter optimum untuk operasi tugasan, supaya masa berjalan asal tugasan itu kekal. tidak berubah. Di bawah premis untuk menambah baik penggunaan sumber awan tugas.

Untuk modul fungsi pelarasan parameter tugas, penyelesaian yang kami reka termasuk dua situasi: yang pertama adalah untuk orang yang sudah dalam talian Untuk tugasan yang telah dijalankan untuk satu tempoh masa, model mesti boleh mengesyorkan parameter konfigurasi yang paling sesuai berdasarkan status sejarah menjalankan tugasan kes kedua adalah untuk tugasan yang pengguna belum pergi ke dalam talian , model mesti dapat menyediakan konfigurasi yang munasabah melalui analisis tugas.

Aplikasi algoritma AI dalam tadbir urus data besar

Langkah seterusnya ialah melatih model Pertama, tentukan sasaran output

model. Terdapat lebih daripada 300 item boleh dikonfigurasikan, dan adalah mustahil untuk kesemuanya diberikan oleh model. Selepas ujian dan penyelidikan, kami memilih tiga parameter yang mempunyai impak terbesar pada prestasi menjalankan tugas, iaitu bilangan teras pelaksana, jumlah memori dan bilangan kejadian. Setiap item konfigurasi mempunyai nilai lalai dan julat boleh laras Malah, ruang parameter diberikan, dan model hanya perlu mencari penyelesaian optimum dalam ruang ini. Aplikasi algoritma AI dalam tadbir urus data besar

Terdapat dua pilihan untuk fasa latihan ​. Pilihan pertama ialah mempelajari peraturan empirikal: gunakan peraturan untuk mengesyorkan parameter pada peringkat awal, dan hasilnya adalah baik selepas pergi ke dalam talian Oleh itu, biarkan model mempelajari set peraturan ini terlebih dahulu untuk mencapai matlamat pergi ke dalam talian dengan cepat. Sampel latihan model adalah lebih daripada 70,000 konfigurasi tugasan yang sebelum ini dikira berdasarkan peraturan Ciri-ciri sampel ialah data perjalanan sejarah tugasan (seperti jumlah data yang diproses oleh tugasan, penggunaan sumber, masa yang diambil oleh tugasan. , dsb.), dan beberapa maklumat statistik (seperti Purata penggunaan, penggunaan maksimum, dsb. dalam tujuh hari yang lalu).

Untuk model asas, kami memilih model regresi berganda dengan pembolehubah bersandar berbilang. Model regresi biasa adalah keluaran tunggal, dengan banyak pembolehubah tidak bersandar tetapi hanya satu pembolehubah bersandar. Di sini kami berharap untuk mengeluarkan tiga parameter, jadi kami menggunakan model regresi berganda dengan pembolehubah bersandar berbilang, yang pada asasnya merupakan model LR. ​

Aplikasi algoritma AI dalam tadbir urus data besar

​Gambar di atas menunjukkan asas teori model ini. Di sebelah kiri ialah berbilang label, iaitu tiga item konfigurasi β ialah pekali bagi setiap ciri, dan Σ ialah ralat. Kaedah latihan adalah sama seperti regresi unari, menggunakan kaedah kuasa dua terkecil untuk menganggarkan jumlah kuasa dua setiap elemen dalam Σ kepada minimum.

Kelebihan pilihan satu ialah anda boleh mempelajari peraturan dan pengalaman dengan cepat, dan kosnya agak kecil. Kelemahannya ialah had atas pengoptimumannya boleh mencapai paling banyak kesan sebaik peraturan, tetapi ia akan menjadi lebih sukar untuk melebihinya. ​

Aplikasi algoritma AI dalam tadbir urus data besar

Pilihan kedua ialah pengoptimuman Bayesian. Ia cuba mencari penyelesaian optimum dalam konfigurasi ruang . Rangka kerja Bayesian digunakan di sini kerana ia boleh menggunakan asas percubaan sebelumnya dan mempunyai beberapa pengalaman terdahulu dalam percubaan seterusnya untuk mencari kedudukan yang lebih baik dengan cepat. Keseluruhan proses latihan akan dijalankan dalam ruang parameter, mensampel konfigurasi secara rawak untuk pengesahan, dan kemudian menjalankannya selepas dijalankan, ia akan memberi perhatian kepada beberapa penunjuk, seperti penggunaan, kos, dll., untuk menentukan sama ada ia optimum; kemudian ulangi langkah di atas sehingga Penalaan selesai. Selepas model dilatih, terdapat juga proses trick-or-treating semasa penggunaan Jika tugasan baru mempunyai tahap persamaan tertentu dengan tugas sejarah, tidak perlu mengira konfigurasi semula, dan konfigurasi optimum sebelumnya boleh. digunakan secara langsung.

Aplikasi algoritma AI dalam tadbir urus data besar

Selepas percubaan dan amalan kedua-dua penyelesaian ini, dapat dilihat bahawa keputusan tertentu telah dicapai Kesan. Untuk tugasan sedia ada, selepas pengubahsuaian mengikut parameter konfigurasi yang disyorkan oleh model, lebih daripada 80% daripada tugasan boleh mencapai peningkatan kira-kira 15% dalam penggunaan sumber, dan penggunaan sumber bagi sesetengah tugas malah digandakan. Walau bagaimanapun, kedua-dua penyelesaian sebenarnya mempunyai kecacatan: model regresi peraturan pembelajaran mempunyai had atas pengoptimuman yang rendah, kelemahan model pengoptimuman Bayesian bagi pengoptimuman global ialah ia memerlukan pelbagai percubaan dan kosnya terlalu tinggi; .

Aplikasi algoritma AI dalam tadbir urus data besar

Arahan penerokaan masa hadapan adalah seperti berikut:

Analisis semantik: Semantik Spark agak kaya, termasuk struktur kod dan fungsi operator yang berbeza, yang berkaitan dengan konfigurasi parameter tugas dan penggunaan sumber secara rapat berkaitan. Tetapi pada masa ini kami hanya menggunakan status larian tugasan dan mengabaikan semantik Spark itu sendiri. Ini adalah pembaziran maklumat. Perkara seterusnya yang perlu dilakukan ialah menembusi tahap kod, menganalisis fungsi pengendali yang disertakan dalam tugas Spark, dan membuat penalaan yang lebih halus dengan sewajarnya.

Penalaan klasifikasi: Spark mempunyai banyak senario aplikasi, seperti analisis tulen, pembangunan, Untuk pemprosesan, dsb. ., ruang penalaan dan matlamat senario yang berbeza juga berbeza, jadi ia perlu melakukan penalaan klasifikasi.

Pengoptimuman kejuruteraan: Kesukaran yang dihadapi dalam amalan ialah bilangan sampel yang kecil dan kos ujian yang tinggi, yang memerlukan kerjasama pihak berkaitan projek atau proses.

4 Pemilihan pintar enjin pelaksanaan tugas SQL

Senario aplikasi ketiga ialah enjin pelaksanaan tugasan SQL. Pilihan yang bijak.

Aplikasi algoritma AI dalam tadbir urus data besar

Latar belakang:

(1) Platform pertanyaan SQL ialah produk data besar yang paling banyak dihubungi oleh kebanyakan pengguna dan mempunyai pengalaman yang paling jelas, sama ada mereka penganalisis data, R&D atau pengurus produk, mereka menulis banyak SQL setiap hari untuk mendapatkan data yang mereka inginkan. ;

(2) Ramai orang tidak memberi perhatian kepada enjin pelaksanaan asas apabila menjalankan tugasan SQL Sebagai contoh, Presto adalah berdasarkan pengiraan memori tulen beberapa senario pertanyaan mudah Kelebihannya ialah kelajuan pelaksanaan akan lebih pantas, tetapi kelemahannya ialah jika kapasiti storan tidak mencukupi, ia akan digantung secara langsung, berbeza dengan Spark, ia lebih sesuai untuk melaksanakan senario kompleks dengan jumlah yang besar; data, walaupun oom berlaku. Gunakan storan cakera untuk mengelakkan kegagalan tugas. Oleh itu, enjin yang berbeza sesuai untuk senario tugas yang berbeza.

(3) Kesan pertanyaan SQL mesti mempertimbangkan secara menyeluruh masa pelaksanaan tugas dan penggunaan sumber mahupun mengejar kelajuan pertanyaan yang berlebihan tanpa mengambil kira penggunaan sumber , mahupun Untuk menjimatkan sumber, kecekapan pertanyaan terjejas.

(4) Industri Terdapat tiga kaedah pemilihan enjin tradisional utama, RBO, CBO dan HBO. RBO ialah pengoptimuman berasaskan peraturan adalah sukar dan kekerapan kemas kini adalah rendah; . Agak terhad kepada data sejarah.

Aplikasi algoritma AI dalam tadbir urus data besar

Reka bentuk pada modul berfungsi Selepas pengguna menulis pernyataan SQL dan menyerahkannya untuk pelaksanaan, model secara automatik menentukan enjin yang hendak digunakan dan muncul. sehingga gesaan tetingkap , pengguna akhirnya memutuskan sama ada untuk menggunakan enjin yang disyorkan untuk pelaksanaan.

Aplikasi algoritma AI dalam tadbir urus data besar

Penyelesaian keseluruhan model adalah untuk mengesyorkan enjin pelaksanaan berdasarkan pernyataan SQL itu sendiri. Kerana anda boleh melihat jadual apa yang digunakan, fungsi mana yang digunakan, dsb. daripada SQL sendiri, maklumat ini secara langsung menentukan kerumitan SQL, sekali gus menjejaskan pilihan enjin pelaksanaan. Sampel latihan model datang daripada pernyataan SQL yang dijalankan mengikut sejarah, dan label model ditandakan berdasarkan keadaan pelaksanaan sejarah Contohnya, tugasan yang mengambil masa yang lama untuk dilaksanakan dan melibatkan sejumlah besar data akan ditandakan sebagai sesuai untuk dijalankan pada Spark, dan. selebihnya sesuai untuk dijalankan pada Presto Running. Pengekstrakan ciri sampel menggunakan teknologi NLP, kaedah N-gram ditambah TF-IDF Prinsip umum adalah untuk mengekstrak frasa untuk melihat kekerapan ia muncul dalam ayat, supaya frasa utama boleh diekstrak. Ciri vektor yang dijana selepas operasi ini adalah sangat besar Kami mula-mula menggunakan model linear untuk menapis 3000 ciri, dan kemudian melatih dan menjana model XGBoost sebagai model ramalan terakhir.

Aplikasi algoritma AI dalam tadbir urus data besar

Selepas latihan, anda dapat melihat bahawa ketepatan ramalan model masih agak tinggi. Mungkin lebih daripada 90%.

Aplikasi algoritma AI dalam tadbir urus data besar

Proses permohonan dalam talian terakhir model ialah: selepas pengguna menyerahkan SQL, model mengesyorkan enjin pelaksanaan Jika ia berbeza daripada enjin yang dipilih oleh pengguna, modul penukaran bahasa akan dipanggil untuk melengkapkan penukaran pernyataan SQL. Jika pelaksanaan gagal selepas menukar enjin, kami akan mempunyai mekanisme failover untuk menukar kembali ke enjin asal pengguna untuk pelaksanaan bagi memastikan pelaksanaan tugas berjaya.

Aplikasi algoritma AI dalam tadbir urus data besar

Faedah amalan ini ialah model boleh memilih enjin pelaksanaan yang paling sesuai secara automatik , dan Untuk melengkapkan penukaran penyata seterusnya, pengguna tidak perlu melakukan pembelajaran tambahan.

Selain itu, enjin pengesyoran model pada asasnya boleh mengekalkan kecekapan pelaksanaan asal sambil mengurangkan kadar kegagalan, jadi keseluruhan pengalaman pengguna akan bertambah baik .

Akhir sekali, penggunaan kos sumber keseluruhan dikurangkan disebabkan oleh pengurangan penggunaan enjin kos tinggi yang tidak diperlukan dan pengurangan kadar kegagalan pelaksanaan tugas.

Dalam Bahagian 2 hingga 4, kami berkongsi tiga aplikasi algoritma AI pada platform data besar. Salah satu cirinya yang boleh dilihat ialah algoritma yang digunakan oleh tidak begitu rumit, tetapi kesannya akan menjadi sangat jelas. Ini memberi inspirasi kepada kami untuk mengambil inisiatif untuk memahami titik kesakitan atau ruang pengoptimuman semasa operasi platform data besar Selepas menentukan senario aplikasi, kami boleh cuba menggunakan kaedah pembelajaran mesin yang berbeza untuk menyelesaikan masalah ini. merealisasikan aplikasi algoritma AI pada platform data besar maklum balas.

5 Prospek untuk penerapan algoritma AI dalam tadbir urus data besar

Akhirnya, kami menantikan aplikasi algoritma AI dalam data besar Senario aplikasi dalam tadbir urus data.

Aplikasi algoritma AI dalam tadbir urus data besar

Tiga senario aplikasi yang diperkenalkan di atas lebih tertumpu dalam peringkat pemprosesan data. Malah, menggemakan hubungan antara AI dan data besar yang dibincangkan dalam Bab 1, AI boleh memainkan peranan yang agak baik sepanjang keseluruhan kitaran hayat data.

Sebagai contoh, dalam peringkat pengumpulan data, ia boleh menilai sama ada log itu munasabah; dan meningkatkan kecekapan semasa pemprosesan ; Apabila bertukar, lakukan beberapa kerja untuk memastikan keselamatan data semasa memusnahkan, anda boleh menilai masa dan kesan kemusnahan, dsb. Terdapat banyak senario aplikasi untuk AI dalam platform data besar, dan ini hanyalah pengenalan. Adalah dipercayai bahawa hubungan saling menyokong antara AI dan data besar akan menjadi lebih menonjol pada masa hadapan platform data besar yang dibantu AI boleh mengumpul dan memproses data dengan lebih baik, dan seterusnya kualiti data yang lebih baik boleh membantu melatih model AI yang lebih baik, sekali gus mencapai nilai murni. kitaran.

6 Sesi Soal Jawab

S1: Apakah jenis enjin peraturan yang digunakan?

A1: Apa yang dipanggil peraturan penalaan parameter di sini telah dirumuskan oleh rakan sekerja data besar kami pada peringkat awal berdasarkan pengalaman penalaan manual, seperti berapa minit pelaksanaan tugas melebihi masa, atau data yang diproses Berapa amaun melebihi, berapa banyak teras atau amaun memori disyorkan untuk tugasan, dsb. Ini ialah satu set peraturan yang telah terkumpul dalam tempoh masa yang lama, dan hasilnya agak baik selepas pergi ke dalam talian, jadi kami menggunakan set peraturan ini untuk melatih model pengesyoran parameter kami.

S2: Adakah pembolehubah bersandar hanya pelarasan parameter? Pernahkah anda mempertimbangkan kesan ketidakstabilan prestasi platform data besar pada hasil pengiraan?

J2: Apabila membuat pengesyoran parameter, kami tidak hanya mengejar kos rendah, jika tidak sumber yang disyorkan akan menjadi rendah dan tugasan akan gagal. Pembolehubah bersandar hanya mempunyai pelarasan parameter, tetapi kami menambah sekatan tambahan untuk mengelakkan ketidakstabilan. Yang pertama ialah ciri model. Kami memilih nilai purata dalam tempoh masa tertentu dan bukannya nilai pada hari terpencil Kedua, untuk parameter yang disyorkan oleh model, kami akan membandingkan perbezaan dengan nilai konfigurasi sebenar perbezaan terlalu besar, kami akan menggunakan strategi Perlahan dan Perlahan untuk mengelakkan kegagalan misi yang disebabkan oleh pelarasan satu kali yang berlebihan.

S3: Adakah model regresi dan model Bayesian digunakan pada masa yang sama?

A3: Tidak. Seperti yang dinyatakan sebentar tadi, kami telah menggunakan dua penyelesaian untuk pengesyoran parameter: model regresi digunakan untuk peraturan pembelajaran dan rangka kerja pengoptimuman Bayesian digunakan kemudian. Mereka tidak digunakan pada masa yang sama Kami telah membuat dua percubaan. Kelebihan peraturan pembelajaran dahulu ialah ia boleh menggunakan pengalaman sejarah dengan cepat; model kedua boleh mencari konfigurasi yang lebih baik atau lebih optimum berdasarkan yang sebelumnya. Kedua-dua mereka tergolong dalam hubungan berurutan atau progresif, dan bukannya digunakan pada masa yang sama.

S4: Adakah pengenalan analisis semantik berdasarkan pengembangan lebih banyak ciri?

A4: Ya. Seperti yang dinyatakan sebentar tadi, apabila melakukan pelarasan parameter Spark, satu-satunya maklumat yang kami gunakan ialah status pelaksanaan sejarahnya, tetapi kami masih belum memberi perhatian kepada tugas Spark itu sendiri. Spark sendiri sebenarnya mengandungi banyak maklumat, termasuk pelbagai pengendali, peringkat, dll. Jika anda tidak menganalisis semantiknya, banyak maklumat akan hilang. Jadi rancangan seterusnya kami adalah untuk menganalisis semantik tugas Spark dan mengembangkan lebih banyak ciri untuk membantu pengiraan parameter.

S5: Adakah pengesyoran parameter menjadi tidak munasabah, mengakibatkan anomali tugasan atau malah kegagalan. Kemudian bagaimana untuk mengurangkan ralat tugas yang tidak normal dan turun naik tugas dalam senario sedemikian?

A5: Jika ia bergantung sepenuhnya pada model, ia mungkin mengejar penggunaan sumber tertinggi yang mungkin Dalam kes ini, parameter yang disyorkan mungkin lebih radikal, seperti The ingatan tiba-tiba mengecut daripada 30g kepada 5g. Oleh itu, sebagai tambahan kepada pengesyoran model, kami akan menambah kekangan tambahan, seperti berapa banyak g jangka masa pelarasan parameter tidak boleh melebihi, dsb., iaitu, strategi perlahan dan perlahan.

S6: Terdapat beberapa artikel berkaitan penalaan parameter dalam sigmoid 2022. Adakah anda mempunyai sebarang rujukan?

A6: Pelarasan parameter tugas pintar masih merupakan hala tuju penyelidikan yang popular, dan pasukan dalam bidang berbeza telah menggunakan model kaedah yang berbeza. Sebelum kami memulakan, kami menyiasat banyak kaedah industri, termasuk kertas sigmoid 2022 yang anda nyatakan. Selepas perbandingan dan latihan, akhirnya kami mencuba dua penyelesaian yang kami kongsikan. Pada masa hadapan, kami akan terus memberi perhatian kepada perkembangan terkini ke arah ini dan mencuba lebih banyak kaedah untuk meningkatkan kesan pengesyoran.

Itu sahaja perkongsian hari ini, terima kasih semua.

Atas ialah kandungan terperinci Aplikasi algoritma AI dalam tadbir urus data besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam