Rumah  >  Artikel  >  Peranti teknologi  >  Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan "Tai Chi"

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan "Tai Chi"

PHPz
PHPzke hadapan
2023-04-14 18:46:031075semak imbas

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan

Dalam beberapa tahun kebelakangan ini, model ditambah data besar telah menjadi paradigma standard untuk pemodelan dalam bidang AI. Dalam adegan pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan keupayaan generalisasi yang lebih kuat, membuka lebih banyak ruang untuk meningkatkan kesan pengiklanan. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin.

Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.

1. Pengenalan

Dalam beberapa tahun kebelakangan ini, apabila model besar telah mencapai kejayaan besar dalam menyapu pelbagai senarai data besar dalam bidang NLP, model ditambah data besar telah menjadi Paradigma standard untuk pemodelan dalam domain AI. Pemodelan carian, pengiklanan dan pengesyoran tidak terkecuali Dengan ratusan bilion parameter pada setiap masa, model bersaiz T telah menjadi standard untuk senario ramalan utama juga telah menjadi tumpuan perlumbaan senjata di kalangan teknologi utama syarikat.

Dalam senario pengiklanan, model besar menggunakan lebih banyak parameter model dan menggunakan lebih banyak data latihan Model tersebut mempunyai keupayaan ingatan dan generalisasi yang lebih kuat, yang meningkatkan kesan pengiklanan ke atas membuka lebih banyak ruang. Walau bagaimanapun, sumber yang diperlukan untuk model besar dalam proses latihan juga telah meningkat secara eksponen, dan tekanan penyimpanan dan pengkomputeran merupakan cabaran besar kepada platform pembelajaran mesin. Pada masa yang sama, bilangan percubaan yang boleh disokong oleh platform secara langsung mempengaruhi kecekapan lelaran algoritma Cara menyediakan lebih banyak sumber percubaan pada kos yang lebih rendah adalah tumpuan usaha platform.

Platform Pembelajaran Mesin Tencent Taiji terus meneroka penyelesaian pengurangan kos dan peningkatan kecekapan, menggunakan sumber penggunaan hibrid dalam mengiklankan senario latihan luar talian untuk mengurangkan kos sumber dengan banyak, menyediakan Pengiklanan Tencent dengan hibrid murah teras 50W penggunaan sumber setiap hari, membantu Pengiklanan Tencent mengurangkan kos sumber latihan model luar talian sebanyak 30%. Pada masa yang sama, melalui satu siri kaedah pengoptimuman, kestabilan sumber lokasi bersama adalah sama dengan sumber biasa.

2 Pengenalan kepada Platform Pembelajaran Mesin Taiji

Platform Pembelajaran Mesin Taiji komited untuk membenarkan pengguna memberi tumpuan lebih lanjut mengenai penyelesaian masalah dan aplikasi AI perniagaan, penyelesaian sehenti untuk jurutera algoritma untuk menyelesaikan masalah kejuruteraan seperti pemprosesan ciri, latihan model dan perkhidmatan model dalam proses aplikasi AI. Pada masa ini, ia menyokong perniagaan utama seperti pengiklanan dalam syarikat, carian, permainan, Persidangan Tencent dan Tencent Cloud.

Platform Pengiklanan Taiji ialah platform pembelajaran mesin berprestasi tinggi yang direka oleh Sistem Pengiklanan Taiji yang menyepadukan latihan model dan penaakulan dalam talian Platform ini mempunyai keupayaan latihan dan penaakulan bagi model trilion parameter. Pada masa ini, platform menyokong penarikan semula pengiklanan Tencent, kedudukan kasar, kedudukan yang baik, berpuluh-puluh latihan model dan inferens dalam talian pada masa yang sama, platform Taiji menyediakan pendaftaran ciri sehenti, rakaman tambahan sampel, latihan model, penilaian model dan ujian dalam talian; keupayaan, sangat meningkatkan keupayaan Meningkatkan kecekapan pembangun.

  • Platform latihan : Pada masa ini, latihan model menyokong dua mod latihan, CPU dan GPU, menggunakan pengendali cekap yang dibangunkan sendiri dan latihan ketepatan campuran . Dengan teknologi selari 3D dan lain-lain, kelajuan latihan ditingkatkan sebanyak 1 urutan magnitud berbanding dengan sistem sumber terbuka industri.
  • Rangka kerja inferens : Rangka kerja pengkomputeran heterogen HCF (Rangka Kerja Pengkomputeran Heterogen) Taiji yang dibangunkan sendiri, melalui lapisan perkakasan, lapisan kompilasi dan perisian Pengoptimuman sambungan lapisan menyediakan pengoptimuman prestasi muktamad.

3. Pelaksanaan khusus pengoptimuman kos

(1) Pengenalan kepada rancangan keseluruhan

Dengan pembangunan berterusan platform Tai Chi, bilangan dan jenis tugasan semakin meningkat dari hari ke hari, dan permintaan untuk sumber juga semakin meningkat. Untuk mengurangkan kos dan meningkatkan kecekapan, platform Tai Chi di satu pihak meningkatkan prestasi platform dan mempercepatkan latihan sebaliknya, kami juga mencari sumber yang lebih murah untuk memenuhi permintaan yang semakin meningkat untuk sumber;

Fengluan - Platform data besar asli awan dalaman Tencent menggunakan teknologi asli awan untuk menaik taraf keseluruhan seni bina data besar syarikat. Untuk memenuhi permintaan sumber yang terus berkembang bagi perniagaan data besar, Fengluan telah memperkenalkan sumber lokasi bersama, yang bukan sahaja dapat memenuhi permintaan sumber, tetapi juga mengurangkan kos sumber dengan banyak. Fengluan menyediakan satu siri penyelesaian untuk sumber lokasi bersama dalam senario berbeza, menukar sumber lokasi bersama yang tidak stabil kepada sumber stabil yang telus kepada perniagaan. Keupayaan lokasi bersama Fengluan menyokong tiga jenis sumber lokasi bersama:

  • gunakan semula sumber terbiar dalam talian. Disebabkan oleh kemuncak dan palung sumber dalam talian, anggaran penggunaan sumber yang terlalu tinggi, dan pemecahan sumber kluster, penggunaan sumber kluster adalah rendah dan terdapat sejumlah besar sumber terbiar. Fengluan mengetik sumber terbiar sementara ini untuk menjalankan tugas data besar, dan sedang melaksanakannya dalam senario seperti pengiklanan dalam talian, storan, hiburan sosial dan permainan.
  • Pinjaman sumber luar talian yang fleksibel. Sesetengah tugas pada platform data besar juga mempunyai fenomena pasang surut Apabila penggunaan sumber kluster data besar rendah pada siang hari, Fengluan menyokong pinjaman fleksibel sementara beberapa sumber, dan kemudian mendapatkan semula sumber ini sebelum puncak kluster data besar. tiba. Senario ini sangat sesuai untuk menyelesaikan masalah tugasan dalam talian yang memerlukan sejumlah besar sumber untuk sementara waktu semasa cuti dan promosi utama Fengluan kini menyokong cuti utama seperti Festival Musim Bunga dan 618.
  • Gunakan semula sumber pengkomputeran. Sumber pengkomputeran dilombong daripada sumber terbiar mesin mika dalam bentuk CVM berkualiti rendah yang dipanggil CVM berkualiti rendah merujuk kepada memulakan mesin maya CVM dengan keutamaan CPU yang lebih rendah pada mesin maya ini didahulukan oleh mesin maya lain dalam masa nyata. Berdasarkan maklumat sumber yang disediakan oleh kuasa pengkomputeran asas, Fengluan telah membuat banyak pengoptimuman dalam aspek seperti penjadualan, perlindungan lebihan dan pemindahan kuasa pengkomputeran Pada masa ini, tugasan data besar dengan berjuta-juta teras berjalan secara stabil pada sumber kuasa pengkomputeran.

Pada masa yang sama, Fengluan memperkenalkan teknologi kluster maya asli awan untuk melindungi ciri penyebaran yang disebabkan oleh sumber lokasi bersama asas yang datang dari bandar dan wilayah yang berbeza . Platform Taiji bersambung terus kepada kelompok penyewa Fengluan, yang sepadan dengan pelbagai sumber lokasi bersama yang mendasari Kelompok penyewa mempunyai perspektif kelompok yang bebas dan lengkap, dan platform Taiji juga boleh disambungkan dengan lancar.

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi

(2) Pelan penggunaan bercampur sumber

Sumber terbiar dalam talian

Seperti yang ditunjukkan dalam rajah di bawah, ia adalah seni bina asas Caelus Pelbagai komponen dan modul bekerjasama antara satu sama lain untuk memastikan kualiti penggunaan campuran dalam banyak aspek.

Pertama sekali, Caelus memastikan kualiti perkhidmatan operasi dalam talian dalam semua aspek, yang juga merupakan salah satu prasyarat penting untuk lokasi bersama Contohnya, melalui pengesanan dan pemprosesan gangguan yang cepat mekanisme, ia secara aktif merasakan kualiti perkhidmatan dalam talian, pemprosesan tepat pada masanya, dan menyokong kaedah pengembangan pemalam untuk menyokong keperluan pengesanan gangguan khusus perniagaan melalui pengasingan sumber dimensi penuh, strategi pengurusan sumber yang fleksibel, dsb., keutamaan tinggi perkhidmatan dalam talian; dipastikan.

Kedua, Caelus memastikan SLO pekerjaan luar talian dalam banyak aspek, seperti: memadankan sumber yang sesuai dengan pekerjaan melalui sumber lokasi bersama dan potret kerja luar talian untuk mengelakkan persaingan sumber mengoptimumkan strategi penyingkiran pekerjaan luar talian dan mengutamakan pengusiran , menyokong keluar yang anggun, dan strateginya adalah fleksibel dan boleh dikawal. Tidak seperti kerja luar talian data besar, yang kebanyakannya kerja singkat (minit atau bahkan saat), kebanyakan kerja Tai Chi mengambil masa yang lebih lama untuk dijalankan (jam atau bahkan hari). Melalui ramalan sumber jangka panjang dan potret pekerjaan, kami boleh membimbing penjadualan dengan lebih baik untuk mencari sumber yang sesuai untuk kerja dengan masa berjalan yang berbeza dan keperluan sumber yang berbeza, dan mengelakkan pekerjaan diusir selepas berjalan selama berjam-jam atau bahkan berhari-hari, mengakibatkan kehilangan status pekerjaan, pembaziran sumber dan masa. Apabila kerja luar talian perlu dialih keluar, pemindahan langsung masa jalan akan digunakan terlebih dahulu untuk memindahkan contoh kerja dari satu mesin ke mesin yang lain, sambil mengekalkan status memori dan IP tidak akan berubah, hampir tidak akan ada kesan pada kerja itu, yang sangat meningkatkan kecekapan kerja. Untuk menggunakan sumber lokasi bersama dengan lebih baik, Caelus juga mempunyai lebih banyak keupayaan Untuk mendapatkan butiran, lihat penyelesaian lokasi bersama senario penuh Caelus ( ​https://www.php.cn/link/caaeb10544b465034f389991efc90877​).

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi

Sumber Air Pasang Surut

Tugas data besar secara amnya agak besar semasa hari. Terdapat kurang tugas pada waktu malam, jadi Fengluan memindahkan beberapa sumber data besar yang terbiar pada siang hari ke platform Taiji, dan mengitar semula sumber ini pada waktu malam. Ciri sumber Tidal ialah tugas data besar pada nod hampir terkeluar sepenuhnya, tetapi perkhidmatan penyimpanan data besar HDFS masih dikekalkan pada nod Perkhidmatan HDFS tidak boleh terjejas semasa menjalankan kerja Tai Chi. Apabila platform Taiji menggunakan sumber pasang surut, ia perlu mencapai persetujuan dengan platform Fengluan Platform Fengluan akan menyaring sekumpulan nod terlebih dahulu berdasarkan data sejarah pada titik masa tetap Selepas tugas data besar dengan anggun, ia akan maklumkan platform Taiji bahawa nod baharu telah menyertai, dan platform Taiji akan bermula ke Kluster penyewa menyerahkan lebih banyak tugas. Sebelum masa peminjaman tiba, Fengluan memberitahu Platform Taiji bahawa beberapa nod perlu dikitar semula, dan Platform Taiji mengembalikan nod dalam cara yang teratur.

Seperti yang ditunjukkan dalam rajah di bawah, perlombongan, pengurusan dan penggunaan sumber air pasang surut melibatkan pembahagian kerja dan kerjasama pelbagai sistem:

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi

  • Sistem pemindahan sumber data besar: Sistem ini akan berdasarkan keadaan kerja yang berbeza pada setiap mesin dan data pengendalian kluster pada tempoh lalu, berdasarkan mesin algoritma pembelajaran, Cari nod mesin yang paling sesuai untuk berada di luar talian untuk memenuhi keperluan sumber tertentu dan mempunyai kesan paling sedikit pada menjalankan kerja, kemudian melarang penjadualan kerja baharu untuk nod ini dan tunggu kerja yang dijalankan pada nod selesai dijalankan, memaksimumkan Kurangkan kesan ke atas operasi data besar.
  • Sistem lokasi bersama Caelus : Walaupun kerja data besar tidak lagi dijalankan pada sumber mesin yang dikosongkan oleh sistem pemindahan, terdapat kerja data besar masih berjalan pada mereka perkhidmatan HDFS juga menyediakan perkhidmatan membaca dan menulis data. Untuk melindungi perkhidmatan HDFS, sistem lokasi bersama Caelus diperkenalkan untuk menggunakan HDFS sebagai perkhidmatan dalam talian Melalui kaedah jaminan perkhidmatan dalam talian Caelus (seperti mengesan sama ada ia terjejas melalui penunjuk utama HDFS), kualiti bagi. Perkhidmatan HDFS tidak terjejas.
  • Gunakan sumber Tidal melalui kelompok maya: Sumber mesin yang dipindahkan ini akan diurus dan dijadualkan secara seragam oleh Fengluan, dan disusun ke dalam kelompok maya. kaedah disediakan kepada platform Taiji dan menyediakan antara muka asli K8S Ini melindungi perbezaan sumber asas daripada platform atas dan memastikan aplikasi menggunakan sumber dengan cara yang sama.
  • Disambungkan dengan latihan resume titik putus lapisan aplikasi: Sumber pasang surut akan dikitar semula pada waktu malam untuk menjalankan kerja data besar untuk mengurangkan Kepada mengurangkan kesan kitar semula, titik putus menyambung semula fungsi latihan puncak dan lapisan aplikasi telah dibuka untuk merealisasikan penukaran sumber tanpa mengganggu latihan, dan operasi perniagaan yang berterusan tidak akan terjejas selepas bertukar.

Sumber pengkomputeran

Ciri sumber pengkomputeran ialah ia memberikan CVM eksklusif kepada perniagaan agak mesra untuk pengguna perniagaan. Walau bagaimanapun, cabaran menggunakan sumber pengkomputeran ialah sumber CPU CVM berkualiti rendah pada peringkat mesin mika akan ditindas oleh CVM dalam talian pada bila-bila masa, mengakibatkan sumber pengkomputeran yang sangat tidak stabil:

  • Kuasa pengkomputeran Ketidakstabilan mesin: Mesin pengkomputeran mungkin di luar talian disebabkan penyatuan sumber yang berpecah-belah, kuasa yang tidak mencukupi dalam bilik komputer, dsb.
  • Keutamaan rendah sumber pengkomputeran: Untuk memastikan kualiti perkhidmatan mesin CVM biasa tidak terjejas, kerja pada sumber pengkomputeran mempunyai keutamaan paling rendah dan akan diberikan tanpa syarat kepada kerja pada sumber yang berkualiti tinggi Mengalah, mengakibatkan prestasi yang sangat tidak stabil.
  • Kekerapan pengusiran yang tinggi: Pelbagai sebab (prestasi sumber pengkomputeran yang tidak mencukupi, ruang cakera yang tidak mencukupi, cakera tersekat, dll.) akan mencetuskan pengusiran secara aktif pod, meningkatkan kebarangkalian kegagalan pod.

Untuk menyelesaikan masalah ketidakstabilan sumber kuasa pengkomputeran, pelbagai keupayaan diperluaskan melalui lapisan kawalan utama puncak dan gunung, dan sumber kuasa pengkomputeran dioptimumkan dari banyak aspek untuk meningkatkan kestabilan kuasa pengkomputeran. pelbagai penunjuk prestasi mesin dan menjana Penunjuk Pengagregatan meramalkan sumber tersedia CVM berkualiti rendah pada masa hadapan Maklumat ini digunakan oleh penjadual untuk menjadualkan pod dan komponen pengusiran untuk mengusir pod untuk memenuhi keperluan sumber pod.

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi② Pengoptimuman penjadualan:

Untuk memastikan kualiti perkhidmatan operasi Tai Chi, terdapat lebih banyak pengoptimuman dalam strategi penjadualan berdasarkan keperluan kerja dan ciri-ciri prestasi operasi telah dipertingkatkan lebih daripada 2 kali ganda.

  • Penjadualan bandar yang sama: Jadualkan PST dan kerja latihan ke bilik komputer yang sama di bandar yang sama, meminimumkan kelewatan rangkaian antara kejadian kerja dan kos lebar jalur rangkaian di bandar yang sama juga lebih rendah memainkan peranan dalam mengurangkan kos.
  • Pengoptimuman penjadualan mesin tunggal: Digabungkan dengan hasil ramalan sumber dan penunjuk seperti masa curi CPU, pilih CPU dengan prestasi yang lebih baik untuk tugas mengikat teras untuk meningkatkan prestasi kerja dengan lebih baik.
  • Penjadualan Gred: Melabel dan menggredkan semua sumber terurus secara automatik dan menjadualkan kerja secara automatik dengan keperluan pemulihan bencana yang tinggi seperti Pengurus Kerja sebagai sumber yang agak stabil.
  • Menala parameter penjadualan: Berdasarkan potret sumber dan data ramalan, penjadual mengutamakan nod dengan prestasi yang lebih baik dan lebih kestabilan untuk kerja. Di samping itu, untuk menyelesaikan masalah tamat tempoh eselon yang disebabkan oleh langkah yang tidak konsisten, contoh kerja yang sama dijadualkan pada mesin dengan prestasi yang serupa

③ Jaminan kualiti perkhidmatan masa jalan

  • Fasa pengusiran aktif memperkenalkan migrasi panas masa jalan, supaya perniagaan pada asasnya tidak dapat dilihat: untuk mengatasi ketidakstabilan sumber dan pengusiran pod, aplikasi akan dimatikan menyelesaikan masalah, melaksanakan migrasi panas masa jalan, dan menyediakan pelbagai strategi migrasi panas untuk memenuhi keperluan senario yang berbeza. Menurut data dalam talian semasa, apabila menggunakan strategi keutamaan migrasi, untuk bekas dengan memori besar, masa gangguan migrasi langsung adalah lebih daripada 10 saat. Kami juga melaksanakan masa gangguan berterusan tanpa saiz memori (strategi pemulihan-pertama). Pada masa ini, lebih daripada 20,000 pod berjaya dipindahkan secara aktif setiap hari, dan penghijrahan panas merentas kelompok disokong, yang mengurangkan kesan pengusiran.
  • Optimumkan strategi pengusiran untuk meminimumkan kesan pengusiran: setiap kali setiap mesin diusir, pod dimulakan selepas pengusiran akan diberi keutamaan untuk mengelak daripada menjejaskan sudah dimulakan Setiap tugas hanya mengusir satu nod pada satu masa untuk mengelakkan pengusiran atas dan hiliran satu tugas, menyebabkan permulaan semula peringkat tugas apabila pod diusir, ia akan dipautkan dengan rangka kerja Flink lapisan atas untuk memberitahu Flink secara proaktif; untuk pemulihan mata tunggal yang cepat.

④ Pengoptimuman maklum balas kendiri : Melalui potret sumber, mesin dengan prestasi buruk diganti secara berkala dan disambungkan dengan platform asas untuk mencapai detasmen CVM yang lancar memberikan Fengluan peluang untuk memindahkan contoh permohonan satu demi satu tanpa menjejaskan perniagaan, mengurangkan kesan pada kejadian.

⑤ Meningkatkan keupayaan pemulihan bencana lapisan Flink, menyokong permulaan semula titik tunggal dan penjadualan hierarki

TM (Tugas Keupayaan permulaan semula satu titik Pengurus) menghalang kegagalan Tugas daripada menyebabkan keseluruhan DAG gagal, dan boleh menyesuaikan diri dengan ciri preemptif kuasa pengkomputeran dengan lebih baik untuk mengelakkan penantian kerja yang berlebihan yang disebabkan oleh penjadualan kumpulan, dan mengelakkan pembaziran penggunaan yang berlebihan; TM Pod.

(3) Penyelesaian pengoptimuman lapisan aplikasi

Toleransi kesalahan perniagaan

Tugas latihan luar talian harus digunakan Premis utama sumber murah ialah ia tidak boleh menjejaskan operasi biasa tugas asal pada sumber, jadi sumber lokasi bersama mempunyai cabaran utama berikut:

  • Sumber lokasi bersama kebanyakannya adalah sumber sementara akan kerap pergi ke luar talian
  • Sumber lokasi bersama Mekanisme pengusiran automatik juga meningkatkan kebarangkalian kegagalan nod dan pod.

Untuk memastikan tugasan dapat berjalan dengan stabil pada sumber lokasi bersama, platform menggunakan tiga -strategi toleransi kesalahan peringkat Khususnya Penyelesaian adalah seperti berikut: Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi

  • Teknologi pemindahan panas: rasa lebih awal sebelum Pengurus Tugas hampir diusir, dan pindahkan Pengurus Tugas yang sepadan ke pod lain pada masa yang sama, gunakan pemampatan memori, penstriman serentak, silang; penghijrahan panas berkelompok, dsb. Keupayaan untuk terus mengoptimumkan kadar kejayaan penghijrahan terma.
  • Task Manager Mulakan Semula: Apabila Pengurus Tugas dalam tugasan gagal kerana pengecualian atau pengusiran, keseluruhan tugasan tidak akan gagal dan keluar terus, tetapi akan menyimpan status Pengurus Tugas terlebih dahulu . , dan kemudian mulakan semula Pengurus Tugas, dengan itu mengurangkan kebarangkalian kegagalan keseluruhan tugasan.
  • Pemulihan Penuh Tugas: Apabila tugasan berada dalam keadaan tidak dapat dipulihkan kerana status Flink yang tidak normal, permulaan semula Pengurus Kerja akan dicetuskan untuk memastikan kestabilan Pengurus Kerja , platform Gunakan sumber bebas dengan kestabilan yang baik untuk memastikan status tugas biasa.
  • Sambung semula latihan pada titik putus: Jika strategi toleransi kesalahan sebelumnya gagal, platform akan memulakan semula tugas berdasarkan ckpt tertentu dalam sejarah.

Melalui toleransi kesalahan lapisan perniagaan, kestabilan tugas yang dijalankan pada sumber lokasi bersama telah meningkat daripada kurang daripada 90% pada mulanya kepada 99.5% pada akhirnya, dengan sumber eksklusif asas dan biasa Kestabilan tugas di atas kekal sama.

Penjadualan pasang surut tugas

Mengikut keperluan sumber pasang surut, tugas latihan luar talian hanya boleh digunakan pada siang hari dan perlu disediakan untuk dalam talian penggunaan perniagaan pada waktu malam, jadi platform Tai Chi Ia adalah perlu untuk memulakan tugas latihan secara automatik mengikut ketersediaan sumber pada siang hari membuat sandaran sejuk untuk tugas pada waktu malam, dan menghentikan tugas latihan yang sepadan pada masa yang sama; Pada masa yang sama, keutamaan setiap penjadualan tugas diuruskan melalui baris gilir pengurusan tugasan Tugasan baharu yang dimulakan pada waktu malam secara automatik akan memasuki keadaan baris gilir dan menunggu tugasan baharu dimulakan keesokan harinya.

Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan Tai Chi

Cabaran Teras:

  • Fenomena Pasang Surut: Sumber tersedia semasa hari Disediakan untuk tugas luar talian dan perlu dikitar semula pada waktu malam.
  • Perubahan dinamik dalam sumber: Pada siang hari, sumber juga tidak stabil dan akan berubah pada bila-bila masa Secara amnya, terdapat lebih sedikit sumber pada waktu pagi, dan kemudian sumber secara beransur-ansur Meningkatkan, dan sumber mencapai kemuncaknya pada waktu malam.

Penyelesaian:

  • Strategi penjadualan sedar sumber: Semasa peningkatan beransur-ansur sumber pada waktu pagi, penjadualan pasang surut Perkhidmatan perlu merasakan perubahan sumber dan membuat susulan status sumber untuk memulakan tugas untuk meneruskan latihan.
  • Keupayaan sandaran model automatik: Sebelum kitar semula sumber pada waktu malam, semua tugasan yang dijalankan pada platform semasa perlu disandarkan langkah demi langkah, yang memberi tekanan pada storan dan lebar jalur platform Ia sangat besar, kerana terdapat beratus-ratus tugas pada platform, dan saiz sandaran sejuk bagi setiap tugas berkisar antara beberapa ratus G hingga beberapa terabait Jika sandaran sejuk dilakukan pada masa yang sama, ratusan daripada terabait data perlu dihantar dan disimpan dalam masa yang singkat Kedua-dua storan dan rangkaian adalah cabaran besar, jadi kita perlu mempunyai strategi penjadualan yang munasabah dan secara beransur-ansur menyimpan model.
  • Keupayaan penjadualan sumber pintar: Berbanding dengan latihan tradisional, penjadualan pasang surut mempunyai model sandaran untuk setiap tugas apabila sumber dikitar semula pada waktu malam dan apabila tugas baru dimulakan setiap pagi Overhed adalah overhed tambahan Untuk mengurangkan overhed tambahan ini, apabila menjadualkan, kita perlu menilai tugasan yang boleh diselesaikan pada hari yang sama dan tugasan yang perlu dijalankan untuk beberapa hari pada hari yang sama, kami memberi keutamaan untuk memperuntukkan lebih banyak sumber kepada mereka, untuk memastikan tugas itu selesai pada hari yang sama.

Melalui pengoptimuman ini, kami boleh memastikan bahawa tugasan boleh berjalan dengan stabil pada sumber pasang surut dan pada dasarnya tidak mengetahui lapisan perniagaan. Pada masa yang sama, kelajuan menjalankan tugas tidak akan terjejas dengan ketara, dan overhed tambahan yang disebabkan oleh penjadualan mula dan berhenti tugas dikawal dalam 10%.

4. Kesan dalam talian dan prospek masa hadapan

Penyelesaian pengoptimuman pengedaran hibrid luar talian Taiji telah dilaksanakan dalam senario pengiklanan Tencent, menyediakan teras 30W untuk semua cuaca untuk model luar talian pengiklanan Tencent penyelidikan dan latihan setiap hari Sumber penggunaan bercampur, sumber pasang surut teras 20W, ingatan semula pengiklanan sokongan, kedudukan kasar, latihan model berbilang senario kedudukan halus. Dari segi kos sumber, untuk tugasan dengan beban pengiraan yang sama, kos sumber penggunaan hibrid ialah 70% daripada sumber biasa. Selepas pengoptimuman, kestabilan sistem dan kadar kejayaan tugas kelompok fizikal pada asasnya adalah sama.

Pada masa hadapan, di satu pihak, kami akan terus meningkatkan penggunaan sumber pengkomputeran hibrid, terutamanya aplikasi sumber pengkomputeran hibrid sebaliknya, perniagaan dalam talian syarikat; menjadi berasaskan GPU, jadi Dalam aplikasi sumber campuran, sebagai tambahan kepada sumber CPU tradisional, sumber GPU dalam talian juga akan cuba digunakan semasa latihan luar talian.

Itu sahaja perkongsian hari ini, terima kasih semua.

Atas ialah kandungan terperinci Latihan amalan pengoptimuman kos model pengiklanan Tencent berdasarkan "Tai Chi". Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam