Rumah >Peranti teknologi >AI >Mekanisme 'penanaman rumput' Xiaohongshu dinyahsulit buat kali pertama: cara teknologi sistem pembelajaran mendalam berskala besar digunakan
Generasi baharu teknologi maklumat yang diketuai oleh AI memacu gelombang teknologi baharu. Sebagai salah satu platform Internet mudah alih yang paling pesat membangun di China dalam beberapa tahun kebelakangan ini, Xiaohongshu telah memanfaatkan momentum tersebut dan kini telah membentuk komuniti UGC yang sangat besar yang memfokuskan pada kandungan grafik, teks dan video pendek. Dalam komuniti yang unik dan aktif ini, data berbilang modal yang besar dan maklum balas tingkah laku pengguna dijana setiap hari, menimbulkan masalah baharu yang bernilai dan mencabar.
Banyak perkembangan menarik sedang berlaku dalam sistem pembelajaran mendalam berskala besar. Pada acara "Salon Teknologi Belia Xiaohongshu REDtech" pada 15 Oktober, Naib Presiden Sangkar Teknologi Xiaohongshu berkongsi "Teknologi Sistem Pembelajaran Dalam Berskala Besar dan Aplikasinya di Xiaohongshu" dan mendedahkan LarC untuk kami.
Cage: Naib Presiden Teknologi Xiaohongshu Beliau lulus dari Universiti Shanghai Jiao Tong Beliau berkhidmat sebagai Naib Presiden Teknologi YYY Times dan Ketua Arkitek Baidu Fengchao, bertanggungjawab untuk kerja algoritma pembelajaran mesin CTR pengiklanan. . Beliau pernah berkhidmat sebagai ketua teknikal China bagi projek IBM Deep Question Answering (DeepQA).
Kandungan berikut disusun berdasarkan laporan Cage di tapak
Tiga perniagaan utama: komuniti, pengkomersialan, e-dagang
. Juga kerana "perkongsian ikhlas" seperti ini yang sesuai dengan kehidupan dan penggunaan harian, pengguna mempunyai tahap kepercayaan yang tinggi terhadap kandungan komuniti kami Semua orang akan "diutamakan" apabila mereka melihat gaya hidup, kandungan pengguna, perkhidmatan dan produk yang baik, dsb. "Rumput",
Kami membawa transformasi jenama dan kesanmelalui model perniagaan "penanaman rumput" kami yang unik. "Selepas menanam rumput, bolehkah anda mencabutnya?" Semasa mengambil kandungan, semua orang juga berharap dapat membeli barangan kegemaran mereka secara semulajadi dan mudah Ini adalah Bidang penggunaan gelung tertutup yang cekap iaitu bahagian e-dagang.
2. Cabaran Teknikal XiaohongshuTeknologi multimodal adalah salah satu hala tuju teknologi yang telah menarik perhatian meluas dan berkembang pesat dalam seluruh bidang AI dan ekologi kandungan UGC mengandungi sejumlah besar imej. Teks, video, teks dan maklumat tingkah laku pengguna menjana sejumlah besar data berbilang modal berkualiti tinggi, menjadikannya senario praktikal yang sangat baik. Pengguna menyukai kandungan yang baik apabila mereka melihatnya, melakukan pelbagai gelagat carian, menonton video tertentu, dsb., yang membentuk sejumlah besar maklum balas pengguna sebenar.
, bermula daripada matlamat ini, banyak masalah yang berharga dan mencabar diperoleh.
Cara kami menyelesaikan teknologi ini: Apabila anda membuka Xiaohongshu, perkara pertama yang anda lihat ialah aliran air terjun atau aliran kandungan semua Ia adalah kandungan yang disyorkan oleh sistem pengesyoran kepada semua orang. Menurut statistik, Xiaohongshu menjana berpuluh bilion tindakan pengguna setiap hari. Untuk data ini, pasukan teknikal Xiaohongshu menggunakan rangka kerja pembelajaran mesin berdasarkan LarC untuk melatih model, dan berdasarkan peraturan dalam tingkah laku pengguna, ia boleh mengetahui kandungan yang pengguna minati dan mengesyorkannya kepada pengguna. Gambar di bawah menunjukkan struktur umum model pengesyoran Xiaohongshu. Ini ialah model pembelajaran mesin berbilang tugas yang boleh meramalkan klik pengguna, masa tinggal, sama ada suka dan kumpulkan, dsb. Memandangkan parameter pekali besar yang dijana oleh platform Xiaohongshu, Xiaohongshu mengemas kini dan menangkap parameter ini melalui pelayan parameter bebas konflik berskala besar. Latihan Dalam Talian sistem yang disyorkan adalah seperti berikut. Apabila pengguna menyemak imbas aliran maklumat, sistem pengesyoran akan menangkap penyemakan imbas, klik, suka dan gelagat lain dalam masa nyata Gelagat ini akan disambungkan berdasarkan enjin pengkomputeran masa nyata Flink untuk menjana sampel berprestasi tinggi akan dihantar kepada model dalam masa nyata untuk ramalan. Pada masa yang sama, sampel terkumpul jangka pendek ini juga akan digunakan untuk latihan dalam talian yang sangat singkat untuk mengemas kini parameter model. Parameter model yang dikemas kini ini akan diterbitkan dalam talian serta-merta untuk menyampaikan permintaan seterusnya. Keseluruhan proses disimpan dalam beberapa minit. Terdapat juga soalan klasik dalam industri Sebagai contoh, apabila orang menyemak imbas kandungan yang disyorkan, mereka sering mendapati: Mengapa perkara yang saya lihat sebelum ini ditolak secara intensif? Apakah yang perlu saya lakukan jika perkara yang saya tonton tidak cukup segar? Dalam senario pengesyoran, memberi tumpuan kepada tempoh masa yang lebih singkat akan membawa kepada masalah serius mengejar dan kepompong maklumat Pasukan teknikal Xiaohongshu mengambil berat tentang kepelbagaian jangka panjang dan tingkah laku jangka pendek pengguna Kaedah pemodelan jujukan yang berbeza telah direka, yang membawa peningkatan yang ketara dalam pelbagai dimensi. Di samping itu, mengenai isu kepelbagaian pengesyoran kandungan, pasukan teknikal Xiaohongshu telah menambah baik pendekatan kepelbagaian tradisional daripada algoritma DPP kepada SSD, dan dengan cekap mengira tetingkap gelongsor dalam senario pengesyoran aliran maklumat, sekali gus mengubah kedudukan nilai model artikel tunggal. Modelkan keseluruhan kitaran penyemakan imbas. Perkara ini bergantung pada rangkaian saraf berkembar yang mempelajari persamaan kandungan ekor panjang. Kami telah menerbitkan hasil kerja yang berkaitan pada persidangan KDD 2021 Ia telah berubah daripada anggaran nilai artikel tunggal kepada anggaran nilai urutan, dan daripada kepelbagaian artikel tunggal. kepelbagaian pelbagai artikel Di sebalik tabir Ia juga berdasarkan algoritma SSD dan penilaian persamaan kandungan berdasarkan rangkaian neural berkembar ini. Oleh kerana komuniti Xiaohongshu mengandungi sejumlah besar maklumat yang sangat berguna dalam kehidupan sebenar, ramai pengguna akan merujuk kepada Xiaohongshu Gunakan buku sebagai enjin carian. Ini termasuk beberapa cabaran, seperti mencari dalam pelbagai bentuk data, fenomena ekor panjang yang serius dan isu pemahaman niat. Enjin carian imej dan teks sedia ada boleh mencari gambar melalui teks, tetapi kaedahnya agak mudah Biasanya, gambar ditandakan dengan teks, dan kemudian teks dipadankan. Enjin carian pan-life multi-modal generasi seterusnya yang dibina oleh pasukan Xiaohongshu adalah berdasarkan pemahaman yang mendalam tentang kandungan berbilang modal Ia benar-benar boleh mencari kandungan visual melalui gambar, teks dan teks, dan juga boleh membuat lebih banyak lagi hasil carian yang diperibadikan berdasarkan ciri-ciri carian pengguna. Apakah enjin carian pengetahuan hayat am? Sebagai contoh, kami melihat sehelai pakaian atau kasut yang tampan di Xiaohongshu dan ingin mencari gabungannya dan penampilannya dalam situasi yang berbeza. Ini adalah pencarian untuk pengetahuan kehidupan, dan ia juga merupakan pencarian pelbagai modal. Ini menunjukkan pelbagai mod yang dirancang oleh pasukan teknikal Xiaohongshu, terutamanya untuk seni bina teknikal seperti carian imej Salah satu kebergantungan yang paling kritikal ialah berbilang modul, yang memerlukan pergantungan pada rangkaian saraf berskala besar. . Untuk melakukan pembelajaran representasi, anda boleh mempunyai representasi yang baik tentang kandungan yang terdapat dalam gambar, sama ada pakaian, kasut atau komoditi lain. Adalah sangat baik untuk mendapatkan produk yang sama atau produk serupa daripada sejumlah besar kandungan berbilang modal Ini adalah aplikasi rangkaian saraf berskala besar kami dalam carian. Berbanding dengan platform lain, kandungan komersial Xiaohongshu mempunyai satu perbezaan besar - Biokimia asal. Apa yang dipanggil nativeisasi bermakna pengguna sangat menghargai kandungan daripada suka, komen dan gelagat lain, dan mungkin tidak merasakan bahawa ia adalah kandungan komersial sama sekali. Tetapi bagi peniaga di platform, ambang untuk menghasilkan kandungan komersial sedemikian adalah sangat tinggi. Cara mengimbangi niat perniagaan peniaga dan nilai pengguna kandungan yang dihasilkan adalah isu yang sangat kritikal. Untuk tujuan ini, pasukan teknikal Xiaohongshu menggunakan teknologi generatif berdasarkan rangkaian saraf berskala besar untuk membantu peniaga menjana tajuk dan kandungan yang lebih baik berdasarkan kandungan. Sebagai contoh, peniaga boleh memilih untuk menyatakan berbilang mata jualan, atau memilih untuk menyerlahkan kumpulan pelanggan sasaran, atau gaya Xiaohongshu kegemaran mereka Mesin akan secara automatik memberikan tajuk yang dicadangkan Selepas memetik tajuk yang dicipta oleh mesin, tanpa mengira kesan perniagaan, klik atau Tempoh penginapan telah dipertingkatkan dengan banyak, dan pengguna juga sangat menyukai kandungan jenis ini, jadi ia mencapai keseimbangan yang baik antara perniagaan dan nilai pengguna. Ini sebenarnya berdasarkan model pra-latihan berskala besar, termasuk seni bina model T5, BERT, GPT dan lain-lain yang menerajui industri Seni bina model ini semuanya tersedia di Xiaohongshu dilatih mengenai data berbilang modal. Sebahagian daripada model pra-latihan digunakan untuk memahami kandungan nota, dan sebahagian daripada model pra-latihan digunakan untuk membimbing model generatif untuk menjana tajuk Ini ialah cara teknologi berkaitan digunakan dalam bidang perniagaan. Semua kandungan pembelajaran mesin di atas sebenarnya berdasarkan kecil Platform pembelajaran mesin LarC dibangunkan sendiri oleh pasukan teknikal Buku Merah. Ia dilancarkan pada 2019, dan menjelang 2020 dan 2021, rangka kerja dan platform pembelajaran mesin yang berkaitan telah dipromosikan ke semua bidang seperti carian, pengesyoran dan pengiklanan. Pada 2022, LarC akan menjadi platform. Pada masa ini, keupayaan platform pembelajaran mesin LarC cukup lengkap, meliputi pelbagai peringkat daripada infrastruktur asas kepada rangka kerja pengkomputeran, penjadualan sumber, aplikasi luar talian dan penggunaan dalam talian (termasuk tawaran Bahagian kuning mewakili bahawa ia telah direalisasikan). Dengan platform pembelajaran mesin LarC, pasukan teknikal Xiaohongshu berharap dapat membantu semua pelajar algoritma dengan cepat dan cekap memproses data besar-besaran serta melatih pembelajaran mesin berskala besar dan model pembelajaran mendalam. Xiaohongshu ialah komuniti kandungan yang pesat membangun, "perkongsian sebenar" dan "pengalaman hidup" adalah kata kuncinya. Dalam senario sedemikian dengan data berbilang modal besar dan data maklum balas pengguna, banyak penerokaan teknologi canggih telah dihasilkan. Di atas adalah pilihan beberapa mata daripada sejumlah besar kerja teknikal untuk dikongsi dengan anda Sebenarnya, terdapat lebih banyak kandungan saya harap anda dapat memahami teknologi Xiaohongshu dan pembelajaran mendalam berskala besar daripadanya. Sistem pengesyoran masa nyata untuk beribu-ribu orang
Enjin carian kehidupan umum berbilang modal
AI menjana lebih banyak kandungan komersial asli
Platform pembelajaran mesin berskala besar
3. Ringkasan
Atas ialah kandungan terperinci Mekanisme 'penanaman rumput' Xiaohongshu dinyahsulit buat kali pertama: cara teknologi sistem pembelajaran mendalam berskala besar digunakan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!