Rumah  >  Artikel  >  Peranti teknologi  >  Apa yang dipelajari oleh LinkedIn daripada menggunakan model bahasa yang besar untuk memberi perkhidmatan kepada satu bilion pengguna

Apa yang dipelajari oleh LinkedIn daripada menggunakan model bahasa yang besar untuk memberi perkhidmatan kepada satu bilion pengguna

WBOY
WBOYke hadapan
2024-04-26 16:49:11416semak imbas

Apa yang dipelajari oleh LinkedIn daripada menggunakan model bahasa yang besar untuk memberi perkhidmatan kepada satu bilion pengguna

Dengan lebih daripada 1 bilion pengguna di seluruh dunia, LinkedIn terus mencabar had teknologi perusahaan hari ini. Beberapa syarikat beroperasi seperti LinkedIn, atau mempunyai sumber data yang sama luas.

Platform media sosial tertumpu perniagaan dan pekerjaan ini menghubungkan calon yang layak dengan bakal majikan, membantu mengisi kekosongan pekerjaan adalah perniagaan terasnya. Ia juga penting untuk memastikan siaran di platform mencerminkan keperluan majikan dan pengguna. Di bawah model LinkedIn, proses pemadanan ini sentiasa bergantung pada teknologi.

Menjelang musim panas 2023, apabila GenAI mula-mula mendapat sambutan, LinkedIn mula mempertimbangkan sama ada untuk memanfaatkan model bahasa besar (LLM) untuk memadankan calon dengan majikan dan menjadikan aliran maklumat lebih berguna.

Jadi gergasi media sosial itu memulakan perjalanan GenAI dan kini melaporkan hasil pengalamannya memanfaatkan perkhidmatan Azure OpenAI Microsoft. CIO merentas industri boleh mempelajari beberapa pengajaran daripada LinkedIn sepanjang perjalanan.

Tinggi dan Rendah

Seperti yang dialami oleh kebanyakan CIO, penggunaan teknologi baru muncul disertai dengan percubaan dan kemunduran. Situasi di LinkedIn tidak berbeza, dan menurut Juan Bottaro, jurutera perisian utama syarikat dan ketua teknologi, jalannya ke kerjasama LLM berjalan lancar.

Bottaro berkata keputusan awal "terasa tidak lengkap" dan "tidak menyambung titik yang mencukupi

Gelombang gembar-gembur awal yang mengelilingi GenAI tidak membantu.

"LLM adalah baharu dan merasakan ia menyelesaikan semua masalah," kata Bottaro. "Kami tidak bermula dengan idea yang sangat jelas tentang perkara yang boleh dilakukan oleh LLM." Atau sekurang-kurangnya terlalu literal.

"Adalah tidak praktikal untuk mengklik 'Nilai kesesuaian saya untuk kerja ini' dan mendapatkan 'Anda tidak sesuai sama sekali,'" kata Bottaro. "Kami mahu [tindak balas] tepat dari segi fakta tetapi juga empati. Sesetengah ahli mungkin mempertimbangkan untuk menukar kerjaya ke bidang yang mereka tidak sesuai untuk masa ini dan memerlukan bantuan untuk memahami jurang dan perkara yang perlu dilakukan seterusnya

Jadi, One daripada pelajaran awal utama yang dipelajari di LinkedIn adalah untuk menyesuaikan LLM untuk memenuhi jangkaan khalayak—dan untuk membantu LLM memahami cara bertindak balas dengan cara yang mungkin bukan manusia, tetapi sekurang-kurangnya manusia.

Speed ​​​​Matter

Walaupun LinkedIn mempunyai lebih satu bilion ahli, kebanyakan ciri carian kerja untuk pekerjaan LLM yang bergantung pada LinkedIn pada asalnya disasarkan kepada ahli premium, kumpulan yang agak kecil. (LinkedIn enggan menyatakan bilangan ahli premium yang dimilikinya.)

Apabila beroperasi pada skala yang besar, kelajuan adalah penting, terutamanya dalam sesuatu yang bernuansa memadankan calon dengan jawatan yang berkaitan. Di sini, telah difikirkan bahawa LLM akan membantu kerana kelebihan LLM yang sering disebut ialah kepantasannya, membolehkan mereka menyelesaikan langkah yang kompleks dengan cepat. Tetapi itu tidak berlaku dengan penggunaan LinkedIn, kata Bottaro.

"Saya tidak akan mengatakan LLM pantas. Saya tidak fikir kelajuan adalah satu kelebihan," katanya.

Kelajuan boleh ditakrifkan dalam pelbagai cara. Walaupun secara operasi LLM mungkin tidak sepantas yang diharapkan, Bottaro berkata pecutan keseluruhan proses penempatan adalah menakjubkan. "Kuasa besar teknologi baharu ini ialah anda boleh mencipta prototaip dengan sangat cepat, antara dua hingga tiga bulan. Sebelum teknologi ini, itu tidak mungkin," katanya.

Apabila ditanya berapa lama pelbagai aspek projek akan diambil tanpa LLM, Bottaro berkata sesetengahnya mungkin tidak dapat disiapkan sama sekali, manakala elemen lain "boleh mengambil masa beberapa tahun

Sebagai contoh, Bottaro menyebut bertujuan untuk memahami sistem niat." bahagian. Tanpa LLM, ini akan mengambil masa dua hingga tiga bulan, tetapi LLM menguasainya dalam masa "kurang daripada seminggu."

Pertimbangan Kos

Satu aspek Bottaro memanggil "penghalang" ialah kos. Begitu juga, kos bermaksud perkara yang berbeza pada peringkat projek yang berbeza, seperti yang ditunjukkan oleh pengalaman LinkedIn.

"Jumlah wang yang kami belanjakan untuk pembangunan adalah sangat kecil," kata Bottaro. Tetapi apabila ia datang untuk menyediakan data kepada pelanggan LinkedIn, kosnya melambung tinggi.

"Walaupun hanya untuk beberapa juta ahli," kata Bottaro, mungkin membayangkan jumlah ahli premium, harga telah melambung tinggi. Ini kerana harga LLM - sekurang-kurangnya perjanjian pelesenan LinkedIn dengan Microsoft (penyedia LLM dan syarikat induknya) - adalah berdasarkan penggunaan, khususnya penggunaan token input dan output.

Tarun Thummala, Ketua Pegawai Eksekutif vendor AI, menjelaskan dalam siaran LinkedIn yang tidak berkaitan dengan projek ini bahawa token input dan output LLM secara kasarnya bersamaan dengan 0.75 perkataan. Pembekal LLM biasanya menjual token sebanyak beribu-ribu atau berjuta-juta. Sebagai contoh, Azure OpenAI yang digunakan oleh LinkedIn mengenakan caj $30 setiap 1 juta token input 8K GPT-4 dan $60 setiap 1 juta token keluaran 8K GPT-4 di rantau AS Timur.

Cabaran Penilaian

Satu lagi matlamat ciri yang telah ditetapkan oleh LinkedIn untuk projeknya ialah penilaian automatik. Penilaian LLM dari segi ketepatan, kaitan, keselamatan dan kebimbangan lain sentiasa menjadi cabaran. Organisasi terkemuka dan pengeluar LLM telah cuba mengautomasikan beberapa tugas, tetapi menurut LinkedIn, keupayaan ini "masih dalam proses."

Tiada penilaian automatik dan LinkedIn melaporkan bahawa "jurutera hanya boleh bergantung pada pemeriksaan visual keputusan dan ujian pada set sampel terhad, dan selalunya terdapat kelewatan lebih daripada 1 hari sebelum mengetahui metrik." syarikat sedang membina model berdasarkan Penilai untuk membantu menganggarkan metrik LLM utama seperti skor kualiti keseluruhan, kadar halusinasi, koheren dan pelanggaran AI yang bertanggungjawab. Melakukannya akan mempercepatkan percubaan, dan sementara jurutera LinkedIn telah berjaya dengan pengesanan halusinasi, mereka masih belum selesai dalam bidang ini, kata jurutera syarikat itu.

Kualiti Data

Sebahagian daripada cabaran yang dihadapi oleh LinkedIn dalam usaha pemadanan tugasnya datang kepada isu kualiti data di kedua-dua pihak: majikan dan bakal pekerja.

LLM hanya boleh menggunakan data yang diberikan kepadanya dan kadangkala penyiaran pekerjaan tidak menggambarkan secara tepat atau menyeluruh kemahiran yang dicari oleh majikan. Sebaliknya, sesetengah pencari kerja menyiarkan resume buruk yang tidak menggambarkan pengalaman luas mereka dalam penyelesaian masalah dan bidang lain dengan berkesan.

Dalam hal ini, Bottaro melihat potensi LLM untuk membantu majikan dan bakal pekerja. Dengan menambah baik penulisan, kedua-dua majikan dan pengguna LinkedIn mendapat manfaat, kerana Job Matching LLM syarikat dapat berfungsi dengan lebih cekap apabila kemasukan data adalah berkualiti tinggi.

PENGALAMAN PENGGUNA

Apabila berurusan dengan pangkalan ahli yang begitu besar, metrik ketepatan dan perkaitan boleh "memberi rasa selesa palsu," kata Bottaro. Sebagai contoh, jika LLM "membetulkannya 90 peratus daripada masa, itu bermakna 1 dalam 10 orang akan mengalami pengalaman buruk," katanya.

Apa yang menjadikan penggunaan ini lebih sukar ialah nuansa dan pertimbangan melampau yang terlibat dalam memberikan jawapan yang berguna, membantu dan tepat.

"Bagaimana anda mentakrifkan apa yang baik dan apa yang buruk Kami menghabiskan banyak masa bekerja dengan ahli bahasa untuk membangunkan panduan tentang cara menyediakan perwakilan yang komprehensif," kata Bottaro. "Bagaimana anda melatih orang untuk menulis respons yang betul? Bagaimana anda mentakrifkan tugas, menentukan rupa tindak balas yang sepatutnya? Produk mungkin cuba membina atau membantu. Ia tidak cuba menganggap terlalu banyak, kerana di situlah ilusi bermula. Kami sangat berminat dengan respons Kami amat berbangga dengan konsistensi kami.”

Operasi dalam masa nyata

Skala besar LinkedIn mencipta satu lagi cabaran untuk pemadanan pekerjaan. Dengan satu bilion ahli, iklan kerja mungkin menerima ratusan atau bahkan ribuan respons dalam beberapa minit selepas disiarkan. Ramai pencari kerja mungkin tidak bersusah payah memohon jika mereka melihat bahawa beratus-ratus orang telah memohon. Ini memerlukan LLM mencari ahli yang sepadan dengan cepat dan bertindak balas sebelum pemohon yang kurang berkelayakan menyerahkan bahan. Selepas itu, sama ada ahli melihat pemberitahuan dan membalas tepat pada masanya masih menjadi persoalan.

Di pihak majikan, cabarannya ialah mencari calon yang paling sesuai – tidak semestinya mereka yang paling cepat bertindak balas. Sesetengah syarikat enggan menerbitkan julat gaji, merumitkan lagi usaha kedua-dua belah pihak kerana calon yang paling layak mungkin tidak berminat dengan jumlah yang akan dibayar oleh jawatan tersebut. Ini adalah masalah yang tidak dapat diselesaikan oleh LLM.

API & RAG

Pangkalan data besar LinkedIn mengandungi banyak maklumat unik tentang individu, majikan, kemahiran dan kursus, tetapi LLMnya belum dilatih mengenai data ini. Oleh itu, menurut jurutera LinkedIn, mereka pada masa ini tidak dapat menggunakan aset ini untuk sebarang inferens atau aktiviti menjana tindak balas disebabkan oleh cara aset ini disimpan dan disampaikan.

Di sini, Retrieval Augmented Generation (RAG) ialah penyelesaian biasa. Dengan membina saluran paip kepada API dalaman, perusahaan boleh "meningkatkan" gesaan LLM dengan konteks tambahan untuk membimbing dan mengekang respons LLM dengan lebih baik. Kebanyakan data LinkedIn didedahkan melalui API RPC, yang menurut jurutera syarikat adalah "mudah untuk manusia menghubungi secara pengaturcaraan" tetapi "tidak mesra LLM."

Untuk menyelesaikan masalah ini, jurutera LinkedIn "membungkus kemahiran" di sekeliling APInya, memberikan mereka "huraian mesra LLM tentang perkara yang API lakukan dan masa untuk menggunakannya," bersama dengan butiran konfigurasi, skema input dan output serta penyepaduan setiap versi LLM API memetakan semua logik yang diperlukan kepada versi RPC asasnya (sebenar).

Jurutera LinkedIn menulis dalam satu kenyataan: "Kemahiran seperti ini membolehkan LLM melakukan pelbagai tindakan yang berkaitan dengan produk kami, seperti melihat profil, mencari artikel/orang/pekerjaan/syarikat, dan juga menyoal sistem analitik dalaman " Mereka juga menyebut bahawa "teknologi yang sama digunakan untuk memanggil API bukan LinkedIn seperti carian dan berita Bing." Pendekatan ini bukan sahaja meningkatkan kefungsian LLM tetapi juga meningkatkan integrasinya dengan infrastruktur teknologi sedia ada, membolehkan LLM digunakan dengan lebih meluas dalam semua aspek perusahaan.

Atas ialah kandungan terperinci Apa yang dipelajari oleh LinkedIn daripada menggunakan model bahasa yang besar untuk memberi perkhidmatan kepada satu bilion pengguna. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam