Rumah  >  Artikel  >  Peranti teknologi  >  Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

王林
王林ke hadapan
2023-04-11 12:34:031852semak imbas

​"komitmen sumber terbuka" Musk akhirnya menjadi kenyataan.

Sebentar tadi, Musk mengumumkan secara rasmi:

Kebanyakan algoritma pengesyoran (Twitter) akan menjadi sumber terbuka hari ini, dan selebihnya akan menyusul.

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Dan Musk segera menunjukkan alamat kod sumber algoritma pengesyoran Twitter pada GitHub.

Dalam beberapa jam sahaja, puluhan ribu Bintang telah diperolehi:

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Selain itu, Musk juga berkata:

Push The algoritma pengesyoran berdasarkan cadangan pengguna akan dikemas kini setiap 24 hingga 48 jam.

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Pada ketika ini, wajah sebenar algoritma besar ini yang mendakwa membuat pengesyoran daripada 500 juta tweet setiap hari akhirnya telah didedahkan.

Apakah rupa algoritma pengesyoran Twitter?

Menurut laporan, sistem pengesyoran Twitter adalah berdasarkan satu set model teras dan fungsi yang boleh mengekstrak maklumat berpotensi daripada tweet, pengguna dan data interaksi.

Peranan model ini adalah untuk menjawab soalan penting dalam rangkaian Twitter, seperti, “Apakah kebarangkalian anda akan berinteraksi dengan pengguna lain pada masa hadapan atau, “Komuniti apakah yang terdapat di Twitter? dan apakah tweet trending yang ada? "

Jika anda boleh menjawab soalan ini dengan tepat, anda boleh membenarkan Twitter memberikan pengesyoran yang lebih berkaitan.

Sistem pengesyoran Twitter terdiri daripada tiga bahagian:

  • Dapatkan tweet terbaik daripada sumber pengesyoran yang berbeza Proses ini dipanggil sumber calon.
  • Gunakan model pembelajaran mesin untuk menentukan kedudukan setiap tweet.
  • Gunakan heuristik dan penapis, seperti menapis tweet daripada pengguna yang disekat, kandungan NSFW dan tweet yang dilihat.

Perkhidmatan yang bertanggungjawab membina dan menyediakan garis masa "Untuk Anda" dipanggil "Pengadun Rumah".

"Pengadun Rumah" dibina di atas "Pencampur Produk", rangka kerja Scala tersuai yang membantu membina aliran kandungan yang dinamik.

Perkhidmatan ini berfungsi sebagai tulang belakang perisian, menghubungkan sumber calon yang berbeza, fungsi pemarkahan, heuristik dan penapis.

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Sumber Calon

Twitter menggunakan berbilang sumber calon untuk mendapatkan tweet terbaru dan berkaitan untuk pengguna.

Untuk setiap permintaan, Twitter cuba menarik 1,500 tweet terbaik daripada kumpulan ratusan juta tweet daripada sumber ini.

Cari calon daripada orang yang anda ikuti (rangkaian dalaman) dan orang yang anda tidak ikuti (rangkaian luaran).

Hari ini, secara purata, garis masa "Disyorkan untuk Anda" terdiri daripada 50% tweet rangkaian dalaman dan 50% tweet rangkaian luaran (walaupun ini mungkin berbeza mengikut pengguna).

Sumber Dalam Rangkaian (Sumber Dalam Rangkaian)

Sumber Dalam Rangkaian ialah sumber calon terbesar dan direka bentuk untuk memberikan tweet paling relevan dan terkini kepada pengguna yang mengikuti.

Ia menggunakan model regresi logistik untuk menilai tweet daripada orang yang anda ikuti dengan cekap, berdasarkan kaitannya. Tweet kedudukan teratas kemudiannya dihantar ke peringkat seterusnya.

Komponen paling penting dalam pemeringkatan tweet rangkaian dalaman ialah Graf Sebenar.

Graf Sebenar ialah model yang digunakan untuk meramalkan kemungkinan interaksi antara dua pengguna. Lebih tinggi skor Graf Sebenar antara pengguna dan pengarang tweet, lebih banyak tweet mereka akan disertakan.

Sumber rangkaian dalaman telah menjadi subjek kajian Twitter baru-baru ini. Twitter baru-baru ini berhenti menggunakan perkhidmatan Fanout, perkhidmatan berusia 12 tahun yang digunakan untuk menyampaikan tweet daripada rangkaian dalamannya daripada cache tweet setiap pengguna.

Sumber Luar Rangkaian

Mencari tweet yang berkaitan di luar rangkaian pengguna adalah masalah rumit.

Kerana jika anda tidak mengikuti pengarang, bagaimana anda tahu jika tweet itu berkaitan dengan anda?

Untuk tujuan ini, Twitter telah mengambil dua pendekatan untuk menyelesaikan masalah ini.

Salah satunya ialah Graf Sosial.

Kaedah ini adalah untuk menganggarkan perkara yang anda akan dapati berkaitan dengan menganalisis aktiviti orang yang anda ikuti atau mempunyai minat yang sama.

Terutamanya melintasi graf yang mengambil bahagian dan ikuti langkah di bawah untuk menjawab soalan berikut:

  • Apakah yang telah disiarkan oleh orang yang saya ikuti baru-baru ini di Twitter?
  • Siapa yang suka tweet serupa seperti saya dan apa lagi yang mereka suka baru-baru ini?

Pasukan menjana tweet calon berdasarkan jawapan kepada soalan ini dan menggunakan model logit untuk menentukan kedudukan tweet yang terhasil.

Jenis traversal graf ini penting untuk pengesyoran rangkaian luaran, pasukan membangunkan GraphJet, enjin pemprosesan graf yang mengekalkan graf interaksi masa nyata antara pengguna dan tweet, untuk melaksanakan traversal ini.

Walaupun heuristik untuk mencari penglibatan Twitter dan mengikuti rangkaian ini terbukti berguna, pendekatan spatial terbenam telah menjadi sumber tweet yang lebih besar daripada rangkaian luaran.

Yang kedua ialah Membenamkan Ruang.

Kaedah spatial terbenam bertujuan untuk menjawab soalan yang lebih umum tentang persamaan kandungan - apakah tweet dan pengguna yang berkongsi minat saya?

Pembenaman berfungsi dengan menjana perwakilan digital minat pengguna dan kandungan tweet. Persamaan antara mana-mana dua pengguna, tweet atau pasangan tweet pengguna dalam ruang benam ini kemudiannya boleh dikira.

Persamaan ini boleh digunakan sebagai pengganti untuk korelasi selagi benam yang tepat dihasilkan.

Salah satu ruang pembenaman Twitter yang paling berguna ialah SimClusters.

SimClusters menggunakan algoritma pemfaktoran matriks tersuai untuk menemui komuniti yang berlabuh oleh sekumpulan pengguna berpengaruh (145,000 komuniti, dikemas kini setiap tiga minggu).

Pengguna dan tweet diwakili dalam ruang komuniti dan boleh dimiliki oleh berbilang komuniti. Saiz komuniti terdiri daripada beberapa ribu pengguna dalam kumpulan rakan individu hingga ratusan juta dalam berita atau budaya pop:

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Lagi dengan Untuk butiran berkaitan , sila klik pada pautan di penghujung artikel~

One More Thing

Algoritma Twitter adalah sumber terbuka, dan netizen pantas...telah mula meringkaskan bagaimana untuk menjadi V besar berdasarkan algoritma :

Nisbah bilangan orang yang anda ikuti dan bilangan orang yang mengikuti anda adalah sangat penting Melanggan TwitterBlue memainkan peranan tertentu...

Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam

Pautan rujukan:
[1]​​​https://www.php.cn/link/ce2b9a26bddc32cba5af69372ee14c00​​​
[2]​ ​​https://www.php.cn /link/e55bc0255c752d1cb05da10c0f1f5026​​​
[3]​​​https://www.php.cn/link/10fe8dc49eda10fe8dc49a ​​
[4]​​https://www.php.cn/link/51f4efbfb3e18f4ea053c4d3d282c4e2​

Atas ialah kandungan terperinci Algoritma pengesyoran Twitter sumber terbuka Musk, GitHub mencapai 10,000 bintang dalam beberapa saat, dan berjanji untuk berkembang setiap 24-48 jam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam