Heim > Artikel > Technologie-Peripheriegeräte > Der „Graspflanzungs“-Mechanismus von Xiaohongshu wird zum ersten Mal entschlüsselt: Wie groß angelegte Deep-Learning-Systemtechnologie angewendet wird
Die neue Generation der Informationstechnologie unter der Führung von KI treibt eine neue Technologiewelle voran. Als eine der sich in den letzten Jahren am schnellsten entwickelnden mobilen Internetplattformen in China hat Xiaohongshu die Dynamik genutzt und inzwischen eine sehr große UGC-Community mit Schwerpunkt auf Grafik-, Text- und kurzen Videoinhalten gebildet. In dieser einzigartigen und aktiven Community werden täglich umfangreiche multimodale Daten und Rückmeldungen zum Benutzerverhalten generiert, was zu neuen Problemen führt, die sowohl wertvoll als auch herausfordernd sind.
Es gibt derzeit viele spannende Entwicklungen bei groß angelegten Deep-Learning-Systemen. Auf der Veranstaltung „Xiaohongshu REDtech Youth Technology Salon“ am 15. Oktober teilte Xiaohongshu Vice President of Technology Cage „Groß angelegte Deep-Learning-Systemtechnologie und ihre Anwendung in Xiaohongshu“ und stellte LarC für uns vor.
Cage: Vizepräsident für Technologie von Xiaohongshu. Er war Vizepräsident für Technologie von YYY Times und Chefarchitekt von Baidu Fengchao, verantwortlich für die Arbeit des maschinellen Lernalgorithmus für Suchmaschinenwerbung. Er fungierte einst als technischer Leiter des IBM Deep Question Answering (DeepQA)-Projekts in China. Der folgende Inhalt basiert auf Cages Bericht vor Ort Menschen, die das Leben verstehen, Menschen, die gerne teilen, tauschen hier ihre Lebenserfahrungen und Einstellungen miteinander aus und es lockt immer mehr Benutzer an, sich anzuschließen. Mittlerweile hat Xiaohongshu 200 Millionen aktive Nutzer pro Monat, von denen mehr als 70 % in den 1990er-Jahren geboren sind, 50 % der Nutzer aus Städten der ersten und zweiten Ebene und die Hälfte aus Städten der dritten und vierten Ebene der Nutzer ist sehr reich und jung.
„Normale Menschen“ teilen ihre „echten“ „Lebenserfahrungen“, was einen sehr großen Unterschied zwischen Xiaohongshu und anderen Content-Plattformen und Communities darstellt. Erstens sind die Teilnehmenden „normale Menschen“. Zweitens sind „aufrichtiges Teilen und freundlicher Umgang“ die Konventionen der Xiaohongshu-Gemeinschaft, und „Aufrichtigkeit“ ist ein sehr wichtiger Punkt. Das Teilen in diesen Communities steht in engem Zusammenhang mit unserem Offline-Lebenskonsum, wie z. B. Treasure Bookstore oder wie man sich kleidet, dekoriert, kocht usw., die die tägliche „Lebenserfahrung“ eines jeden sind.
Wir können auch einige Zahlen verwenden, um die Entwicklung der Xiaohongshu-Community im Laufe der Jahre zu messen. Wir sehen, dass die Anzahl der veröffentlichten Notizen von 2018 bis 2021 und von 2020 bis 2021 jedes Jahr sehr schnell wächst Das Veröffentlichungsvolumen von Xiaohongshu-Benutzernotizen stieg im Vergleich zum Vorjahr um mehr als 150 %.In einer sich so schnell entwickelnden Content-Community sind die drei wichtigsten Unternehmen Community, Kommerzialisierung und E-Commerce.
Zuallererst ist unsere Content-Community und Content-Plattform eine Lifestyle-Content-Community, die alle Lebenskategorien abdeckt, hauptsächlich UGC
. Auch aufgrund dieser Art des „aufrichtigen Teilens“, das zum Leben und zum täglichen Konsum passt, haben Benutzer ein hohes Maß an Vertrauen in unsere Community-Inhalte. Jeder wird „geimpft“, wenn er gute Lebensstile, Verbraucherinhalte, Dienstleistungen und Produkte usw. sieht. „Gras“,Wir nutzen unser einzigartiges Geschäftsmodell „Graspflanzung“, um eine Marken- und Wirkungstransformation herbeizuführen
.
Mittlerweile beträgt die Zahl der Feedback-Beispiele, die tatsächlich jeden Tag durch das Nutzerverhalten generiert werden, mehrere zehn Milliarden.
Wie man benutzerinteressierte Inhalte und gute Geschäftsinhalte in massiven multimodalen Daten abbautAusgehend von diesem Ziel werden viele wertvolle und herausfordernde Probleme abgeleitet.Wie lösen wir diese Technologien?
Wenn Sie Xiaohongshu öffnen, sehen Sie als Erstes den aufgelisteten Wasserfall- oder Inhaltsfluss. Dies sind die Inhalte, die das Empfehlungssystem allen empfiehlt. Laut Statistik generiert Xiaohongshu täglich Dutzende Milliarden Benutzeraktionen. Für diese Daten verwendet das technische Team von Xiaohongshu ein auf LarC basierendes Machine-Learning-Framework, um das Modell zu trainieren. Basierend auf den Regeln im Benutzerverhalten findet es Inhalte, an denen Benutzer interessiert sind, und empfiehlt sie den Benutzern.
Das Bild unten zeigt die allgemeine Struktur des Xiaohongshu-Empfehlungsmodells. Dabei handelt es sich um ein Multitasking-Modell für maschinelles Lernen, das die Klicks des Benutzers, die Verweildauer, ob er liken und sammeln möchte usw. vorhersagen kann. Angesichts der enormen Koeffizientenparameter, die von der Xiaohongshu-Plattform generiert werden, aktualisiert und erfasst Xiaohongshu diese Parameter über einen sehr großen konfliktfreien Parameterserver.
Das Online-Training des empfohlenen Systems ist wie folgt. Wenn Benutzer den Informationsfluss durchsuchen, erfasst das Empfehlungssystem das Surfen, Klicken, Liken und andere Verhaltensweisen des Benutzers in Echtzeit. Diese Verhaltensweisen werden basierend auf der Echtzeitverarbeitungs-Computing-Engine gespleißt, um leistungsstarke Beispiele zu generieren werden in Echtzeit zur Vorhersage an das Modell gesendet. Gleichzeitig werden diese kurzlebigen akkumulierten Proben auch für ein sehr kurzes Online-Training zur Aktualisierung der Modellparameter verwendet. Diese aktualisierten Modellparameter werden sofort online veröffentlicht, um die nächste Anfrage zu bearbeiten. Der gesamte Vorgang dauert nur wenige Minuten.
Es gibt auch eine klassische Frage in der Branche: Wenn Leute beispielsweise empfohlene Inhalte durchsuchen, stellen sie oft fest: Warum werden Dinge, die ich zuvor gesehen habe, intensiv gepusht? Was soll ich tun, wenn die Dinge, die ich mir ansehe, nicht frisch genug sind?
In Empfehlungsszenarien führt die Konzentration auf kürzere Zeiträume zu ernsthaften Problemen bei der Verfolgung und Informationskokonierung. Das technische Team von Xiaohongshu hat verschiedene Sequenzmodellierungsmethoden für das unterschiedliche lang- und kurzfristige Verhalten der Benutzer entwickelt in mehreren Dimensionen. Darüber hinaus hat das technische Team von Xiaohongshu im Hinblick auf das Diversitätsproblem der Inhaltsempfehlung den traditionellen Diversitätsansatz vom DPP- zum SSD-Algorithmus verbessert und das Gleitfenster im Informationsfluss-Empfehlungsszenario effizient berechnet und so das Wertranking einzelner Artikelmodelle transformiert gesamten Browsing-Zyklus. Dies beruht darauf, dass das neuronale Zwillingsnetzwerk die Ähnlichkeit von Long-Tail-Inhalten lernt.
Wir haben entsprechende Arbeitsergebnisse auf der KDD 2021-Konferenz veröffentlicht. Es hat sich von der Schätzung des Werts eines einzelnen Artikels zur Schätzung des Werts einer Sequenz und von der Vielfalt eines einzelnen Artikels zur Vielfalt mehrerer Artikel gewandelt Es basiert auch auf dem dahinter stehenden SSD-Algorithmus und der Bewertung der Inhaltsähnlichkeit auf der Grundlage dieses siamesischen neuronalen Netzwerks.
Da die Xiaohongshu-Community eine große Menge sehr nützlicher Informationen im wirklichen Leben enthält, werden viele Benutzer Xiaohongshu als Suchmaschine verwenden. Dazu gehören einige Herausforderungen, wie die Suche in mehreren Datenformen, schwerwiegende Long-Tail-Phänomene und Probleme beim Verständnis von Absichten.
Bestehende Bild- und Textsuchmaschinen können anhand von Text nach Bildern suchen, die Methode ist jedoch relativ einfach. Normalerweise werden die Bilder mit Text markiert und dann mit dem Text abgeglichen. Die vom Xiaohongshu-Team entwickelte multimodale Pan-Life-Suchmaschine der nächsten Generation basiert auf einem umfassenden Verständnis multimodaler Inhalte. Sie kann tatsächlich nach visuellen Inhalten anhand von Bildern, Texten und Texten suchen und auch mehr erstellen personalisierte Suchergebnisse basierend auf den Merkmalen des Benutzers.
Was ist eine Pan-Life-Wissenssuchmaschine? Wir sehen zum Beispiel auf Xiaohongshu ein gut aussehendes Kleidungsstück oder Schuhe und möchten nach dessen Kombinationen suchen und wie es in verschiedenen Situationen aussieht. Dies ist eine Suche nach Lebenswissen, und es ist auch eine multimodale Suche.
Dies zeigt die vom Xiaohongshu-Technikteam geplante Multimodalität, insbesondere für technische Architekturen wie die Bildsuche. Eine der kritischsten Abhängigkeiten ist das Feature-Multimodul, das für das Repräsentationslernen große neuronale Netze erfordert kann eine gute Darstellung des im Bild enthaltenen Inhalts bieten, unabhängig davon, ob es sich um Kleidung, Schuhe oder andere Waren handelt. Es ist sehr gut, dieselben oder ähnliche Produkte aus einer großen Menge multimodaler Inhalte abzurufen. Dies ist eine Anwendung unseres großen neuronalen Netzwerks bei der Suche.
Im Vergleich zu anderen Plattformen weisen die kommerziellen Inhalte von Xiaohongshu einen großen Unterschied auf – die Nativeisierung. Die sogenannte Nativeisierung bedeutet, dass Benutzer den Inhalt aufgrund von „Gefällt mir“-Angaben, Kommentaren und anderen Verhaltensweisen sehr schätzen und möglicherweise überhaupt nicht das Gefühl haben, dass es sich um kommerziellen Inhalt handelt. Doch für Händler auf der Plattform ist die Hemmschwelle, solche kommerziellen Inhalte zu produzieren, sehr hoch. Es ist von entscheidender Bedeutung, ein gutes Gleichgewicht zwischen den Geschäftsabsichten der Händler und dem Nutzerwert der produzierten Inhalte zu finden.
Zu diesem Zweck nutzt das technische Team von Xiaohongshu generative Technologie auf Basis groß angelegter neuronaler Netze, um Händlern dabei zu helfen, basierend auf den Inhalten bessere Titel und Inhalte zu generieren. Beispielsweise können Händler mehrere Verkaufsargumente zum Ausdruck bringen oder Zielgruppen oder ihren bevorzugten Xiaohongshu-Stil hervorheben. Die Maschine gibt automatisch Titelvorschläge aus, die von der Maschine erstellt wurden, unabhängig von geschäftlichen Auswirkungen. Die Klicks bzw. Verweildauer wurden deutlich verbessert und auch die Nutzer mögen diese Art von Inhalten sehr, sodass eine gute Balance zwischen Geschäfts- und Nutzerwert erreicht wird.
Dies basiert tatsächlich auf groß angelegten Modellen vor dem Training, einschließlich der branchenweit führenden Modellarchitekturen wie T5, BERT und GPT. Diese Modellarchitekturen werden auf den umfangreichen multimodalen Daten von Xiaohongshu trainiert. Ein Teil des vorab trainierten Modells wird verwendet, um den Inhalt von Notizen zu verstehen, und ein Teil des vorab trainierten Modells wird verwendet, um das generative Modell zum Generieren von Titeln zu steuern. Auf diese Weise werden verwandte Technologien im Geschäftsfeld angewendet.
Alle oben genannten Inhalte für maschinelles Lernen basieren tatsächlich auf der vom technischen Team von Xiaohongshu selbst entwickelten Plattform für maschinelles Lernen LarC. Es wurde 2019 eingeführt und in den Jahren 2020 und 2021 wurden verwandte Frameworks und Plattformen für maschinelles Lernen in allen Bereichen wie Suche, Empfehlung, Werbung usw. gefördert. Im Jahr 2022 wird LarC zur Plattform.
Derzeit sind die Funktionen der LarC-Plattform für maschinelles Lernen recht umfassend und decken mehrere Ebenen ab, von der zugrunde liegenden Infrastruktur bis hin zum Computer-Framework, der Ressourcenplanung, Offline-Anwendungen und der Online-Bereitstellung (der gelbe Teil zeigt an, dass sie implementiert wurde).
Mit der LarC-Plattform für maschinelles Lernen hofft das technische Team von Xiaohongshu, allen Algorithmenstudenten dabei zu helfen, riesige Datenmengen schnell und effizient zu verarbeiten und groß angelegte Modelle für maschinelles Lernen und Deep Learning zu trainieren.
Xiaohongshu ist eine sich schnell entwickelnde Content-Community, „echtes Teilen“ und „Lebenserfahrung“.
In einem solchen Szenario mit riesigen multimodalen Daten und Benutzer-Feedback-Daten wurden viele innovative Technologieexplorationen hervorgebracht. Das Obige ist eine Auswahl einiger Punkte aus einer großen Menge technischer Arbeit, die ich mit Ihnen teilen möchte. Tatsächlich gibt es noch viel mehr Inhalte. Ich hoffe, dass jeder die Technologie von Xiaohongshu verstehen und daraus tiefgreifende Erkenntnisse gewinnen kann.
Das obige ist der detaillierte Inhalt vonDer „Graspflanzungs“-Mechanismus von Xiaohongshu wird zum ersten Mal entschlüsselt: Wie groß angelegte Deep-Learning-Systemtechnologie angewendet wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!