Heim > Artikel > Technologie-Peripheriegeräte > ByteDance Yang Zhenyuan: Wie Douyin maschinelles Lernen sinnvoll nutzt
„Im digitalen Zeitalter können Probleme quantitativ bewertet werden, und maschinelles Lernen kann eine intelligentere und effizientere Optimierung rund um Ziele ermöglichen.“
Am 18. April veröffentlichte Volcano Engine eine Reihe von Cloud-Produkten, darunter das selbst entwickelte DPU und brachte eine neue Version der Plattform für maschinelles Lernen auf den Markt, um Unternehmenskunden dabei zu unterstützen, große KI-Modelle besser zu trainieren. Yang Zhenyuan, Vizepräsident von ByteDance, teilte sein Verständnis des maschinellen Lernens mit dem Thema „Douyins maschinelle Lernpraxis“.
Yang Zhenyuan glaubt, dass die zentrale Wettbewerbsfähigkeit eines maschinellen Lernsystems darin besteht, dass jedes Experiment schnell und kostengünstig durchgeführt werden kann. Algorithmeningenieure können sich auf ihre eigene Arbeit konzentrieren und weiterhin versuchen, Fehler zu machen, und das zu sehr geringen Kosten. Nur so können agile Iterationen und Innovationen im Unternehmen erreicht werden. Er sagte: „Die Plattform für maschinelles Lernen von Volcano Engine ist intern und extern vereinheitlicht. Kunden von Volcano Engine und Douyin nutzen dieselbe Plattform. Ich hoffe, dass diese innerhalb des Unternehmens ausgefeilten Technologien mehr Kunden bedienen und alle bei der Entwicklung intelligenter Innovationen unterstützen können.“
Das Folgende ist der vollständige Text der Rede von Yang Zhenyuan: Guten Morgen! Wie wir alle wissen, sind Douyin und andere Unternehmen interne Kunden von Volcano Engine und laufen alle in der Volcano Engine-Cloud. Heute werde ich einige praktische Erfahrungen aus dem internen Geschäft des Unternehmens teilen: wie die Volcano Engine Douyins Einsatz von maschinellem Lernen unterstützt. Lassen Sie uns zunächst darüber sprechen, warum wir über maschinelles Lernen sprechen müssen. In welchen Szenarien und unter welchen Umständen sollten wir maschinelle Lernsysteme verwenden? Was sind die Herausforderungen beim Einsatz von maschinellem Lernen? Wie haben wir diese Herausforderungen gelöst? Ich denkeein sehr wichtiger Punkt des maschinellen Lernens ist die Digitalisierung des Problems. Erst digitalisieren, dann das Problem quantitativ bewertbar machen. Wenn das Problem quantitativ bewertet werden kann, kann es mithilfe einiger Methoden des maschinellen Lernens intelligent gemacht und weiter optimiert werden.
Einige Freunde fragten mich vorher: „Zhenyuan, kannst du mir helfen, ein Modell zu machen?“ Ich fragte ihn, wofür er dieses Modell verwenden wollte? Tatsächlich hat er selbst nicht klar darüber nachgedacht. Ich möchte den Einsatz von maschinellem Lernen anhand einiger Beispiele erläutern. Können Händler beispielsweise mit Performance-Werbung Kunden mit angemessenem Geld finden? Wenn für die Plattform eine Werbefläche vorhanden ist, kann an dieser Stelle die am besten geeignete Werbung platziert werden? Wie ist dieses Problem zu bewerten? Es ist ganz einfach: Wir schauen uns nur die Conversion-Rate an, sodass das Ziel klar definiert werden kann. Wenn Sie das Ziel klar definieren können, können Sie A/B-Experimente durchführen, beurteilen, welche Methode besser ist, und dann maschinelles Lernen zur weiteren Optimierung nutzen. Letztendlich zeigt sich oft, dass es schwierig ist, mit manuellen Methoden, wie etwa der Auswahl von Benutzern für effektive Werbung, bessere Ergebnisse zu erzielen als mit maschinellem Lernen. Ein weiteres Beispiel ist die Ausgabe von Coupons. An welche Nutzer soll das gleiche Geld verteilt werden, was zu einer längerfristigen Bindung an die Plattform führen kann? Auch das ist eine Frage, die genau quantifiziert und bewertet werden kann. Für ein solches Problem können wir darüber nachdenken, welche Art von Algorithmus wir verwenden und welche Art von maschinellem Lernen wir zur Optimierung verwenden. Kapazitätsdisposition ist ein Feld, das jeder kennt und über die Bestellquote auch quantitativ ausgewertet werden kann. Wenn die Übereinstimmung nicht gut ist, kann ich Fahrer und Passagiere nicht effektiv zusammenbringen. Über autonomes Fahren werde ich nicht viel sagen. Wenn man die Wirkung in diesem Bereich bewerten möchte, gibt es tatsächlich noch mehr Dimensionen, wie Sicherheit, Zeit, Komfort usw. Nach alledem geht es im Kern darum, das Problem klar zu definieren, es zunächst zu digitalisieren und dann intelligent zu machen.Welche Probleme wird es geben, wenn wir maschinelles Lernen für Intelligenz nutzen? Es gibt zwei Hauptprobleme: Das erste ist, dass es kompliziert ist, und das zweite, dass es teuer ist.
Warum ist es kompliziert? Da der Software-Stack für maschinelles Lernen sehr umfangreich ist, ist eine Plattform erforderlich, darunter die PyTorch-Plattform, TensorFlow und viele andere Plattformen. Dazu gehören auch Frameworks, Betriebssysteme und die zugrunde liegende Hardware. Wenn in letzter Zeit alle ausgehen, fragen sie sich gegenseitig, wie viele GPU-Karten sie haben. Wenn Sie keine haben, wird es Ihnen peinlich sein, ihnen Hallo zu sagen. Tatsächlich wissen viele Menschen jedoch nicht, wie effizient der Einsatz dieser Karten ist. Daher ist der Software-Stack des maschinellen Lernens sehr umfangreich und komplex, und jede Verknüpfung muss korrekt und gut ausgeführt werden.Reden wir über das teure Thema. Arbeitskräfte sind teuer, und ein sehr guter Algorithmenentwickler ist sehr teuer und nicht leicht zu finden. Talente sind nicht nur teuer, sondern auch Daten, und qualitativ hochwertige Daten kosten viel. Ganz zu schweigen von der Hardware, jeder kennt den Preis einer Hochleistungs-GPU.
Maschinelles Lernen ist also eine komplexe und teure Sache. Wie geht Douyin mit dieser komplexen und teuren Angelegenheit um und nutzt maschinelles Lernen besser, um die Geschäftsentwicklung zu unterstützen?
Lassen Sie uns unsere Plattform kurz vorstellen. Unsere beiden Hauptplattformen sind die empfohlene Werbeplattform und die andere eine allgemeine Plattform, einschließlich CV (Computer Vision), NLP (Natural Language Processing)-Plattform usw.
Empfohlene Plattform, jede Woche werden Zehntausende Modelle darauf trainiert, da wir viele Produkte haben und Modelle häufig in verschiedenen Szenarien trainieren. Auf der CV/NLP-Plattform wird die Anzahl der Modellschulungen größer sein, mit einem Trainingsumfang von etwa 200.000 Modellen pro Woche. Darüber hinaus laufen täglich zahlreiche Online-Dienste auf diesen beiden Plattformen.
Gib mir ein Beispiel. Das Empfehlungssystem von Douyin verfügt beispielsweise über viele Modelle, von denen eines 15 Monate an Proben zum Trainieren benötigt, was bedeutet, dass Trainingsdaten über 15 Monate kontinuierlich erstellt werden müssen. Diese Datenmenge ist sehr groß. Auf unserer Plattform für maschinelles Lernen benötigen wir jedoch nur 5 Stunden, um das Training dieses Modells abzuschließen, und die berechneten Kosten betragen nur 5.000 Yuan. Als Algorithmusingenieur trainiert er morgens das Modell und führt nachmittags AB-Experimente online durch, was die Effizienz der Produktiteration erheblich verbessert.
Ob maschinelles Lernen gut läuft oder nicht, ich denke, es kann durch dieses Dreieck dargestellt werden, von dem der Algorithmus das wichtigste ist. Der Algorithmus kann einen großen Mehrwert für das Unternehmen schaffen, wenn er in puncto Effektivität die Führung übernimmt. Es gibt zwei Dinge, die die Anforderungen von Algorithmuseffekten unterstützen: das eine ist der Hardware-ROI und das andere der menschliche ROI.
Der Hardware-ROI bezieht sich auf die Kosten pro Modelleinheit. Wenn andere im Marktwettbewerb 10.000 Yuan für die Herstellung eines Modells ausgeben und Sie 10.000 Yuan für die Herstellung von zehn ähnlichen Modellen ausgeben, wird der Kampf stabil sein. Der menschliche ROI bezieht sich auf die Einstellung eines leistungsstarken Algorithmenentwicklers. Ob er sein Potenzial maximieren kann, hängt hauptsächlich davon ab, ob das System ihn dabei unterstützen kann, neue Ideen einfach und schnell genug auszuprobieren.
Wie kann der Hardware-ROI verbessert werden? Gezeiten und gemischte Teile sind einige der Methoden, die wir häufig verwenden. Im Wesentlichen geht es darum, die Geräteauslastung zu verbessern, was auch eine Grundidee von Cloud Native ist. Wir mischen verschiedene Aufgaben zusammen, versetzen die Spitzen der anderen und führen sie durch intelligente Planung mit hoher Auslastung aus. Dies kann die Ressourcenauslastung erheblich verbessern und die Kosten jedes Experiments senken.
Neben den Hardwarekosten ist ein weiterer sehr wichtiger Punkt, ob die Machine-Learning-Infrastruktur einfach genug zu bedienen ist. Nur ein Scherz: Viele Leute, die sich mit Mathematik befassen, mögen es nicht, wenn Sie sich mit Informatik befassen, insbesondere mit Deep Learning. Sie sagen, dass Sie hier sind, um „Elixiere zu machen“, und warum Sie das auch tun Müssen Sie weiterhin Experimente durchführen? Aber aus praktischer Sicht müssen wir weiter experimentieren und versuchen. Viele neue Entdeckungen auf diesem Gebiet werden durch kontinuierliche Versuche gemacht.
Wie man jeden Versuch schneller und billiger macht, das ist der Kern der Wettbewerbsfähigkeit. Es ist schwierig, ein für alle Mal ein perfektes Modell zu erreichen.
Was Volcano Engine tun muss, ist, die Arbeit der Plattform gut zu erledigen. Wie Sie sehen, ist der gesamte Prozess der Datenverarbeitung, des Modelltrainings, der Bewertung, der Online- und AB-Tests einheitlich und über die gesamte Plattform hinweg integriert. Der Algorithmus-Ingenieur muss nicht wiederholt mit verschiedenen Links kommunizieren und verschiedene Unternehmen verbinden. Er kann sich mehr auf seine eigene Arbeit konzentrieren.
Schauen wir uns ein weiteres Beispiel an. Dies ist ein sehr interessanter Spezialeffekt (TikTok AI-Gemälde). Gegen Ende des letzten Jahres erfreute sich dieser Spezialeffekt besonderer Beliebtheit. Ratet mal, wie viel Arbeitskraft Douyin in die Herstellung dieses Spezialeffekts investiert hat? Viele Leute hätten vielleicht nicht gedacht, dass der Algorithmus-Ingenieur eine Person investierte und einige Forschungscodes auf der Plattform schrieb. Es dauerte etwa eine Woche, bis das Training des Modells abgeschlossen war, und nach einigen Anpassungen wurde es online veröffentlicht.
Zu diesem Zeitpunkt wurde ein Spitzenverkehr des Produkts von 200 QPS erwartet. Unerwarteterweise würde es innerhalb weniger Stunden nach dem Start voll sein. Wir haben schnell viel erweitert und die Kapazität wurde in kurzer Zeit um das Zehnfache erweitert, um 20.000 QPS zu unterstützen.
Sie können den gesamten Prozess sehen. Die Anzahl der teilnehmenden Personen ist sehr gering und die Expansionseffizienz ist ebenfalls sehr hoch. Viele Leute sagen, dass das Modelltraining teuer ist. Tatsächlich werden die Kosten für die Inferenz auf lange Sicht deutlich höher sein als für das Training. Die Inferenzeffizienz des KI-Malmodells auf der Volcano Engine-Plattform ist etwa fünfmal schneller als die des nativen Pytorch-Modells. Nach der Online-Schaltung wurden einige gezielte Optimierungen vorgenommen, und es kann sogar noch schneller sein, etwa zehnmal schneller, was eine Verbesserung um eine Größenordnung darstellt.
Mit einer solchen Plattformunterstützung können Ingenieure schnell verschiedene Ideen ausprobieren, egal ob es sich um die Verfolgung von Fortschritten oder um bahnbrechende Innovationen handelt, sie können es schnell umsetzen.
Schließlich können Sie sehen, dass bei einigen Apps wie Douyin, Toutiao und Dianchedi auf dem Bildschirm Folgendes angezeigt wird: Volcano Engine bietet Computerdienste an. Die Plattform für maschinelles Lernen, über die wir sprechen, ist intern und extern vereinheitlicht und Douyin nutzt dieselbe Plattform. Ich hoffe, dass diese im Unternehmen verfeinerten Technologien mehr Kunden bedienen und alle bei intelligenten Innovationen unterstützen können. Vielen Dank euch allen.
Das obige ist der detaillierte Inhalt vonByteDance Yang Zhenyuan: Wie Douyin maschinelles Lernen sinnvoll nutzt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!