Heim >Technologie-Peripheriegeräte >KI >Schulungskostenoptimierungspraxis des Tencent-Werbemodells basierend auf „Tai Chi'
In den letzten Jahren haben sich Big-Data-Augmented-Modelle zum Standardparadigma für die Modellierung im KI-Bereich entwickelt. In der Werbeszene nutzen große Modelle mehr Modellparameter und nutzen mehr Trainingsdaten. Die Modelle verfügen über stärkere Speicherkapazitäten und Generalisierungsfähigkeiten, was mehr Raum für die Verbesserung der Werbeeffekte eröffnet. Allerdings sind auch die für große Modelle im Trainingsprozess benötigten Ressourcen exponentiell gestiegen und der Speicher- und Rechendruck stellt große Herausforderungen für die Plattform für maschinelles Lernen dar.
Die Tencent Taiji Machine Learning Platform erforscht weiterhin Lösungen zur Kostenreduzierung und Effizienzsteigerung. Sie nutzt Hybrid-Bereitstellungsressourcen in Offline-Werbeschulungsszenarien, um die Ressourcenkosten erheblich zu senken. Sie stellt Tencent Advertising täglich 50 W kostengünstige Hybrid-Bereitstellungsressourcen zur Verfügung Die Ressourcenkosten für das Offline-Modelltraining von Tencent Advertising werden um 30 % reduziert, und durch eine Reihe von Optimierungsmethoden entspricht die Stabilität der gemeinsam genutzten Ressourcen der von normalen Ressourcen.
Da große Modelle in den letzten Jahren große Erfolge bei der Eroberung verschiedener Big-Data-Aufträge im Bereich NLP erzielt haben, sind Big-Data-Plus-Modelle zum Standardparadigma für die Modellierung im KI-Bereich geworden. Die Modellierung von Suche, Werbung und Empfehlung ist keine Ausnahme. Mit Hunderten von Milliarden Parametern auf Schritt und Tritt sind T-Modelle zum Standard für große Vorhersageszenarien geworden Unternehmen.
In der Werbeszene verwenden große Modelle mehr Modellparameter und mehr Trainingsdaten. Die Modelle verfügen über stärkere Gedächtnis- und Generalisierungsfähigkeiten, was mehr Raum für die Verbesserung der Werbeeffekte eröffnet. Allerdings sind auch die Ressourcen, die für große Modelle im Trainingsprozess benötigt werden, exponentiell gestiegen, und der Speicher- und Rechendruck stellt große Herausforderungen für die Plattform für maschinelles Lernen dar. Gleichzeitig wirkt sich die Anzahl der Experimente, die die Plattform unterstützen kann, direkt auf die Effizienz der Algorithmusiteration aus. Der Schwerpunkt der Bemühungen der Plattform liegt darin, mehr experimentelle Ressourcen zu geringeren Kosten bereitzustellen.
Die Tencent Taiji Machine Learning Platform erforscht weiterhin Lösungen zur Kostenreduzierung und Effizienzsteigerung. Sie nutzt Hybrid-Bereitstellungsressourcen in Offline-Werbeschulungsszenarien, um die Ressourcenkosten erheblich zu senken. Sie stellt Tencent Advertising täglich 50 W kostengünstige Hybrid-Bereitstellungsressourcen zur Verfügung Die Ressourcenkosten für die Offline-Modellschulung von Tencent Advertising werden um 30 % gesenkt, und durch eine Reihe von Optimierungsmethoden ist die Stabilität der am gleichen Standort befindlichen Ressourcen dieselbe wie bei normalen Ressourcen.
Die Taiji-Plattform für maschinelles Lernen ist bestrebt, Benutzern die Möglichkeit zu geben, sich stärker auf die Lösung und Anwendung von KI-Problemen im Unternehmen zu konzentrieren, und Algorithmus-Ingenieure bieten Lösungen aus einer Hand KI-Anwendungsprozess, Modellschulung, Modellservice und andere technische Fragen. Derzeit werden wichtige Unternehmen wie unternehmensinterne Werbung, Suche, Spiele, Tencent Conference und Tencent Cloud unterstützt.
Taiji Advertising Platform ist eine leistungsstarke Plattform für maschinelles Lernen, die von Taiji Advertising System entwickelt wurde und Modelltraining und Online-Argumentation integriert. Die Plattform verfügt über die Trainings- und Argumentationsfunktionen von Billionen-Parameter-Modellen. Derzeit unterstützt die Plattform Tencent-Werberückrufe, Grobranking, Feinranking, Dutzende von Modellschulungen und Online-Inferenzen. Gleichzeitig bietet die Taiji-Plattform eine zentrale Funktionsregistrierung, ergänzende Beispielaufzeichnung, Modellschulung, Modellbewertung und Online-Tests Fähigkeiten, wodurch die Fähigkeiten erheblich verbessert werden. Verbessern Sie die Entwicklereffizienz.
Mit der kontinuierlichen Weiterentwicklung der Taiji-Plattform nimmt die Anzahl der Aufgaben und Aufgabentypen zu und der Ressourcenbedarf steigt auch zunehmend. Um die Kosten zu senken und die Effizienz zu steigern, verbessert die Tai Chi-Plattform einerseits die Plattformleistung und erhöht andererseits die Trainingsgeschwindigkeit. Außerdem suchen wir nach günstigeren Ressourcen, um den wachsenden Ressourcenbedarf zu decken.
Fengluan – Tencents interne Cloud-native Big-Data-Plattform nutzt Cloud-native-Technologie, um die gesamte Big-Data-Architektur des Unternehmens zu aktualisieren. Um den kontinuierlich wachsenden Ressourcenbedarf des Big-Data-Geschäfts zu decken, hat Fengluan Co-Location-Ressourcen eingeführt, die nicht nur den Ressourcenbedarf decken, sondern auch die Ressourcenkosten erheblich senken können. Fengluan bietet eine Reihe von Lösungen für Co-Location-Ressourcen in verschiedenen Szenarien und wandelt instabile Co-Location-Ressourcen in stabile Ressourcen um, die für das Unternehmen transparent sind. Die Co-Location-Funktion von Fengluan unterstützt drei Arten von Co-Location-Ressourcen:
Gleichzeitig führt Fengluan die Cloud-native virtuelle Clustertechnologie ein, um die Streuungseigenschaften abzuschirmen, die durch die zugrunde liegenden gemischten Bereitstellungsressourcen verursacht werden aus verschiedenen Städten und Regionen. Die Taiji-Plattform stellt eine direkte Verbindung zum Fengluan-Mietercluster her, der einer Vielzahl zugrunde liegender Co-Location-Ressourcen entspricht. Der Mietercluster verfügt über eine unabhängige und vollständige Clusterperspektive, und die Taiji-Plattform kann auch nahtlos verbunden werden.
Fengluan hat die vollständige Offline-Mischbereitstellungslösung von Caelus selbst entwickelt, indem Online- und Offline-Operationen gemischt werden Auf diese Weise können wir die ungenutzten Ressourcen von Online-Maschinen vollständig nutzen, die Ressourcennutzung von Online-Maschinen verbessern und die Ressourcenkosten von Offline-Vorgängen senken.
Wie in der folgenden Abbildung dargestellt, handelt es sich um die Grundarchitektur von Caelus. Die verschiedenen Komponenten und Module arbeiten in vielen Fällen zusammen, um die Qualität der gemischten Bereitstellung sicherzustellen Aspekte.
Erstens gewährleistet Caelus in vollem Umfang die Servicequalität des Online-Betriebs, die auch eine der wichtigen Voraussetzungen für Co-Location ist, wie zum Beispiel: durch schnelle Störungserkennung und Verarbeitungsmechanismen. Erfassen Sie aktiv die Qualität von Online-Diensten, verarbeiten Sie diese zeitnah und unterstützen Sie Plug-in-Erweiterungsmethoden, um die spezifischen Interferenzerkennungsanforderungen des Unternehmens zu unterstützen und eine hohe Priorität von Online-Diensten durch volldimensionale Ressourcenisolierung sicherzustellen Ressourcenmanagementstrategien usw.
Zweitens gewährleistet Caelus die SLO von Offline-Jobs in vielerlei Hinsicht, wie zum Beispiel: Zuordnung geeigneter Ressourcen zu Jobs durch Co-Location-Ressourcen und Offline-Jobporträts, um Ressourcenkonkurrenz zu vermeiden, Priorisierung von Räumungen und Unterstützung eines ordnungsgemäßen Ausstiegs Die Strategie ist flexibel und kontrollierbar. Im Gegensatz zu Big-Data-Offline-Jobs, bei denen es sich meist um kurze Jobs (Minuten oder sogar Sekunden) handelt, dauert die Ausführung der meisten Tai-Chi-Jobs länger (Stunden oder sogar Tage). Durch langfristige Ressourcenvorhersagen und Jobporträts können wir die Planung besser steuern, um geeignete Ressourcen für Jobs mit unterschiedlichen Laufzeiten und unterschiedlichen Ressourcenanforderungen zu finden, und vermeiden, dass Jobs nach stunden- oder sogar tagelanger Ausführung verworfen werden, was zum Verlust des Jobstatus führt. Verschwendung von Ressourcen und Zeit. Wenn ein Offline-Job entfernt werden muss, wird zuerst die Live-Migration zur Laufzeit verwendet, um die Jobinstanz von einem Computer auf einen anderen zu migrieren, während der Speicherstatus und die IP unverändert bleiben. Dies hat nahezu keine Auswirkungen auf den Job, was die Leistung erheblich verbessert Arbeitseffizienz. Um die Co-Location-Ressourcen besser zu nutzen, verfügt Caelus auch über mehr Funktionen. Weitere Informationen finden Sie in der Offline-Co-Location-Lösung von Caelus /link /caaeb10544b465034f389991efc90877).
Gezeitenressourcen
Big-Data-Aufgaben haben tagsüber im Allgemeinen relativ wenige Aufgaben und nachts mehr Aufgaben. Tagsüber überträgt Fengluan einen Teil der ungenutzten Big-Data-Ressourcen auf die Taiji-Plattform Recycelt diesen Teil der Nachtressourcen, wir nennen diese Ressource Gezeitenressourcen. Das Merkmal von Tidal-Ressourcen besteht darin, dass die Big-Data-Aufgaben auf den Knoten fast vollständig beendet werden, der Big-Data-Speicherdienst HDFS jedoch weiterhin auf den Knoten erhalten bleibt und der HDFS-Dienst beim Ausführen von Tai-Chi-Jobs nicht beeinträchtigt werden kann. Wenn die Taiji-Plattform Gezeitenressourcen nutzt, muss sie eine Vereinbarung mit der Fengluan-Plattform treffen, nachdem die Big-Data-Aufgabe ordnungsgemäß beendet wurde Benachrichtigen Sie die Taiji-Plattform darüber, dass neue Knoten beigetreten sind, und die Taiji-Plattform beginnt mit der Übermittlung weiterer Aufgaben an den Mietercluster. Bevor die Leihfrist erreicht ist, benachrichtigt Fengluan die Taiji-Plattform, dass einige Knoten recycelt werden müssen, und die Taiji-Plattform gibt die Knoten ordnungsgemäß zurück.
Das auf Algorithmen des maschinellen Lernens basierende Big-Data-Ressourcenübertragungssystem findet die am besten geeigneten Maschinenknoten, die offline sind, um bestimmte Ressourcenanforderungen zu erfüllen und die geringsten Auswirkungen auf laufende Jobs zu haben. Anschließend wird die Planung neuer Jobs für diese Knoten verhindert und auf die Ausführung von Jobs auf diesen Knoten gewartet Nach Abschluss des Vorgangs werden die Auswirkungen auf Big-Data-Jobs minimiert.
Um das Instabilitätsproblem der Rechenressourcen zu lösen, werden verschiedene Fähigkeiten durch die Hauptkontrollschicht auf Gipfeln und Bergen erweitert und die Rechenressourcen optimiert Viele Aspekte. Verbessern Sie die Stabilität der Rechenleistung: Bild und Vorhersage:
Optimieren Sie die Räumungsstrategie, um die Auswirkungen der Räumung zu minimieren: Wenn jede Maschine geräumt wird, erhalten die nach der Räumung gestarteten Pods Priorität, um zu vermeiden, dass sich dies auf die bereits gestarteten Aufgaben auswirkt. Dadurch wird jeweils nur ein Knoten geräumt verhindert, dass Upstream und Downstream einer einzelnen Aufgabe gleichzeitig entfernt werden, was zu Neustarts auf Aufgabenebene führt, wenn ein Pod entfernt wird. Es stellt eine Verbindung zum übergeordneten Flink-Framework her und informiert Flink proaktiv für eine schnelle Einzelpunktwiederherstellung.
Die meisten Co-Location-Ressourcen sind temporäre Ressourcen und werden häufig offline gehen.
Co-Location-Ressourcen werden bedingungslos hochwertigen Ressourcen weichen. was zu einer extrem instabilen Maschinenleistung führt;
Co-Location-Ressourcen Der automatische Räumungsmechanismus erhöht auch die Ausfallwahrscheinlichkeit von Knoten und Pods erheblich.
Durch die Fehlertoleranz der Geschäftsschicht ist die Stabilität von Aufgaben, die auf Co-Location-Ressourcen ausgeführt werden, von anfänglich weniger als 90 % auf 99,5 % am Ende gestiegen, was im Wesentlichen der Stabilität der ausgeführten Aufgaben entspricht auf gewöhnlichen exklusiven Ressourcen.
Gemäß den Gezeitenressourcenanforderungen können Offline-Trainingsaufgaben nur tagsüber verwendet werden und müssen nachts für die Online-Geschäftsnutzung bereitgestellt werden Aufgaben entsprechend der Ressourcenverfügbarkeit während des Tages; in der Nacht einen Kalt-Standby für die Aufgabe durchführen und die entsprechende Trainingsaufgabe stoppen. Gleichzeitig wird die Priorität jeder Aufgabenplanung über die Aufgabenverwaltungswarteschlange verwaltet. Neue Aufgaben, die nachts gestartet werden, gelangen automatisch in den Warteschlangenstatus und warten darauf, dass am nächsten Morgen neue Aufgaben gestartet werden.
Durch diese Optimierungen können wir sicherstellen, dass Aufgaben stabil auf Gezeitenressourcen ausgeführt werden können und die Geschäftsschicht grundsätzlich nicht kennen. Gleichzeitig wird die Ausführungsgeschwindigkeit der Aufgabe nicht wesentlich beeinträchtigt und der zusätzliche Overhead, der durch die Start- und Stoppplanung der Aufgabe verursacht wird, wird innerhalb von 10 % kontrolliert.
Die Offline-Hybrid-Vertriebsoptimierungslösung von Tai Chi wurde in Tencent-Werbeszenarien implementiert. Sie bietet 30-W-Kern-Allwetter-Hybrid-Bereitstellungsressourcen und 20-W-Kern-Gezeitenressourcen für die Offline-Modellforschung von Tencent Tägliches Training zur Unterstützung der Werbeerinnerung, Groblayout, Feinlayout-Training für Multi-Szenario-Modelle. In Bezug auf die Ressourcenkosten betragen die Ressourcenkosten der Hybridbereitstellung für Aufgaben mit derselben Rechenlast 70 % der Ressourcenkosten normaler Ressourcen. Nach der Optimierung sind die Systemstabilität und die Erfolgsrate der physischen Cluster-Aufgaben im Wesentlichen gleich.
Einerseits werden wir den Einsatz von Hybrid-Computing-Ressourcen weiter verstärken, insbesondere den Einsatz von Hybrid-Computing-Ressourcen, andererseits wird das Online-Geschäft des Unternehmens GPU-basiert, also in die Anwendung gemischter Ressourcen zusätzlich zu den herkömmlichen Zusätzlich zu den CPU-Ressourcen wird versucht, während des Offline-Trainings auch Online-GPU-Ressourcen zu verwenden.
Das war's für das heutige Teilen, vielen Dank an alle.
Das obige ist der detaillierte Inhalt vonSchulungskostenoptimierungspraxis des Tencent-Werbemodells basierend auf „Tai Chi'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!