Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die Open-Source-Erweiterungsbibliothek für verteiltes Training AToch von Ant erreicht eine effektive Auslastungsrate von 60 % der Rechenleistung für das Training großer Modelle

Die Open-Source-Erweiterungsbibliothek für verteiltes Training AToch von Ant erreicht eine effektive Auslastungsrate von 60 % der Rechenleistung für das Training großer Modelle

WBOY
WBOYnach vorne
2024-01-14 19:57:121338Durchsuche

Ant Group hat kürzlich die Einführung einer großen modellbasierten Erweiterungsbibliothek für verteilte Trainingsbeschleunigung namens ATorch angekündigt, bei der es sich um ein Open-Source-Tool handelt. Das Ziel von ATorch besteht darin, die Intelligenz des Deep Learning durch automatische Optimierung der Ressourcendynamik und Verbesserung der verteilten Trainingsstabilität zu verbessern. Es versteht sich, dass AToch beim Training großer Modelle die Rechenleistungsauslastung des Trainings auf 100-Milliarden-Modell-Kilokalorien-Niveau auf 60 % steigern kann, was dem Hinzufügen eines leistungsstarken Motors zu einem Sportwagen entspricht. Dies wird ein wichtiges Werkzeug für Deep-Learning-Forscher und -Entwickler sein, das ihnen hilft, große Modelle effizienter zu trainieren und zu optimieren.

Die Open-Source-Erweiterungsbibliothek für verteiltes Training AToch von Ant erreicht eine effektive Auslastungsrate von 60 % der Rechenleistung für das Training großer ModelleBild: ATorch setzt sich dafür ein, das Training großer Modelle effizienter und reproduzierbarer zu machen

Mit der Explosion generativer großer Modelle hat der Umfang der Datensätze und Parameter für das Modelltraining exponentiell zugenommen. Um den Trainingsbedarf dieses Giganten zu decken und das Modell schnell zu iterieren, ist verteiltes Training zu einer der Lösungen geworden. In diesem Bereich werden Deep-Learning-Frameworks wie PyTorch und TensorFlow häufig für die Modellkonstruktion und das Training eingesetzt. Um sich besser an das Training großer Modelle anzupassen, wurden in der Branche zahlreiche Anstrengungen unternommen, darunter das Open-Source-ATorch-Toolkit von Ant. ATorch stellt Deep-Learning-Frameworks wie PyTorch Funktionen und Tools zur Verfügung, die besser für das Training großer Modelle geeignet sind und Entwicklern und Forschern dabei helfen, Modelltrainingsaufgaben effizienter durchzuführen. Die Open Source dieses Toolkits wird die Entwicklung des Trainings für große Modelle weiter vorantreiben und mehr Möglichkeiten und Herausforderungen für Forschungs- und Anwendungsbereiche mit sich bringen.

Es versteht sich, dass ATorch ein mehrschichtiges Architekturdesign mit klaren Funktionen und umfassendem Design verwendet, das Entwicklern ein äußerst optimiertes Entwicklungserlebnis und eine führende Stabilitätsgarantie bieten kann. Es umfasst hauptsächlich Kernfunktionen wie eine einheitliche Konfigurationsschnittstelle für verteilte Optimierungsstrategien, automatische verteilte Strategiesuche, automatische elastische Fehlertoleranz, effiziente dynamische Speicherverwaltungsbibliothek und selbst entwickelte optimierte beschleunigte Konvergenz. Als leistungsstarke erweiterte Beschleunigungsbibliothek des PyTorch-Frameworks kann ATorch das Eindringen von Benutzercode minimieren und eine benutzerfreundliche, leistungsstarke Lösung für das Training großer Modelle auf Kilokartenebene mit Hunderten von Milliarden Parametern bereitstellen.

Vor kurzem hat ATorch hervorragende Ergebnisse in der Praxis der Trainingsoptimierung großer Modelle für Open-Source-Modelle erzielt. Beispielsweise konnte die Kilokalorien-Rechenleistungsauslastung vor dem Training des Open-Source-Großmodells GLM-65b der Tsinghua-Universität erfolgreich von 28,8 % auf 62 % und die Rechenleistungsauslastung vor dem Training des großen Modells LLama2-70b gesteigert werden Die von Meta entwickelte Rechenleistungsauslastung stieg von 28,8 % auf 42 % auf 60 %, und die Auslastung der Trainingsrechenleistung von Stable Diffusion, einem großen multimodalen Modell, das vom britischen KI-Unternehmen Stability AI entwickelt wurde, stieg von 21,8 % auf 58,7 %. . Darüber hinaus hat ATorch in Bezug auf die Kilokalorien-Trainingsstabilität eine gute Leistung erbracht. Die durchschnittliche tägliche reine Trainingszeit wurde auf 95 % erhöht, die Cckpt-Speicherzeit wird innerhalb von 1 Minute kontrolliert und die Trainingsneustartzeit dauert maximal 5 Minuten das branchenführende Niveau erreicht.

Derzeit ist ATorch in das Open-Source-Produkt DLRover der Ant Group integriert, ein intelligentes verteiltes Deep-Learning-System, das auf Cloud-nativer Technologie basiert. Durch die Hinzufügung von ATorch können sich große Modellentwickler stärker auf den Entwurf der Modellarchitektur konzentrieren, ohne sich mit langwierigen technischen Details befassen zu müssen, wodurch die Trainingseffizienz und -intelligenz verbessert wird.

Das obige ist der detaillierte Inhalt vonDie Open-Source-Erweiterungsbibliothek für verteiltes Training AToch von Ant erreicht eine effektive Auslastungsrate von 60 % der Rechenleistung für das Training großer Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen