Heim >Technologie-Peripheriegeräte >KI >Für große KI-Modelle hat Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig offengelegt

Für große KI-Modelle hat Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig offengelegt

王林
王林nach vorne
2023-06-28 14:19:591561Durchsuche

Der Ausbruch von AIGC bringt nicht nur Herausforderungen bei der Rechenleistung mit sich, sondern stellt auch beispiellose Anforderungen an das Netzwerk.

Am 26. Juni stellte Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig vor: Das Xingmai-Netzwerk verfügt über die branchenweit höchste 3,2-T-Kommunikationsbandbreite, wodurch die GPU-Auslastung um 40 % erhöht und 30 bis 60 % eingespart werden können von Modellen führen zu einer zehnfachen Verbesserung der Kommunikationsleistung bei großen KI-Modellen. Der Rechencluster HCC der neuen Generation von Tencent Cloud kann einen riesigen Rechenumfang von mehr als 100.000 Karten unterstützen.

Wang Yachen, Vizepräsident von Tencent Cloud, sagte: „Xingmai Network ist für große Modelle konzipiert. Die leistungsstarken Netzwerkdienste, die es mit großer Bandbreite, hoher Auslastung und keinem Paketverlust bietet, werden dazu beitragen, den Engpass bei der Rechenleistung zu überwinden und weitere Freigaben zu ermöglichen.“ KI-Potenzial, umfassende Verbesserung der Trainingseffizienz großer Unternehmensmodelle und Beschleunigung der iterativen Aktualisierung und Implementierung der Großmodelltechnologie in der Cloud.“

Bauen Sie ein Hochleistungsnetzwerk für große Modelle auf und steigern Sie die GPU-Auslastung um 40 %

Die Popularität von AIGC hat zu einem Anstieg der Anzahl großer KI-Modellparameter von Hunderten Millionen auf Billionen geführt. Um das groß angelegte Training großer Datenmengen zu unterstützen, bilden eine große Anzahl von Servern über Hochgeschwindigkeitsnetzwerke einen Rechencluster und sind miteinander verbunden, um gemeinsam Trainingsaufgaben zu erledigen.

Im Gegenteil: Je größer der GPU-Cluster, desto größer ist der zusätzliche Kommunikationsverlust. Ein großer Cluster bedeutet keine große Rechenleistung. Die Ära der großen KI-Modelle hat das Netzwerk vor erhebliche Herausforderungen gestellt, darunter hohe Bandbreitenanforderungen, hohe Auslastung und Informationsverlustfreiheit.

Herkömmliche Netzwerkbandbreite mit niedriger Geschwindigkeit kann große Modelle mit Hunderten von Milliarden oder Billionen Parametern nicht erfüllen. Während des Trainingsprozesses kann der Kommunikationsanteil bis zu 50 % betragen. Gleichzeitig können herkömmliche Netzwerkprotokolle leicht zu Netzwerküberlastung, hoher Latenz und Paketverlust führen, und nur 0,1 % der Netzwerkpaketverluste können zu einem Verlust von 50 % der Rechenleistung führen, was letztendlich zu einer erheblichen Verschwendung von Rechenleistungsressourcen führt.

Basierend auf umfassenden Selbstforschungsfunktionen hat Tencent Cloud Software- und Hardware-Upgrades sowie Innovationen bei Switches, Kommunikationsprotokollen, Kommunikationsbibliotheken und Betriebssystemen durchgeführt und ist das erste Unternehmen, das das branchenweit führende dedizierte Hochleistungsnetzwerk für große Modelle auf den Markt bringt - Xingmai-Netzwerk.

Für große KI-Modelle hat Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig offengelegt

In Bezug auf die Hardware basiert Xingmai Network auf der Netzwerk-F&E-Plattform von Tencent und nutzt alle selbst entwickelten Geräte, um eine Verbindungsbasis aufzubauen, um eine automatisierte Bereitstellung und Konfiguration zu erreichen.

In Bezug auf die Software verwendet das selbst entwickelte TiTa-Netzwerkprotokoll von Tencent Cloud eine fortschrittliche Technologie zur Überlastungskontrolle und -verwaltung, mit der Netzwerküberlastungen in Echtzeit überwacht und angepasst, die Kommunikationsanforderungen zwischen einer großen Anzahl von Serverknoten erfüllt und ein reibungsloser Datenaustausch sichergestellt werden können und geringe Latenz. Erreichen Sie unter hoher Last keinen Paketverlust, wodurch die Cluster-Kommunikationseffizienz mehr als 90 % erreicht.

Darüber hinaus hat Tencent Cloud auch eine leistungsstarke kollektive Kommunikationsbibliothek TCCL für das Xingmai-Netzwerk entwickelt und in maßgeschneiderte Lösungen integriert, sodass das System eine Netzwerkqualitätswahrnehmung auf Mikrosekundenebene realisieren kann. Durch die Verwendung eines dynamischen Planungsmechanismus zur sinnvollen Zuweisung von Kommunikationskanälen können Trainingsunterbrechungen aufgrund von Netzwerkproblemen effektiv vermieden und Kommunikationsverzögerungen um 40 % reduziert werden.

Die Verfügbarkeit des Netzwerks bestimmt auch die Rechenstabilität des gesamten Clusters. Um die hohe Verfügbarkeit des Xingmai-Netzwerks sicherzustellen, hat Tencent Cloud ein End-to-End-Full-Stack-Netzwerkbetriebssystem entwickelt. Durch die dreidimensionale Überwachung des Endnetzwerks und das intelligente Positionierungssystem werden Endnetzwerkprobleme automatisch abgegrenzt und analysiert, so dass die gesamte Fehlerbehebungszeit verkürzt werden kann. Die Tagesebene wird auf die Minutenebene reduziert. Durch Verbesserungen wurde die Gesamtbereitstellungszeit des groß angelegten Modelltrainingssystems auf 4,5 Tage verkürzt, wodurch eine 100-prozentige Genauigkeit der Grundkonfiguration gewährleistet wurde.

Nach drei Generationen technologischer Entwicklung haben wir die Integration von Software und Hardware intensiv gepflegt und erforscht

Hinter der umfassenden Modernisierung des Xingmai-Netzwerks steckt das Ergebnis von drei Generationen technologischer Weiterentwicklung des Rechenzentrumsnetzwerks von Tencent.

Für große KI-Modelle hat Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig offengelegt

In den frühen Tagen der Entwicklung von Tencent bestand der Netzwerkverkehr von Rechenzentren hauptsächlich aus Nord-Süd-Verkehr für Benutzer, um auf Server von Rechenzentren zuzugreifen. Die Netzwerkarchitektur basierte hauptsächlich auf Zugriff, Aggregation und Ausgang. Zu diesem Zeitpunkt wurde hauptsächlich kommerzielle Netzwerkausrüstung zum Aufbau eines standardisierten Rechenzentrumsnetzwerks verwendet, was das Wachstum der QQ-Online-Benutzer um mehr als 100 Millionen und die Größe der Server um mehr als 100.000 unterstützte.

Mit dem Aufkommen von Big Data und Cloud Computing hat der Ost-West-Verkehr zwischen Servern allmählich zugenommen, und Cloud-Mieter haben Virtualisierungs- und Isolationsanforderungen für das Netzwerk geschaffen. Die Netzwerkarchitektur des Rechenzentrums hat sich nach und nach zu einer Cloud-Netzwerkarchitektur entwickelt, die sowohl den Nord-Süd- als auch den Ost-West-Verkehr überträgt. Tencent Cloud hat ein vollständig selbst entwickeltes Netzwerkausrüstungs- und Verwaltungssystem aufgebaut, um ein extrem großes Rechenzentrumsnetzwerk zu schaffen mit fast 2 Millionen Servern.

Tencent Cloud war das erste Unternehmen, das in China ein Hochleistungs-Computing-Netzwerk eingeführt hat, um den Anforderungen großer KI-Modelle gerecht zu werden, und eine Trennungsarchitektur für den Ost-West- und Nord-Süd-Verkehr eingeführt hat. Es hat eine unabhängige Netzwerkarchitektur mit extrem großer Bandbreite aufgebaut, die den Merkmalen des KI-Trainingsverkehrs entspricht, und arbeitet mit selbst entwickelten Software- und Hardwareeinrichtungen zusammen, um eine unabhängige Steuerbarkeit des gesamten Systems zu erreichen und den neuen Anforderungen an Superrechenleistung für das Netzwerk gerecht zu werden Leistung.

Kürzlich hat Tencent Cloud eine neue Generation von HCC-Hochleistungs-Computing-Clustern veröffentlicht, die auf dem Xingmai-Hochleistungsnetzwerk basieren. Es kann eine ultrahohe Verbindungsbandbreite von 3,2 T erreichen und die Rechenleistung ist dreimal höher als die Vorherige Generation. Es wurde für das Training großer KI-Modelle entwickelt. Zuverlässige, leistungsstarke Netzwerkbasis.

Tencent Cloud wird auch in Zukunft in die Forschung und Entwicklung grundlegender Technologien investieren, um starke technische Unterstützung für die digitale und intelligente Transformation verschiedener Branchen zu bieten.

Das obige ist der detaillierte Inhalt vonFür große KI-Modelle hat Tencent Cloud erstmals sein selbst entwickeltes Xingmai-Hochleistungscomputernetzwerk vollständig offengelegt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:sohu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen