Heim > Artikel > Technologie-Peripheriegeräte > Yang Fan, Mitbegründer von SenseTime: Neue Möglichkeiten für die Entwicklung der KI-Branche durch die Welle großer Modelle
36 Krypton war am 23. Mai Gastgeber eines Branchenentwicklungsgipfels mit dem Titel „Disruption · AIGC“. Auf diesem Gipfel kommen Branchenkräfte zusammen, um gemeinsam die Reaktionsstrategien von Unternehmen und Industrien bei Veränderungen zu diskutieren, Gedanken auszutauschen, die vielversprechendsten Unternehmen und die wertvollsten Technologien in der Branche zu erkunden und den Weg nach vorne in einem turbulenten Umfeld zu erkunden.
Auf der Konferenz hielt Yang Fan, Mitbegründer von SenseTime und Präsident der Large Device Business Group, eine Grundsatzrede mit dem Titel „Neue Möglichkeiten für die Entwicklung der KI-Industrie durch die Welle großer Modelle“. . Yang Fan glaubt, dass die neue Welle der KI zwei Merkmale aufweist: Erstens ist der Zyklus vom technologischen Durchbruch bis zur Geschäftsmodellinnovation kürzer und zweitens werden technologische Errungenschaften schneller in der kommerziellen und industriellen Erforschung und Praxis genutzt; , , Die aktuelle Industrialisierung der künstlichen Intelligenz macht es einfacher, technologische Vorteile in Datenbarrieren und Skalenvorteile umzuwandeln.
Yang Fan brachte auch seine eigenen Ansichten vor und erläuterte die Gründe für den bahnbrechenden Fortschritt der Technologie der künstlichen Intelligenz. Er glaubt, dass, obwohl der Erfolg großer Modelle immer noch die gewalttätige Ästhetik von „Daten, Rechenleistung und Algorithmen“ der künstlichen Intelligenz bestätigt, hinter diesen drei Elementen tatsächlich eine umfassende Systemtechnik steckt. Am Beispiel von OpenAI wies Yang Fan darauf hin, dass jede Verbindung erforderlich ist, um in der Datentechnik gute Arbeit zu leisten, die effektive Ressourcennutzung des Chips zu verbessern und einen kostengünstigeren, aber gut strukturierten Algorithmus zu entwerfen Unterstützung von Expertenerfahrung und -wissen sowie System-Engineering-Fähigkeiten. Er glaubt, dass dies nicht nur die ultimative Manifestation der technischen Kernfähigkeiten des Modellschichtunternehmens ist, sondern auch die Schlüsselfähigkeit, die für die Bereitstellung von KI-Infrastrukturdiensten erforderlich ist.
Das Folgende ist das Transkript der Rede von Yang Fan (organisiert und bearbeitet von 36氪):
Hallo zusammen! Es ist mir eine Ehre, Ihnen heute auf der 36 Krypton-Veranstaltung einige Branchentrends bei Großmodellen vorstellen zu können.
In einer Zeit extremer Veränderungen in der Branche möchte ich einige Ansichten mitteilen. Wenn wir heute über große Modelle sprechen, gibt es zunächst keine genaue Definition. Ist es größer als Hunderte Milliarden oder Dutzende Milliarden? Meiner Meinung nach ist die Modellstruktur der künstlichen Intelligenz von 2012 bis heute immer größer geworden, und auch die Anzahl der Parameter ist immer größer geworden. Warum scheint jetzt jeder ein Konzept zu haben? mehr Aufmerksamkeit hervorrufen? Wir können sehen, dass es einen starken Zusammenhang zwischen den neuen Anwendungen von AlphaGo im Jahr 2016 und den einzelnen Verbrauchern gibt. In den letzten zwei Jahren hat die Technologie der künstlichen Intelligenz neue Fortschritte und Durchbrüche erzielt. Erstens sind diese Fortschritte und Durchbrüche für alle relevant. Es hängt direkter zusammen, und jeder kann es direkt spüren. Zweitens haben diese Durchbrüche meiner Meinung nach tatsächlich größere Auswirkungen auf andere Disziplinen im Bereich der wissenschaftlichen Forschung, sei es in der Biologie oder der Physik. Chemie oder andere Bereiche, wie das ChatGPT-Modell, dem heute jeder Aufmerksamkeit schenkt, sind sehr bedeutsam, weil es das Potenzial hat, unsere gesamte zugrunde liegende Technologie voranzutreiben und neue Fortschritte zu erzielen. Solche neuen Fortschritte werden der Menschheit in Zukunft wahrscheinlich weitere Fortschritte bringen.
Ab 2021 wird es weiterhin weitere technologische Durchbrüche geben. Gleichzeitig haben wir ein sehr interessantes Phänomen beobachtet, das wir in der Industrie und in der Wirtschaft zu erforschen begannen. Und mit zunehmender Übung wird dieser Zyklus kürzer als ursprünglich. Danach wurde eine große Anzahl innovativer Unternehmen im In- und Ausland gegründet, und Professoren und Wissenschaftler begannen, ihre eigenen Unternehmen zu gründen. Ich denke, dass es in der Vergangenheit einige Wege dazu gegeben hat, und die Anerkennung der Investoren hat zugenommen höher, einschließlich der Ankündigung einiger vinzentinischer APIs. Danach begannen die Leute bald, auf Xiaohongshu zu Internet-Prominenten zu werden.
Wir sehen viele Trends, von technologischen Durchbrüchen bis hin zu kommerziellen Innovationen, dieser Zyklus scheint kürzer zu sein. In einigen Foren, an denen ich kürzlich teilgenommen habe, habe ich festgestellt, dass die meisten Leute darüber reden, was für ein großes Modell sie bauen wollen, wie groß und leistungsstark das Modell ist, was sie mit diesem Modell machen wollen und wie man es einbaut bestimmte spezifische Szenarien. Eine super neue APP usw. Während noch kein großes Modell in China eine formelle API-Lizenz von der staatlichen Aufsicht erhalten hat, gab es in den letzten zwei Monaten eine so große Erweiterungsänderung.
Ich denke, das ist ein Phänomen, das unsere Aufmerksamkeit verdient. Wir sehen, dass der Kommerzialisierungsprozess dieser Runde großer Modelle schneller ist. Ein sehr wichtiger Punkt ist, dass wir viele neue Technologien sehen, die mehr C-seitige Anwendungen ausführen können. Gleichzeitig können sie auf natürliche Weise einen geschlossenen Kreislauf der Datenakkumulation bilden, was die Errichtung von Geschäftsbarrieren einfacher macht als das technische Unternehmertum in der Vergangenheit . Ich denke, das ist ein Trend, den wir in der Branche in den letzten Monaten beobachtet haben.
Yang Fan, Mitbegründer von SenseTime und Präsident der Large Device Business Group
Zweitens ist es das, was hinter der Großmodelltechnologie steckt, die wir heute verwenden. Alle sind sich einig, dass die Entwicklung und Veränderung der gesamten Branche der künstlichen Intelligenz, unabhängig davon, ob es sich um ein großes Modell handelt oder auf die letzten 10 Jahre zurückblickt, im Grunde der Erfolg einer gewalttätigen Ästhetik ist, einschließlich der traditionellen drei Elemente der künstlichen Intelligenz: Daten, Rechenleistung und Algorithmen. Algorithmen können als Modellstrukturen verstanden werden, oder Modelle, die neuere technische Ergebnisse erzielt haben, werden in jedem Bereich verwendet, unabhängig davon, ob es sich um die Größenordnung des Datensatzes handelt Der Algorithmus selbst sowie die Anzahl der Parameter des Modells sorgen tatsächlich für eine sehr hohe Wachstumsrate. Das Transformer-Modell ist in vielen Bereichen sehr stabil und kann gute Ergebnisse erzielen. Wenn wir feststellen, dass die Datenmenge groß genug ist, um in gewissem Sinne sehr verallgemeinerbare Ergebnisse zu erhalten, beweist dies weiter, dass die allgemeine Richtung des Fortschritts der Technologie der künstlichen Intelligenz darin besteht, Gewalt einzusetzen, um Wunder zu bewirken, und die Integration weiterer Ressourcen kann möglich sein bessere Ergebnisse erzielen.
Eine solche Ressource allein reicht jedoch bei weitem nicht aus. Schauen wir uns die entsprechenden drei Elemente an, bevor in jedem Bereich ein großes Maß an professioneller Ingenieurspraxis durchgeführt werden kann.
Tatsächlich wurde in der Rede des Gastes gerade erläutert, warum wir im Bereich der Rechenleistung große Rechenleistungen benötigen. Wenn es heute 1.000 Karten gibt, können wir diese dann kostengünstig herstellen und eine effektive Auslastung von 60 %, 80 % oder sogar 90 % erreichen? Oder welche Auswirkung wird es haben, wenn wir heute 1.000, 2.000 oder 4.000 Karten verbinden? OpenAI hat bisher 10.000 V100-Karten miteinander verbunden, um die gleiche Trainingsaufgabe auszuführen und eine effektive Ressourcenauslastung von mehr als 50 % oder 60 % zu erreichen Noch kein solches Ergebnis, warum? Dahinter steckt ein sehr komplexes Ingenieursereignis. Beispiel: Ein Modell mit Hunderten von Milliarden Parametern erfordert während des Trainings eine große Menge an Dateninteraktion und Zwischengradienteninformationsinteraktion. Wenn Sie die große Menge an Datenübertragung und die Übertragung von Betriebsergebnissen auf Tausenden von GPU-Karten kombinieren, ergibt sich ein effektives Gleichgewicht Wenn das Modell gebildet wird, wird es oft von Punkt zu Punkt ausgeführt, und in der Netzwerkstruktur ist eine Zwei-zu-Zwei-Übertragung erforderlich. Wenn wir Tausende von Karten miteinander verbinden, wie ist der akzeptable Zustand des Effekts? Es ist eigentlich überhaupt nicht kompliziert. Es ist nur eine Menge technischer Praxis Es ist gut, Sie können es besser abstimmen als andere. Diese Angelegenheit ist eine sehr wichtige Frage der Erfahrung.
Dasselbe gilt für Algorithmen. Das heutige Algorithmusstrukturdesign kann billiger sein als das ursprüngliche. Wenn die Struktur gut entworfen ist, kann durch die Verwendung weniger Parameter und kleinerer Daten ein endgültiger Algorithmuseffekt erzielt werden, der dem eines Designs ohne spezielle Optimierung ähnelt. Dazu gehört auch viel Expertenwissen, ganz zu schweigen von den Daten.
Als OpenAI ChatGPT4 durchführte, nutzte es letztendlich nur einen sehr kleinen Teil der gesammelten Daten, der möglicherweise weniger als 10 % ausmachte. Dies ist eine große Lücke zwischen Ressourceneinsparung und vollständigem Training Daten sind sehr groß. Welche Daten sind effektiver? Wenn wir trainieren, gibt es tatsächlich eine Menge Versuch und Irrtum zwischen den Daten, die zuerst verworfen werden sollen, und den Methoden, die später verworfen werden sollen. Warum herrscht so ein Mangel an Rechenleistung und jeder braucht mehr Rechenleistung? Da viele Leute, die große Modelle erstellen, versuchen, Fehler zu machen, werden sie möglicherweise gleichzeitig in drei oder vier Gruppen eingeteilt, um zu versuchen, Fehler in verschiedene Richtungen zu machen und dann schrittweise iterative Optimierungen vorzunehmen oder umfangreiche Ressourcen zu sammeln sind es, die heute KI-Technologie und KI-Algorithmen ermöglichen.
Ein umfassendes System-Engineering erfordert Expertenerfahrung und System-Engineering-Fähigkeiten in allen Bereichen. Dies zeigt auch, dass OpenAI es den besten Wissenschaftlern ermöglicht, Daten-Engineering anstelle von Algorithmen durchzuführen. Dies geht weit über unser bisheriges Fachwissen hinaus. Dies könnte in Zukunft zu einer Schlüsselschwelle werden und auch zu unserer Kernkompetenz bei der Bereitstellung von Dienstleistungen für den Markt werden .
Warum nach dem Erscheinen der neuen Technologie der künstlichen Intelligenz die industrielle Welle sehr schnell folgte? Wir haben gesehen, dass sich Modelldienste natürlich für viele Bereiche eignen, und Investoren glauben, dass sie genauso schnell wachsen werden wie das Internet . Änderungen bei den Kommerzialisierungsschwellen und -barrieren werden einige neue Möglichkeiten für Großmodelle mit sich bringen, der Zugang zu diesen Möglichkeiten hängt jedoch von den unterschiedlichen Unterschieden und dem Fachwissen der einzelnen Personen ab. Auf jeden Fall wird die heutige Industrialisierung der künstlichen Intelligenz im Vergleich zu den letzten 10 Jahren einen sehr großen Vorteil haben, da die heutigen technischen Vorteile möglicherweise in Datenbarrieren und Skalenvorteile umgewandelt werden mehr in der Zukunft.
SenseTime begann 2019 mit der Erstellung früher großer Modelle. Unserer Meinung nach wurde das gesamte KI-Modell immer größer, sodass wir viele interne Fähigkeiten angesammelt haben, darunter auch einige selbst entwickelte CV- und NLP-Modelle. Im April dieses Jahres hat SenseTime die APIs einiger Modelle zur Testnutzung durch Industriepartner geöffnet, darunter auch einige große Sprachmodelle. Unserer Ansicht nach ist dies eher die ultimative Manifestation der Anhäufung grundlegender technischer Fähigkeiten.
Wir haben dieses Jahr eine Reihe von Modellen auf den Markt gebracht, die unsere großen Geräte unterstützen. Wir sind der Meinung, dass jemand eine so große und effiziente Infrastruktur bereitstellen muss unvermeidlicher Weg. Wenn die gesamte KI-Technologiewelle in Zukunft zu einem Spiel wird, bei dem immer mehr Ressourcen verbraucht und Expertenerfahrungen gesammelt werden, ist die Schwelle tatsächlich extrem hoch, was einer breiten und schnellen Anwendung von KI durch die Industrie nicht förderlich ist. Daher sind wir der Meinung, dass dies der Fall ist Es wird sich unweigerlich eine Differenzierung bilden, und es wird definitiv Menschen geben, die Infrastrukturdienste bereitstellen, sei es in Form des Aufrufs von Modell-APIs, der Erstellung kleiner Modelle auf dieser Basis oder auf andere Weise, und die grundlegende KI-Ressourcen und -Funktionen mit niedrigem Schwellenwert schnell nutzen können geringe Kosten, dadurch schnelle Verbesserung Ihres eigenen Closed-Loop-Geschäftsmodells.
Die Positionierung der Großgeräte von SenseTime besteht darin, ein KI-Infrastrukturanbieter zu sein. Heute verfügen wir über mehr als 5000P-Ressourcen-Rechenleistung und bieten auch viel Industriekooperation, sodass Partner dies tun können Die Verwendung ihrer großen Modelle für das Training auf großen Geräten spiegelt die tiefgreifende Anhäufung von SenseTime wider. Ob auf der Ressourcenebene oder auf der kognitiven Expertenebene, ein Teil unserer Fähigkeiten kann standardisiert und in Software und Dienste umgewandelt werden, die teilweise nicht standardisiert werden können Wir können daraus einen professionellen Klassifizierungsdienst machen. Wir hoffen, diese Funktionen zu bündeln und der gesamten Branche zur Verfügung zu stellen, um Kunden bei der Erstellung ihrer eigenen Domänenmodelle oder Modellanwendungen zu unterstützen.
Trainieren Sie große KI-Modelle mit großen SenseTime-Geräten.
Quelle: 36氪
Das obige ist der detaillierte Inhalt vonYang Fan, Mitbegründer von SenseTime: Neue Möglichkeiten für die Entwicklung der KI-Branche durch die Welle großer Modelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!