Heim >Technologie-Peripheriegeräte >KI >Der Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI
In den vergangenen Tagen fand in Wien die große Konferenz der AI – ICLR statt.
OpenAI, Meta, Google, Zhipu AI und andere weltweit führende KI-Technologieunternehmen kamen zusammen.
Berühmtheiten versammelten sich am Veranstaltungsort und die Sterne strahlten. Wenn Sie nur ein paar Schritte gehen, können Sie auf eine Berühmtheit stoßen, die eine subversive Zeitung veröffentlicht hat.
Es überrascht nicht, dass sich auch die Ausstellungshalle des ICLR 2024 zu einer Star-Jagd-Szene entwickelt hat. Die lebhafte Atmosphäre sprengte fast das Dach weg.
Auf der Jagd nach den Turing-Giganten vor Ort
LeCun, der berühmte „E-Mensch“ unter den drei Turing-Giganten, gab am großzügigerweise seinen Zeitplan bekannt.
Im Kommentarbereich freuten sich die Fans nicht nur darauf, einzuchecken, sondern einige waren sogar sofort bereit, ihren Lebenslauf einzureichen.
Die Reise der Fans hat sich tatsächlich gelohnt. Vor Ort erklärte LeCun eloquent, und das begeisterte Publikum bildete einen dichten Kreis um ihn.
Näher zu Hause, während der ICLR-Veranstaltung, wird das Meta-Team mehr als 25 Vorträge und zwei Workshops teilen. Diesmal veröffentlichte das LeCun-Team die folgenden zwei Artikel beim ICLR.
Papieradresse: https://arxiv.org/abs/2305.19523
Papieradresse: https://arxiv.org/abs/2311.12983
Noch ein One-Bit-Bild Auch der spirituelle Riese Yoshua Bengio erfreut sich großer Beliebtheit.
Das Publikum kam zu dem Schluss: „Eine Person muss auf ihrem Gebiet wirklich einzigartig sein, um eine so lange Schlange vor ihrem Konferenzraum zu haben!“
LeCun und Hinton hatten beides. Er hat dazu eine starke Meinung geäußert , aber Bengios Haltung scheint relativ vage gewesen zu sein. Ich kann es kaum erwarten zu erfahren, was er von AGI hält. Am kommenden 11. Mai wird er bei einem Workshop zum Thema AGI eine Rede halten.
Erwähnenswert ist, dass das Bengio-Team beim diesjährigen ICLR auch eine lobende Erwähnung für Outstanding Paper erhalten hat.
Papieradresse: https://openreview.net/pdf?id=Ouj6p4ca60
Neben Meta und Google steht mitten in der Messehalle ein sehr auffälliges Unternehmen – Zhipu AI.
Die Kinderschuhe vor Ort stellen eine Reihe von Forschungsergebnissen wie GLM-4 und ChatGLM vor.
Diese Ausstellungsreihe erregte die Aufmerksamkeit vieler ausländischer Wissenschaftler.
Fast zweitausend Gäste und Wissenschaftler vor Ort hörten aufmerksam der Vorstellung des technischen Teams für GLM-Großmodelle zu.
Die Einführung enthält eine Reihe aktueller Forschungsergebnisse zur GLM-Reihe großer Modelle und deckt Bereiche wie Mathematik, Vincentsche Diagramme, Bildverständnis, visuelles UI-Verstehen und Agentenintelligenz ab.
Vor Ort führten alle eine hitzige Diskussion über ihre Ansichten zum Skalierungsgesetz. Das GLM-Team verfügt auch hierzu über einzigartige Erkenntnisse –
„Im Vergleich zur Modellgröße oder Trainingsberechnungsmenge hängen Intelligenzentstehung und Verlust vor dem Training enger zusammen.“
Zum Beispiel der berühmte OpenAI 996-Forscher Jason Wei war sehr beeindruckt, nachdem er den Artikel von Zhipu AI über Verluste vor dem Training sorgfältig gelesen hatte.
In der Arbeit bewertete das Team seine Leistung anhand von 12 chinesischen und englischen Datensätzen, indem es mehr als 30 LLMs mit unterschiedlichen Parametern und Datengrößen trainierte.
Papieradresse: https://arxiv.org/abs/2403.15796
Es wird beobachtet, dass LLM nur dann über Emergenzfähigkeit verfügt, wenn der Verlust vor dem Training unter einem bestimmten Schwellenwert liegt.
Darüber hinaus ist es besser, „aufkommende Fähigkeiten“ aus der Perspektive des Verlusts vor dem Training zu definieren, als sich nur auf Modellparameter oder Trainingsvolumen zu verlassen.
Die Leistung von Zhipu AI hat auch immer mehr ausländischen Internetnutzern klar gemacht, dass –
Tanishq, der Forschungsdirektor für Stabilitäts-KI, der im Alter von 19 Jahren promovierte, sagte, dass CogVLM das ist Am wettbewerbsfähigsten ist, dass das Open-Source-Basismodell, das bedeutende Beiträge zum Open-Source-Ökosystem geleistet hat, aus China stammt.
Dieser ehemalige CEO eines Spielestudios begann letztes Jahr mit CogVLM und Stable Diffusion, um eine vollständige Open-Source-Version zu erstellen.
Ja, seit CogVLM veröffentlicht wurde, haben seine leistungsstarken Fähigkeiten bei ausländischen Internetnutzern für Aufsehen gesorgt.
Im LLM-Ranking im Januar dieses Jahres hat jemand auch das gefunden –
Damals lagen Gemini und GPT-4V mit der einzigen Ausnahme weit vor jedem Open-Source-LLM CogVLM sein.
Es ist ersichtlich, dass Zhipu AI mit dieser Welle großer inländischer Modelle, die ins Ausland gehen, stillschweigend seinen enormen Einfluss im Ausland etabliert hat.
Zusätzlich zu den wunderbaren Vorführungen in der Ausstellungshalle lud das ICLR dieses Jahr insgesamt sieben Sonderredner ein, um ihre Erkenntnisse zum Thema KI zu teilen.
Da sind Forschungswissenschaftler von Google DeepMind Raia Hadsell, außerordentliche Professorin am Georgia Institute of Technology & FAIR-Chefwissenschaftlerin Devi Parik und Direktor Moritz Hardt vom Max-Planck-Institut für Informatik (MPI-SWS). Das einzige chinesische Team ist das GLM-Großmodell-Technikteam von Zhipu AI.
Der Titel der Rede der Google DeepMind-Wissenschaftlerin Raia Hadsell lautet: „Lernen während der Höhen und Tiefen der Entwicklung künstlicher Intelligenz: Unerwartete Wahrheiten auf dem Weg zu AGI“.
Nach Jahrzehnten stetiger Entwicklung und gelegentlicher Rückschläge befindet sich die KI an einem kritischen Wendepunkt.
KI-Produkte sind auf dem Mainstream-Markt explodiert und wir haben die Obergrenze der Dividendenskalierung noch nicht erreicht, daher prüft die gesamte Community den nächsten Schritt.
In dieser Rede, basierend auf mehr als 20 Jahren Erfahrung im Bereich KI, diskutierte Raia, wie sich unsere Annahmen über den Entwicklungspfad von AGI im Laufe der Zeit verändert haben.
Gleichzeitig enthüllte sie auch die unerwarteten Entdeckungen, die wir während dieser Erkundung gemacht haben.
Von Reinforcement Learning über verteilte Architektur bis hin zu neuronalen Netzen spielen sie bereits eine potenziell revolutionäre Rolle im Bereich der Wissenschaft.
Raia glaubt, dass durch das Lernen aus vergangenen Erfahrungen und Lehren wichtige Erkenntnisse für die zukünftige Forschungsrichtung der KI gewonnen werden können.
Auf der anderen Seite erzählte FAIR-Chefwissenschaftlerin Devi Parik allen die Geschichte ihres Lebens.
Anhand des Titels der Rede kann man erkennen, dass der von Parik geteilte Inhalt außergewöhnlich ist.
Bei der Erklärung, warum das technische Umfeld so ist, wie es jetzt ist, werden sich alle auf der ICLR-Konferenz auf die Entwicklung des Internets, Big Data und Rechenleistung konzentrieren.
Allerdings schenken nur wenige Menschen diesen kleinen, aber wichtigen persönlichen Geschichten Aufmerksamkeit.
Tatsächlich kann sich die Geschichte eines jeden zu einer wichtigen Kraft bei der Förderung des technologischen Fortschritts entwickeln.
So können wir voneinander lernen und uns gegenseitig inspirieren. Das macht uns beharrlicher und effizienter bei der Verfolgung unserer Ziele.
Moritz Hardt, Direktor des deutschen MPI-SWS, hielt einen Vortrag zum Thema „Emerging Scientific Benchmarks“.
Benchmark-Tests sind offensichtlich zum „Kernpfeiler“ im Bereich des maschinellen Lernens geworden.
Obwohl der Mensch seit den 1980er Jahren unter diesem Forschungsparadigma viele Erfolge erzielt hat, ist sein tiefes Verständnis immer noch begrenzt.
In diesem Vortrag erkundet Hardt die Grundlagen des Benchmarking als aufstrebende Wissenschaft anhand einer Reihe ausgewählter empirischer Studien und theoretischer Analysen.
Er erörterte insbesondere die Auswirkungen von Annotationsfehlern auf die Datenqualität, die externe Validierung von Modellrankings und die Aussichten für Multitasking-Benchmarking.
Gleichzeitig stellte Hard auch viele Fallstudien vor.
Diese stellen unsere herkömmliche Meinung in Frage und unterstreichen auch die Bedeutung und den Nutzen der Entwicklung wissenschaftlicher Benchmarks.
In China hielt das GLM-Großmodell-Technikteam von Zhipu AI auch eine wunderbare Rede zum Thema „ChatGLM's Road to AGI“.
Erwähnenswert ist, dass dies auch das „erste Mal“ in China ist, auf einer internationalen Spitzenkonferenz eine Grundsatzrede zu großen Modellen zu halten.
In diesem Vortrag wird zunächst der Entwicklungsprozess der KI in den letzten Jahrzehnten aus chinesischer Sicht vorgestellt.
Gleichzeitig nutzten sie ChatGLM als Beispiel, um das Verständnis und die Erkenntnisse zu erläutern, die sie während der Praxis gewonnen hatten.
AGI-Vorschau 2024: GLM 4.5, GLM-OS, GLM-zero
Auf der ICLR stellte das GLM-Großmodellteam die drei wichtigsten GLM-Technologietrends für AGI vor.
Wo ist der einzige Weg zur AGI?
Die Branche ist hierzu unterschiedlicher Meinung. Manche Leute halten es für einen intelligenten Agenten, andere halten es für multimodal und wieder andere sagen, dass das Skalierungsgesetz eine notwendige, aber nicht ausreichende Bedingung für AGI ist.
Aber LeCun besteht darauf, dass LLM ein falscher Weg zu AGI ist und LLM keine AGI bringen kann.
In dieser Hinsicht vertrat das Team auch seine ganz eigene Sichtweise.
Zunächst sprachen sie über die nachfolgende aktualisierte Version von GLM-4, nämlich GLM-4.5 und sein aktualisiertes Modell.
Die nachfolgende aktualisierte Version von GLM-4 wird auf SuperIntelligence- und SuperAlignment-Technologien basieren und gleichzeitig große Fortschritte im Bereich der nativen Multimodalität und KI-Sicherheit machen.
Das GLM-Team für große Modelle ist davon überzeugt, dass Text die wichtigste Grundlage auf dem Weg zu AGI ist.
Der nächste Schritt besteht darin, Text, Bilder, Video, Audio und andere Modalitäten miteinander zu mischen, um das Training zu einem echten „nativen multimodalen Modell“ zu machen.
Zur Lösung komplexerer Probleme führten sie gleichzeitig auch das Konzept von GLM-OS ein, einem allgemeinen Computersystem, das sich auf große Modelle konzentriert.
Diese Ansicht deckt sich mit der Ansicht großer Modellbetriebssysteme, die zuvor von Karpathy vorgeschlagen wurde.
Am ICLR-Standort stellte das GLM-Großmodellteam die Implementierung von GLM-OS ausführlich vor:
Basierend auf den vorhandenen All-Tools-Funktionen sowie Speicher und Selbstfeedback (Selbst-Feedback) Durch die Fähigkeit zur Reflexion wird erwartet, dass GLM-OS den menschlichen PDCA-Mechanismus, d. h. den Plan-Do-Check-Act-Zyklus, erfolgreich imitiert.
Konkret: Erstellen Sie zunächst einen Plan, versuchen Sie dann, Feedback zu bilden, passen Sie den Plan an und ergreifen Sie dann Maßnahmen, um bessere Ergebnisse zu erzielen.
Aufgrund des PDCA-Zyklusmechanismus kann sich LLM selbst Feedback geben und sich unabhängig weiterentwickeln – genau wie Menschen.
Darüber hinaus gab das GLM-Großmodellteam bekannt, dass das Team seit 2019 eine Technologie namens GLM-Zero untersucht, mit dem Ziel, menschliche „unbewusste“ Lernmechanismen zu untersuchen.
„Wenn Menschen schlafen, lernt das Gehirn immer noch unbewusst.“
Das GLM-Großmodellteam stellte fest, dass der „unbewusste“ Lernmechanismus ein wichtiger Teil der menschlichen kognitiven Fähigkeiten ist, einschließlich des Selbstlernens -Lernen und Selbstlernen.
Es gibt zwei Systeme im menschlichen Gehirn, „Feedback“ und „Entscheidungsfindung“, die den beiden Teilen des LLM-Großmodells bzw. des Gedächtnisses entsprechen.
Daher wird die GLM-Null-bezogene Forschung das menschliche Verständnis von Bewusstsein, Wissen und Lernverhalten weiter erweitern.
Obwohl es sich noch in einem sehr frühen Forschungsstadium befindet, kann GLM-Null als der einzige Weg zur AGI angesehen werden.
Dies ist auch das erste Mal, dass das GLM-Großmodellteam diesen Technologietrend nach außen trägt.
Ende 2020 entwickelte das GLM-Großmodelltechnikteam die GLM-Vorschulungsarchitektur.
Im Jahr 2021 wurde das Zehn-Milliarden-Parametermodell GLM-10B trainiert, und im selben Jahr wurde das konvergierte Billionen-Sparse-Modell erfolgreich mit der MoE-Architektur trainiert.
Im Jahr 2022 haben wir auch zusammengearbeitet, um das chinesisch-englische zweisprachige 100-Milliarden-Level-Ultra-Large-Pre-Training-Modell GLM-130B zu entwickeln und als Open Source bereitzustellen.
Im vergangenen Jahr hat das Team fast alle 3-4 Monate ein Upgrade des großen Basismodells durchgeführt und es wurde nun auf die GLM-4-Version aktualisiert.
Darüber hinaus hat sich Zhipu AI als erstes inländisches LLM-Unternehmen, das auf den Markt kommt, im Jahr 2023 ein ehrgeiziges Ziel gesetzt – OpenAI auf breiter Front zu einem Benchmark zu machen.
Das technische Team für Großmodelle von GLM hat eine vollständige Produktmatrix für Großmodelle basierend auf der AGI-Vision erstellt.
Zusätzlich zur GLM-Serie gibt es auch CogView-Grafikmodelle, CodeGeeX-Codemodelle, multimodale Verständnismodelle CogVLM und dann GLM-4V multimodale Großmodelle und All-Tools-Funktionen sowie den KI-Assistenten Zhipu Qingyan.
Gleichzeitig haben die Forscher des GLM-Großmodelltechnikteams einen sehr hohen Einfluss in der Branche.
Zum Beispiel unterrichtet Li Feifei, der in der Gruppe sehr beliebt ist, den CS25-Kurs an der Stanford University. Jedes Mal lädt er Experten an der Spitze der Transformer-Forschung ein, um seine neuesten Durchbrüche zu teilen.
Es wurde bestätigt, dass sich unter den Gästen des CS25-Kurses Forscher von Zhipu AI befinden. Das vom Team entwickelte Open-Source-Visual-Language-Modell CogVLM hat bereits nach seiner Veröffentlichung in der Branche für Aufsehen gesorgt.
Ein im März von Stability AI veröffentlichtes Papier zeigte, dass CogVLM aufgrund seiner hervorragenden Leistung direkt von Stable Diffufion 3 für Bildanmerkungen verwendet wurde. Auf dieser Grundlage wurde Open Source basierend auf CogV verbessert LM Visuelles Sprachmodell CogAgent Hauptziel ist es, die Benutzeroberfläche der grafischen Benutzeroberfläche (GUI) zu verstehen.
Die entsprechenden Beiträge von CogAgent wurden in CVPR 2024 aufgenommen, der hochrangigsten akademischen Konferenz im internationalen Bereich Computer Vision.
Sie müssen wissen, dass CVPR für seine strenge Zulassungsquote bekannt ist.
Papieradresse: https://arxiv.org/abs/2312.08914
ChatGLM-Math
Um mathematische Probleme mit LLM zu lösen, schlug das GLM-Großmodellteam „ Iterative Trainingsmethode „Selbstkritik“.Durch den Selbst-Feedback-Mechanismus hilft es LLM dabei, sowohl die sprachlichen als auch die mathematischen Fähigkeiten zu verbessern.
Papieradresse: https://arxiv.org/abs/2404.02893
Diese Methode enthält zwei Schlüsselschritte:
Trainieren Sie zunächst einen Generator, um ein „Math-Critique“-Modell zur Auswertung zu generieren Das Modell kann Antworten auf mathematische Fragen generieren und Feedbacksignale liefern.
Zweitens wird das neue Modell durch Feinabstimmung der Ablehnungsstichproben und DPO verwendet, um die Generierung von LLM selbst zu überwachen.
Das GLM-Großmodellteam hat auch den MATHUSEREVAL-Benchmark-Testsatz entwickelt, um die mathematischen Fähigkeiten des neuen Modells zu bewerten:
Es ist offensichtlich, dass die Die neue Methode verbessert die mathematischen Fähigkeiten der LLM-Problemlösungskompetenzen erheblich und verbessert gleichzeitig ihre Sprachkenntnisse. Wichtig ist, dass es in einigen Fällen größere Modelle mit der doppelten Anzahl an Parametern übertrifft.
Im OpenCompass 2.0-Benchmark-Test ist die Stärke des Basismodells der neuen Generation von Zhipu AI nicht zu unterschätzen.
In der Gesamtwertung belegt GLM-4 den dritten und landesweit den ersten Platz.
Im „SuperBench Large Model Comprehensive Capability Evaluation Report“, der vor nicht allzu langer Zeit vom SuperBench-Team veröffentlicht wurde, rangierte GLM-4 ebenfalls auf der ersten Stufe der Welt.
Insbesondere in den kritischsten Bereichen semantisches Verständnis und Agentenfähigkeiten belegt GLM-4 den ersten Platz im Land und übertrifft alle Konkurrenten.
Im gerade vergangenen ersten Jahr der großen Modelle tobt seit einem Jahr der rege Modellkrieg.
Wenn 2024 das erste Jahr von AGI sein will, haben die großen Modellteams der Welt noch einen langen Weg vor sich.
Das obige ist der detaillierte Inhalt vonDer Turing-Riese erschien beim ICLR und war auf dem Gipfel ganz verrückt nach den Stars LeCun und Bengio! Drei große Technologietrends chinesischer Teams beflügeln neue Vorstellungen von AGI. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!