Auf dem allgemeinen Parallelforum „Künstliche Intelligenz“ des Zhongguancun-Forums am 27. April veröffentlichte Sophon Engine, ein dem Nationalen Volkskongress angeschlossenes Startup-Unternehmen, feierlich ein neues multimodales Großmodell Awaker 1.0 und machte damit einen entscheidenden Schritt in Richtung AGI .
Im Vergleich zum ChatImg-Sequenzmodell der vorherigen Generation der Sophon Engine übernimmt Awaker 1.0 eine neue MOE-Architektur und verfügt über unabhängige Aktualisierungsfunktionen. Es ist das erste multimodale große Modell in der Branche, das „echte“ Unabhängigkeit erreicht aktualisieren.
In Bezug auf die visuelle Generierung verwendet Awaker 1.0 eine vollständig selbst entwickelte Videogenerierungsbasis VDT, die bei der Generierung von Fotovideos bessere Ergebnisse als Sora erzielt und die Schwierigkeit der „letzten Meile“ bei der Landung großer Modelle überwindet. Awaker 1.0 ist ein multimodales großes Modell, das visuelles Verständnis und visuelle Generierung hervorragend integriert. Auf der Verständnisseite interagiert Awaker 1.0 mit der digitalen Welt und der realen Welt und gibt während der Aufgabenausführung Daten zum Szenenverhalten zurück, um eine kontinuierliche Aktualisierung und Schulung zu erreichen. Auf der Generierungsseite kann Awaker 1.0 hochwertige Multi-Daten generieren. Modaler Inhalt, Simulation der realen Welt und Bereitstellung weiterer Trainingsdaten für das verstehende Seitenmodell.
Besonders wichtig ist, dass Awaker 1.0 aufgrund seiner „echten“ autonomen Update-Fähigkeiten für ein breiteres Spektrum an Branchenszenarien geeignet ist und komplexere praktische Aufgaben lösen kann, wie z. B. AI Agent, verkörperte Intelligenz, umfassendes Management, und Sicherheitsinspektion usw. Awakers MOE-Basismodell
Auf der Verständnisseite löst das Basismodell von Awaker 1.0 hauptsächlich das Problem schwerwiegender Konflikte im multimodalen Multitasking-Vortraining. Das Basismodell von Awaker 1.0 profitiert von der sorgfältig entwickelten Multitask-MOE-Architektur und kann nicht nur die Grundfunktionen des multimodalen Großmodells ChatImg der vorherigen Generation der Sophon Engine übernehmen, sondern auch die einzigartigen Fähigkeiten erlernen, die für jede multimodale Aufgabe erforderlich sind . Im Vergleich zum multimodalen Großmodell ChatImg der vorherigen Generation wurden die Basismodellfunktionen von Awaker 1.0 in mehreren Aufgaben erheblich verbessert.
Angesichts des Problems der Leckage von Bewertungsdaten in gängigen multimodalen Bewertungslisten haben wir strenge Standards übernommen, um unseren eigenen Bewertungssatz zu erstellen, in dem die meisten Testbilder aus persönlichen Mobiltelefonalben stammen. In diesem multimodalen Bewertungssatz führen wir eine faire manuelle Bewertung von Awaker 1.0 und den drei fortschrittlichsten multimodalen Großmodellen im In- und Ausland durch. Die detaillierten Bewertungsergebnisse sind in der folgenden Tabelle aufgeführt. Beachten Sie, dass GPT-4V und Intern-VL Erkennungsaufgaben nicht direkt unterstützen. Ihre Erkennungsergebnisse werden dadurch erhalten, dass das Modell die Objektorientierung mithilfe von Sprache beschreiben muss. Wir haben festgestellt, dass das Basismodell von Awaker 1.0 GPT-4V, Qwen-VL-Max und Intern-VL bei der visuellen Beantwortung von Fragen und Geschäftsanwendungsaufgaben übertraf und gleichzeitig das nächstbeste Ergebnis erzielte. Insgesamt übertrifft die durchschnittliche Punktzahl von Awaker 1.0 die der drei fortschrittlichsten Modelle im In- und Ausland und bestätigt die Wirksamkeit der Multitasking-MOE-Architektur. Nachfolgend finden Sie einige konkrete Beispiele für vergleichende Analysen.
Wie aus diesen Vergleichsbeispielen hervorgeht, kann Awaker 1.0 die Zähl- und OCR-Fragen korrekt beantworten, während die anderen drei Modelle alle falsch (oder teilweise falsch) antworten. Bei der detaillierten Beschreibungsaufgabe ist Qwen-VL-Max anfälliger für Halluzinationen und Intern-VL kann den Inhalt des Bildes genau beschreiben, ist jedoch in einigen Details nicht genau und spezifisch genug. GPT-4V und Awaker 1.0 können nicht nur den Inhalt des Bildes detailliert beschreiben, sondern auch die Details im Bild genau identifizieren, wie zum Beispiel die im Bild gezeigte Coca-Cola. Awaker + Embodied Intelligence: Auf dem Weg zu AGI
Die Kombination von multimodalen großen Modellen und verkörperter Intelligenz ist aufgrund der visuellen Verständnisfähigkeiten multimodaler großer Modelle sehr natürlich. Kann mit kombiniert werden Kameras, die natürliche und verkörperte Intelligenz sind. Im Bereich der künstlichen Intelligenz gilt „multimodales großes Modell + verkörperte Intelligenz“ sogar als gangbarer Weg zur Erreichung allgemeiner künstlicher Intelligenz (AGI).
Einerseits erwarten die Menschen, dass die verkörperte Intelligenz anpassungsfähig ist, das heißt, der Agent kann sich durch kontinuierliches Lernen an sich ändernde Anwendungsumgebungen anpassen. Er kann nicht nur bekannte multimodale Aufgaben besser erledigen, sondern sich auch schnell anpassen zu multimodalen Aufgaben.
Andererseits erwarten die Menschen auch, dass verkörperte Intelligenz wirklich kreativ ist, in der Hoffnung, dass sie durch autonome Erkundung der Umwelt neue Strategien und Lösungen entdecken und die Grenzen der Fähigkeiten künstlicher Intelligenz erkunden kann. Durch die Verwendung multimodaler großer Modelle als „Gehirne“ der verkörperten Intelligenz haben wir das Potenzial, die Anpassungsfähigkeit und Kreativität der verkörperten Intelligenz dramatisch zu steigern und letztendlich die Schwelle von AGI zu erreichen (oder sogar AGI zu erreichen).
Es gibt jedoch zwei offensichtliche Probleme bei bestehenden großen multimodalen Modellen: Erstens ist der iterative Aktualisierungszyklus des Modells lang und erfordert große menschliche und finanzielle Investitionen; zweitens kommen die Trainingsdaten des Modells Aus vorhandenen Daten kann das Modell nicht kontinuierlich eine große Menge an neuem Wissen gewinnen. Obwohl die kontinuierliche Entstehung neuen Wissens auch durch RAG und langen Kontext eingebracht werden kann, lernt das multimodale große Modell selbst dieses neue Wissen nicht, und diese beiden Korrekturmethoden bringen auch zusätzliche Probleme mit sich.
Kurz gesagt, die aktuellen großen multimodalen Modelle sind in tatsächlichen Anwendungsszenarien nicht sehr anpassungsfähig, geschweige denn kreativ, was bei der Implementierung in der Branche zu verschiedenen Schwierigkeiten führt.
Der von Sophon Engine veröffentlichte Awaker 1.0 ist dieses Mal das weltweit erste multimodale Großmodell mit einem autonomen Aktualisierungsmechanismus, der als „Gehirn“ der verkörperten Intelligenz verwendet werden kann. Der autonome Aktualisierungsmechanismus von Awaker 1.0 umfasst drei Schlüsseltechnologien: aktive Datengenerierung, Modellreflexion und -bewertung sowie kontinuierliche Modellaktualisierung.
Anders als alle anderen großen multimodalen Modelle ist Awaker 1.0 „live“ und seine Parameter können kontinuierlich in Echtzeit aktualisiert werden.
Wie aus dem Rahmendiagramm oben ersichtlich ist, kann Awaker 1.0 mit verschiedenen intelligenten Geräten kombiniert werden, die Welt über intelligente Geräte beobachten, Handlungsabsichten generieren und automatisch Anweisungen erstellen, um intelligente Geräte zu steuern, um verschiedene Aktionen auszuführen. Intelligente Geräte generieren nach Abschluss verschiedener Aktionen automatisch verschiedene Rückmeldungen. Aus diesen Aktionen und Rückmeldungen kann Awaker 1.0 effektive Trainingsdaten zur kontinuierlichen Selbstaktualisierung abrufen und die verschiedenen Fähigkeiten des Modells kontinuierlich stärken.
Am Beispiel der Einspeisung neuen Wissens kann Awaker 1.0 kontinuierlich die neuesten Nachrichteninformationen im Internet lernen und auf der Grundlage der neu erlernten Nachrichteninformationen verschiedene komplexe Fragen beantworten. Im Gegensatz zu den herkömmlichen RAG- und Long-Context-Methoden kann Awaker 1.0 wirklich neues Wissen erlernen und sich die Parameter des Modells „merken“. Wie Sie dem obigen Beispiel entnehmen können, kann Awaker 1.0 an drei aufeinanderfolgenden Tagen der Selbstaktualisierung jeden Tag die Nachrichteninformationen des Tages lernen und bei der Beantwortung von Fragen die entsprechenden Informationen genau aussprechen. Gleichzeitig vergisst Awaker 1.0 das erlernte Wissen während des kontinuierlichen Lernprozesses nicht. Das Wissen von Wisdom S7 wird von Awaker 1.0 beispielsweise auch nach 2 Tagen noch gespeichert oder verstanden. Awaker 1.0 kann auch mit verschiedenen Smart-Geräten kombiniert werden, um eine Cloud-Edge-Zusammenarbeit zu erreichen. Awaker 1.0 wird in der Cloud als „Gehirn“ eingesetzt, um verschiedene Edge-Smart-Geräte zur Ausführung verschiedener Aufgaben zu steuern. Das erhaltene Feedback, wenn das Edge-Smart-Gerät verschiedene Aufgaben ausführt, wird kontinuierlich an Awaker 1.0 zurückgesendet, sodass es kontinuierlich Trainingsdaten abrufen und sich kontinuierlich aktualisieren kann. Der oben genannte technische Weg der Cloud-Edge-Zusammenarbeit wurde in Anwendungsszenarien wie Smart-Grid-Inspektion und Smart Cities angewendet. Er hat weitaus bessere Erkennungsergebnisse erzielt als herkömmliche kleine Modelle und wurde von Industriekunden hoch geschätzt.
Simulator für die reale Welt: VDTDie Generierungsseite von Awaker 1.0 ist ein Sora-ähnlicher Videogenerierungsbasis-VDT, der unabhängig von Sophon Engine entwickelt wurde und als realer VDT verwendet werden kann. Weltsimulator. Die Forschungsergebnisse von VDT wurden im Mai 2023 auf der arXiv-Website veröffentlicht, 10 Monate bevor OpenAI Sora veröffentlichte. Die wissenschaftliche Arbeit des VDT wurde von der ICLR 2024, der führenden internationalen Konferenz für künstliche Intelligenz, angenommen.
Die Innovation der Videogenerierungsbasis VDT umfasst hauptsächlich die folgenden Aspekte:
- Die Anwendung der Transformer-Technologie auf die diffusionsbasierte Videogenerierung zeigt das große Potenzial von Transformer im Bereich der Videogenerierung. Der Vorteil von VDT ist seine hervorragende zeitabhängige Erfassungsfähigkeit, die die Erzeugung zeitlich kohärenter Videobilder ermöglicht, einschließlich der Simulation der physikalischen Dynamik dreidimensionaler Objekte im Zeitverlauf.
- Schlagen Sie einen einheitlichen räumlich-zeitlichen Maskenmodellierungsmechanismus vor, damit VDT eine Vielzahl von Videogenerierungsaufgaben bewältigen kann, und realisieren Sie so die breite Anwendung dieser Technologie. Die flexiblen bedingten Informationsverarbeitungsmethoden von VDT, wie z. B. einfaches Token-Space-Splicing, vereinheitlichen effektiv Informationen unterschiedlicher Länge und Modalitäten. Gleichzeitig ist VDT durch die Kombination mit dem räumlich-zeitlichen Maskenmodellierungsmechanismus zu einem universellen Videodiffusionswerkzeug geworden, das auf die bedingungslose Generierung, die Vorhersage nachfolgender Videobilder, die Bildinterpolation, bildgenerierende Videos und Videobilder angewendet werden kann, ohne die Daten zu ändern Modellstruktur. Fertigstellung und andere Videogenerierungsaufgaben.
Wir haben uns auf die Erforschung der Simulation einfacher physikalischer Gesetze durch VDT konzentriert und VDT anhand des Physion-Datensatzes trainiert. Im folgenden Beispiel stellen wir fest, dass VDT physikalische Prozesse erfolgreich simuliert, z. B. die Bewegung des Balls entlang einer parabolischen Flugbahn und das Rollen des Balls auf einer Ebene und die Kollision mit anderen Objekten. Gleichzeitig ist aus dem zweiten Beispiel in Zeile 2 auch ersichtlich, dass VDT die Geschwindigkeit und den Impuls des Balls erfasst, da der Ball aufgrund unzureichender Aufprallkraft nicht die Säule umgeworfen hat. Dies beweist, dass die Transformer-Architektur bestimmte physikalische Gesetze lernen kann.
Wir haben auch die Aufgabe zur Erstellung von Fotovideos eingehend untersucht. Diese Aufgabe stellt sehr hohe Anforderungen an die Qualität der Videogenerierung, da wir von Natur aus empfindlicher auf dynamische Veränderungen von Gesichtern und Charakteren reagieren. Angesichts der Besonderheit dieser Aufgabe müssen wir VDT (oder Sora) und steuerbare Erzeugung kombinieren, um die Herausforderungen der Foto-Video-Erzeugung zu bewältigen. Derzeit hat die Sophon-Engine die meisten Schlüsseltechnologien der Foto-Video-Generierung durchbrochen und eine bessere Qualität der Foto-Video-Generierung als Sora erreicht. Sophon Engine wird den steuerbaren Generierungsalgorithmus von Porträts weiterhin optimieren und erforscht auch aktiv die Kommerzialisierung. Derzeit wurde ein bestätigtes kommerzielles Landungsszenario gefunden, und es wird erwartet, dass die „letzte Meile“-Schwierigkeit bei der Landung großer Modelle in naher Zukunft überwunden wird. In Zukunft wird ein vielseitigeres VDT zu einem leistungsstarken Werkzeug zur Lösung des Problems multimodaler großer Modelldatenquellen. Mithilfe der Videogenerierung wird VDT in der Lage sein, die reale Welt zu simulieren, die Effizienz der visuellen Datenproduktion weiter zu verbessern und Unterstützung bei der unabhängigen Aktualisierung des multimodalen Großmodells Awaker zu leisten. Awaker 1.0 ist ein wichtiger Schritt für das Sophon-Engine-Team, um dem ultimativen Ziel der „Realisierung von AGI“ näher zu kommen. Das Team ist davon überzeugt, dass die autonomen Lernfähigkeiten der KI wie Selbsterkundung und Selbstreflexion wichtige Bewertungskriterien für das Intelligenzniveau sind und ebenso wichtig sind wie die kontinuierliche Zunahme der Parametergröße (Skalierungsgesetz). Awaker 1.0 hat wichtige technische Frameworks wie „aktive Datengenerierung, Modellreflexion und -bewertung sowie kontinuierliche Modellaktualisierung“ implementiert und damit Durchbrüche sowohl auf der Verständnisseite als auch auf der Generierungsseite erzielt. Es wird erwartet, dass die Entwicklung des multimodalen Großen beschleunigt wird Modellindustrie und letztendlich den Menschen ermöglichen, AGI zu realisieren. Das obige ist der detaillierte Inhalt vonDas multimodale Modell des Nationalen Volkskongresses bewegt sich in Richtung AGI: Es realisiert erstmals unabhängige Aktualisierungen und die Foto-Video-Generierung übertrifft Sora. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!