Heim >Technologie-Peripheriegeräte >KI >Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

PHPzOriginal: 2024-07-12 18:06:38650Durchsuche

Das erste Unternehmen, das autonomes Fahren vorschlug und entwickelte, war Google. Zufälligerweise legte das von ihm veröffentlichte Transformer-Modell auch den Grundstein für die Entwicklung der heutigen großen Modelle.

Das autonome Fahren hat einen großartigen Wandel vom Konzept zur Realität vollzogen und die traditionelle Art des Fahrens völlig neu gestaltet, und was die große Modellindustrie durchmacht, ist genau wie die legendäre Reise der Entwicklung der autonomen Fahrtechnologie –

Die Spitzenforschung und -entwicklung Teams konkurrieren darum, daran teilzunehmen, technologische Produktinnovationen, die immer schneller voranschreiten und der Konkurrenz einen Schritt voraus sind, und Benutzererlebnisse, die weiterhin auf die Spitze getrieben werden.

In der großen Modellbranche gibt es ein Unternehmen, das schon immer an vorderster Front stand und die Grenzen der Branche nach vorne verschiebt.

Warum Lianhui Technology?

Als die Branche begann, sich mit großen Modellen zu befassen, hatte sie bereits multimodale große Modelle verankert und vom Ministerium für Industrie und Informationstechnologie das Zertifikat Nr. 001 mit hohen Punktzahlen erhalten.

Zuletzt Als die Menschen in diesem Jahr auf die „Schlacht der 100 Modelle“ achteten, veröffentlichten sie nicht nur die V3-Version des selbst entwickelten multimodalen Großmodells OmModel, sondern auch die ersten inländischen großen modellgesteuerten autonomen Agentenanwendungen.

Dieses Jahr veröffentlichten sie während der Weltkonferenz für künstliche Intelligenz wieder eine Reihe technischer Ergebnisse, die große Modelltechnologieprodukte auf eine tiefere und breitere Anwendungsebene brachten.

Das technische Team von Lianhui Technology hat eine starke Zukunftsorientierung, die eng mit ihrem Chefwissenschaftler Dr. Zhao Tiancheng verbunden ist. Dieser Student studierte bei Maxine Eskenazi, einer Top-Wissenschaftlerin im internationalen KI-Bereich, und studierte an der CMU LTI (Carnegie). Er ist ein talentierter junger Mann, der einen Master- und einen Doktortitel erworben hat. Er kann nicht nur als „aufrichtiger Mensch in der KI“ bezeichnet werden, sondern was noch seltener ist, ist, dass Zhao Tiancheng über einzigartige Einsichten verfügt in Technologieentwicklung und strategische Planung.

Dr. Zhao Tiancheng wies darauf hin, dass in der vierten Welle der industriellen Revolution, angeführt von KI, autonome Intelligenz zur Kernvariable des Wandels werden wird. Wenn der Mensch zum ersten Mal mit dem Geheimnis der kreativen Intelligenz in Berührung kommt und es beherrscht, Wir werden den Beginn einer neuen Ära erleben – In dieser Ära werden Maschinen, Software und sogar Systeme mit beispiellosen autonomen Entscheidungsfähigkeiten ausgestattet sein und können nur Verwandeln Sie die Zukunft. Weit verbreitet in verschiedenen Arbeitsbereichen, um beispiellose Effizienz und Innovation zu ermöglichen.

2024 ist das erste Jahr der intelligenten Agenten.

Wir sind auf L2-Niveau und bewegen uns allmählich in Richtung L3 und L4.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

OmAgent ist da!

Während der WAIC veröffentlichte Lianhui Technology offiziell den multimodalen intelligenten Agenten OmAgent der zweiten Generation.

Zur gleichen Zeit im letzten Jahr übernahm Lianhui Technology die Führung in der Branche und übernahm die Führung bei der Veröffentlichung der ersten Charge autonomer Agenten, die von multimodalen Großmodellen angetrieben werden, in China. Welche Überraschungen bietet Lianhuis Multi-? Modal Agent hat OmAgent dieses Jahr?

Das erste ist das neue Upgrade des Wahrnehmungsmoduls.

Mit der Implementierung von KI-Anwendungen hat Lianhui Technology herausgefunden, dass das All-Things-Wahrnehmungsmodell zwar großes Potenzial für die intelligente Erkennung und Verarbeitung bietet, dieses jedoch durch den Engpass der Inferenzgeschwindigkeit begrenzt ist. Im Vergleich zu den Vorteilen kleiner Modelle in Bezug auf die Inferenzgeschwindigkeit weisen G-DINO von Idealab und OmDet von Lianhui Technology eine unbefriedigende Geschwindigkeitsleistung auf, was ihre Anwendung auf Edge-Computing-Geräten stark einschränkt.

Das neueste von Lianhui Technology veröffentlichte OmDet V2 erreicht eine umfassende Beschleunigung aller Wahrnehmungsprozesse Es baut das Modul aller Wahrnehmungsprozesse von Grund auf neu auf und führt den EFH-Hochleistungs-Fusionskopf ein, der eine Reihe von Technologien zur Optimierung der Modellbeschleunigung umfasst Sprachvektoren. Technologien wie Caching, leichte Feature-Kodierung und -Dekodierung profitieren von der Mechanismusoptimierung jedes Links von OmDet V2. Im Vergleich zu den Wahrnehmungsmodellen von G-DINO und Lianhui hat OmDet V2 in jedem Link eine bessere Leistung erzielt .

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Solche Verbesserungen bedeuten, dass OmDet V2 in Zukunft neue Möglichkeiten für Edge AI und Embodied Intelligence eröffnet.

Mit der Inferenzgeschwindigkeit und den präzisen Analysefunktionen von OmDet V2 kann eine einzelne GPU eine umfassende Echtzeitanalyse von 500 Videostreams durchführen, was eine neue Erneuerung der technischen Leistung darstellt. Gleichzeitig bedeutet dies auch, dass OmDet V2 die Möglichkeit eröffnet, alle Wahrnehmungsmodelle von den Einschränkungen der Cloud zu befreien und auf Edge-Geräte umzusteigen, wodurch leistungsstarke, intelligente Unterstützung für hochmoderne Anwendungen wie z. B. bereitgestellt wird humanoide Roboter und intelligente Heimrechenzentren.

Diese Innovation definiert nicht nur das Entwicklungsdenken von Großmodellprodukten neu, sondern legt auch den Grundstein für den Aufbau einer Echtzeit-, sichereren und stärker auf den Datenschutz ausgerichteten Anwendungsumgebung für Großmodelle.

Zweitens geht es um die Verbesserung der

Denk- und Entscheidungsfähigkeiten.

Denken ist der Kern eines multimodalen Agenten. Nur mit der Fähigkeit zu denken, kann ein Agent auf der Grundlage der Ergebnisse von Wahrnehmung und Gedächtnis selbstständig Entscheidungen treffen und handeln und so zu einem echten Assistenten werden. Bestehende multimodale Denkmodelle weisen jedoch offensichtliche Einschränkungen auf. Sie können beispielsweise nur auf der Grundlage eines einzelnen Bildes denken und Entscheidungen treffen und nicht mehrere zusammengehörige Bilder verstehen und verarbeiten.

Um dieses Problem zu lösen, hat Lianhui Technology neu die zweite Generation des großen Denkmodells OmChat V2 veröffentlicht, ein großes generatives Modell, das auf nativem Vortraining multimodaler Modelle basiert. Es bietet nicht nur mehrere Versionen von 8B, 40B und 60B, eignet sich jedoch für unterschiedliche Anforderungen. Es kann auch eine Vielzahl komplexer Eingaben wie Videos, Bild- und Textmischungen, Texte usw. sehr gut unterstützen und sich perfekt an die komplexen Szenarien anpassen, die im Entscheidungsprozess des Agenten erforderlich sind.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

OmChat V2 unterstützt Kontextlängen von bis zu 512 KB und 500.000, was einer Videolänge von 30 Minuten entspricht, nur Google Gemin-1.5 übertrifft und GPT-4o und Microsoft LLaVa-1.5 weit übertrifft.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Die durchschnittliche Leistung von OmChat V2 liegt in Mantis-Eval, Q-Bench, MileBench Real, MVBench und anderen Tests an der Spitze der Branche.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Eine einfachere und direktere Aussage ist, dass OmChat V2 nicht nur die Timing-Beziehung genau erkennen, sondern auch die Multi-Graph-Beziehung verstehen kann.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Zeitsequentielle Beziehungsbeurteilung 图 Multi-Map-Beziehungsverständnis

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Um bei großen Modellen und intelligenten Technologien wirklich auf den Boden fallen zu können, hat Lianhui Technology die Führung bei der Fertigstellung übernommen Anpassung und Leistungsüberprüfung mit einer Vielzahl inländischer GPUs durch effiziente Sparse-Aktivierung und dynamische Expertenmethoden verbessern die Inferenzeffizienz um das 20-fache. Die Om OS-Plattform für die Ausführung großer Modelle ist auch die erste, die eine multiregionale verteilte Inferenzplattform für große Modelle unterstützt Jiutou Snake-Argumentation kann die Rechenleistungsauslastung um das Dreifache steigern.

In diesem Zusammenhang hat Lianhui Technology offiziell eine Vielzahl von Branchenanwendungsszenarien freigeschaltet.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet Dekonstruktion des Inhalts von Film- und Fernsehdramen

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

^{Das mAgent-Framework ist vollständig Open Source!}

Lianhui Technology hat eine Reihe bahnbrechender Ergebnisse in der multimodalen Agententechnologie erzielt. Dr. Zhao Tiancheng betrachtet die Frage, ob Open Source eingesetzt werden soll, immer aus einer eher makroökonomischen und langfristigen Perspektive.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet Er sagte: Wir haben uns dafür entschieden, das OmAgent-Framework vollständig als Open Source zu veröffentlichen, weil wir mehr Unternehmen und Entwickler zur Teilnahme ermutigen und durch Wissensaustausch und technologische Innovation ein offeneres und reichhaltigeres Ökosystem für intelligente Agenten aufbauen möchten, das dann die gesamte Branche vorantreiben kann um intelligenter zu werden.

Das OmAgent-Framework umfasst nicht nur umfassende Module wie Wahrnehmung, Gedächtnis und Entscheidungsfindung, sondern integriert auch viele verschiedene Arten großer Modellfunktionen wie OmDet und OmChat, was die Anwendungsentwicklung von Unternehmen und Entwicklern erheblich erleichtert und die Intelligenz fördert Agententechnologie, um auf verschiedenen Ebenen und in größeren Bereichen tiefer zu gehen.

Durch OmAgent können komplexe Probleme in verschiedenen Szenarien schnell und präzise gelöst werden. Die Antwort auf eine bestimmte Frage findet sich beispielsweise immer in Filmen und Fernsehdramen. Obwohl die Antwort nicht direkt im Film präsentiert wird, kann OmAgent dennoch die Handlung durch ein Gesamtverständnis des gesamten Films erfassen und auf der Grundlage der Frage denken und antworten Originalfilminhalte.

Die Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet

Schritt 01

Schritt 02

Schritt 03

Schritt 04

Derzeit das OmAgent.-Framework ist vollständig Open Source.

Bei WAIC gab Lianhui Technology eine vollständige interaktive Live-Demonstration von OmAgent.

Um intelligente Agenten schneller in die tägliche Arbeit und das tägliche Leben zu integrieren, hat Lianhui offiziell Om veröffentlicht, eine neue Produktreihe multimodaler Agenten – Weltraumoperationsagenten und Wissensdienstagenten , für Industrieanwender. Erstellen Sie ein „Super-Assistent“.

Space Operation Agent ist eine umfassende Wahrnehmung der physischen Umgebung des Weltraums durch IoT-Geräte wie Kameras und Tonabnehmer sowie verschiedene abgerufene Datenquellen, die tief in die Denkfähigkeit großer Modelle integriert ist und mehrere präzise verarbeitet und analysiert -Modale Dateninformationen, basierend auf den durch die Rolle des Agenten festgelegten Zielaufgaben, ermöglichen in Kombination mit Gedächtnis und Lernen das Denken, Planen und Entscheiden für den physischen Raum und werden zu einem leistungsstarken Assistenten für Benutzer im Raummanagement.

Der Anwendungsbereich umfasst verschiedene Einzelräume und Kettenumgebungen wie Offline-Einzelhandel, Geschäftshallen, Computerräume, Industrieparks, kulturtouristische Aussichtspunkte, städtische Blöcke usw., um eine verfeinerte Bedienung und Verwaltung des Raums zu erreichen.

Verglichen mit dem Betrieb und der Verwaltung der realen physischen Welt durch Raumfahrtagenten legen Wissensdienstagenten mehr Wert auf die Verwaltung der digitalen Welt und die Wertgewinnung digitaler Vermögenswerte.

Es kann als auf die Branche zugeschnittener Assistent für künstliche Intelligenz eingesetzt werden. Es wird häufig in den Bereichen Büro, Produktion, Betrieb und Wartung, Marketing, Schulung, Kundendienst und anderen Szenarien eingesetzt und integriert die von Unternehmen gesammelten Erfahrungen und Technologien , Organisationen und Einzelpersonen in bestimmten Bereichen, Geschäftsprozessen usw. in strukturiertes branchenspezifisches Wissen. Durch Kernfunktionen wie Wissensmanagement, Wissensabruf, Wissensfragen und -generierung wird die Qualität der Benutzerentscheidungsfindung verbessert Betriebsabläufe und wandelt letztlich immaterielle Wissensbestände in greifbare Produktivität um.

2024 wird zweifellos das erste Jahr intelligenter Agenten sein, und intelligente Agenten werden zum besten Weg, große Modelle umzusetzen.

Was die Zukunft betrifft, so enthüllte Dr Potenziale erschließen, die weit über das eines einzelnen großen Sprachmodells hinausgehen.

Agenten werden die Grenzen traditioneller Chatbots sprengen und ihre Bewerbungsformulare werden einer Innovation unterzogen, die vielfältiger wird und alle Aspekte menschlicher Aktivitäten durchdringt.

Mit dem Aufkommen der Edge-KI werden große Modelle nicht mehr auf große Server beschränkt sein, sondern in viele kleine Geräte eingebettet werden und so eine echte Allgegenwärtigkeit erreichen.

Das obige ist der detaillierte Inhalt vonDie Live-Szene ist schockierend! Das OmAgent-Framework ist jetzt Open Source! Industrieanwendungen haben sich voll entfaltet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

分布式人工智能 transformer 自动化 gpt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：CVPR-Bester Papierkandidat |. Neuer Durchbruch in NeRF, der heuristisch gesteuerte Segmentierung verwendet, um vorübergehende Interferenzen ohne zusätzliche Vorkenntnisse zu entfernenNächster Artikel：CVPR-Bester Papierkandidat |. Neuer Durchbruch in NeRF, der heuristisch gesteuerte Segmentierung verwendet, um vorübergehende Interferenzen ohne zusätzliche Vorkenntnisse zu entfernen

In Verbindung stehende Artikel

Mehr sehen