Maison >Périphériques technologiques >IA >La scène live est choquante ! Le framework OmAgent est désormais open source ! Les applications industrielles se sont pleinement épanouies
La première entreprise à proposer et à développer la conduite autonome a été Google. Par coïncidence, le modèle Transformer qu'elle a lancé a également jeté les bases du développement des grands modèles actuels.
La conduite autonome a accompli une magnifique transformation du concept à la réalité, remodelant complètement la façon traditionnelle de conduire, et ce que traverse la grande industrie du modélisme est à l'image du voyage légendaire du développement de la technologie de conduite autonome -
Le top R&D les équipes rivalisent pour y participer, l'innovation technologique des produits qui ne cesse de s'accélérer et de prendre de l'avance, et l'expérience utilisateur qui continue d'être poussée à l'extrême.
Dans le circuit des grands modèles, il y a une entreprise qui a toujours été à l'avant-garde, repoussant les limites de l'industrie.
Pourquoi la technologie Lianhui ?
Lorsque l'industrie a commencé à s'intéresser aux grands modèles, elle avait déjà ancré les grands modèles multimodaux et obtenu le certificat n° 001 pour les tests sur grands modèles du ministère de l'Industrie et des Technologies de l'information avec des scores élevés
Dernier ; L'année dernière, lorsque les gens ont prêté attention à la « Bataille des 100 modèles », ils ont non seulement publié la version V3 du grand modèle multimodal OmModel auto-développé, mais ont également publié les premières applications nationales d'agents autonomes basées sur un grand modèle.
Cette année, lors de la Conférence mondiale sur l'intelligence artificielle, ils ont une fois de plus publié une série de résultats techniques, poussant les produits technologiques de grands modèles à un niveau d'application plus profond et plus large.
L'équipe technique de Lianhui Technology a une forte réflexion avant-gardiste, qui est étroitement liée à son scientifique en chef, le Dr Zhao Tiancheng. Cet étudiant a étudié sous la direction de Maxine Eskenazi, une éminente chercheuse dans le domaine international de l'IA, et a étudié à la CMU LTI (Carnegie). Mellon University Language Institute), un jeune homme talentueux qui a obtenu une maîtrise et un doctorat. Non seulement il peut être qualifié de « personne honnête en IA », mais ce qui est encore plus rare, c'est que Zhao Tiancheng a des idées uniques. dans le développement technologique et la planification stratégique.
Le Dr Zhao Tiancheng a souligné que dans la quatrième vague de révolution industrielle menée par l'IA, l'intelligence autonome deviendra la variable centrale du changement. Alors que les humains entrent en contact pour la première fois et maîtrisent le secret de l'intelligence créatrice, Nous assisterons à l'arrivée d'une nouvelle ère - Dans cette ère, les machines, les logiciels et même les systèmes seront dotés de capacités de prise de décision autonomes sans précédent et ne pourront que transformer l’avenir. Largement utilisé dans divers domaines de travail, libérant une efficacité et une innovation sans précédent.
2024 est la première année des agents intelligents.
Nous sommes au niveau L2 et avançons progressivement vers la L3 et la L4.
OmAgent est là !
Pendant WAIC, Lianhui Technology a officiellement lancé l'agent intelligent multimodal de deuxième génération OmAgent.
À la même époque l'année dernière, Lianhui Technology a pris les devants dans l'industrie et a pris les devants en lançant le premier lot d'agents autonomes pilotés par de grands modèles multimodaux en Chine. Alors, quelles surprises le multi-deuxième génération de Lianhui. l'agent modal OmAgent a-t-il cette année ?
Le premier est la nouvelle mise à niveau du module de perception.
Avec la mise en œuvre d'applications d'IA, Lianhui Technology a découvert que bien que le modèle de perception de toutes choses ait un grand potentiel en matière de reconnaissance et de traitement intelligents, il est limité par le goulot d'étranglement de la vitesse d'inférence. Par rapport aux avantages des petits modèles en termes de vitesse d'inférence, G-DINO d'Idealab et OmDet de Lianhui Technology ont des performances insatisfaisantes en termes de vitesse, ce qui limite considérablement leur application sur les appareils informatiques de pointe.
Le dernier OmDet V2 publié par Lianhui Technology permet une accélération complète de la perception de toutes choses. Il reconstruit le module de perception de toutes choses à partir du bas et lance la tête de fusion haute performance EFH, qui comprend une série de technologies d'optimisation d'accélération de modèle et Les technologies telles que la mise en cache, l'encodage et le décodage légers des fonctionnalités bénéficient de l'optimisation du mécanisme d'EFH pour chaque lien. Par rapport aux modèles de perception de première génération de G-DINO et de Lianhui, OmDet V2 a atteint de meilleures performances dans chaque lien 20 fois plus rapidement. .
De telles améliorations signifient qu'OmDet V2 ouvre de nouvelles possibilités pour l'IA de pointe et l'intelligence incorporée à l'avenir.
Grâce à la vitesse d'inférence et aux capacités d'analyse précise d'OmDet V2, un seul GPU peut effectuer une analyse en temps réel de 500 flux vidéo, ce qui constitue une nouvelle actualisation des performances techniques. Dans le même temps, cela signifie également ouvrir la possibilité à l'IA de pointe. OmDet V2 permet aux modèles de perception de tout de s'affranchir des contraintes du cloud et d'accéder aux appareils de pointe, offrant ainsi une prise en charge intelligente et puissante pour des applications de pointe telles que. robots humanoïdes et centres informatiques intelligents pour la maison.
Cette innovation redéfinit non seulement la réflexion sur le développement de produits de grands modèles, mais jette également les bases de la création d'un environnement d'applications de grands modèles plus en temps réel, plus sûr et plus axé sur la confidentialité.
Deuxièmement, l'amélioration des capacités de réflexion et de prise de décision.
La pensée est au cœur d'un agent multimodal. Ce n'est qu'avec la capacité de penser qu'un agent peut prendre des décisions et agir de manière autonome en fonction des résultats de la perception et de la mémoire, devenant ainsi un véritable assistant. Cependant, les modèles de pensée multimodaux existants présentent des limites évidentes. Par exemple, ils ne peuvent penser et prendre des décisions que sur la base d’une seule image, et ne peuvent pas comprendre et traiter plusieurs images liées.
Afin de résoudre ce problème, Lianhui Technology a récemment publié la deuxième génération du grand modèle de pensée OmChat V2, un grand modèle génératif basé sur la pré-formation native de modèles multimodaux. Il fournit non seulement plusieurs versions de 8B, 40B et 60B, mais convient à différents besoins. Il peut également très bien prendre en charge une variété d'entrées complexes telles que la vidéo, le mélange d'images et de texte, le texte, etc., et s'adapter parfaitement aux scénarios complexes requis dans le processus de prise de décision de l'agent.
OmChat V2 prend en charge des longueurs de contexte allant jusqu'à 512 Ko et 500 000, ce qui équivaut à une durée de vidéo de 30 minutes, juste derrière Google Gemin-1.5 et dépassant de loin GPT-4o et Microsoft LLaVa-1.5.
Les performances moyennes d'OmChat V2 sont à la pointe de l'industrie dans Mantis-Eval, Q-Bench, MileBench Real, MVBench et d'autres tests.
Une déclaration plus simple et plus directe est qu'OmChat V2 peut non seulement voir la relation temporelle avec précision, mais également comprendre la relation multi-graphique.
Jugement relationnel séquentiel dans le temps 图 Compréhension des relations multi-cartes
Afin de pouvoir véritablement se lancer dans les grands modèles et les technologies intelligentes, Lianhui Technology a pris les devants en complétant L'adaptation et la vérification des performances avec une variété de GPU nationaux, grâce à une activation clairsemée efficace et à des méthodes expertes dynamiques, améliorent l'efficacité de l'inférence de 20 fois. La plate-forme d'exécution de grands modèles Om OS est également la première à prendre en charge une plate-forme d'inférence distribuée multirégionale de grands modèles, hétérogène. Le raisonnement de Jiutou Snake peut augmenter de 3 fois l'utilisation de la puissance de calcul.À cet égard, Lianhui Technology a officiellement débloqué un grand nombre de scénarios d'application industrielle.
Déconstruction du contenu des fictions cinématographiques et télévisuelles
Le framework mAgent est entièrement open source !
Lianhui Technology a obtenu un certain nombre de résultats révolutionnaires dans la technologie des agents multimodaux Concernant la question de savoir s'il faut ou non ouvrir la source, le Dr Zhao Tiancheng l'examine toujours dans une perspective plus macro et à long terme.Il a déclaré : Nous avons choisi d'ouvrir entièrement le framework OmAgent parce que nous voulons encourager davantage d'entreprises et de développeurs à participer, et construire un écosystème d'agents intelligents plus ouvert et plus riche grâce au partage des connaissances et à l'innovation technologique, qui peut ensuite piloter l'ensemble du secteur. pour être plus intelligent. Bon développement.
Le framework OmAgent comprend non seulement des modules complets tels que la perception, la mémoire et la prise de décision, mais intègre également de nombreux types différents de fonctionnalités de grands modèles telles que OmDet et OmChat, ce qui facilite grandement le développement d'applications des entreprises et des développeurs et favorise l'intelligence la technologie des agents pour approfondir l'autonomisation à différents niveaux et dans des domaines plus larges.
Grâce à OmAgent, des problèmes complexes dans divers scénarios peuvent être résolus rapidement et avec précision. Par exemple, la réponse à une certaine question se trouve toujours dans les films et les séries télévisées. Bien que la réponse ne soit pas directement présentée dans le film, OmAgent peut toujours comprendre l'intrigue grâce à une compréhension globale de l'ensemble du film et réfléchir et répondre en fonction de celle-ci. contenu original du film.
Étape 01
Étape 02 Étape 03 Étape 04 Actuellement, l'Om Le framework d'agent est entièrement Open Source. Au WAIC, Lianhui Technology a donné une démonstration interactive complète en direct d'OmAgent. Afin d'intégrer plus rapidement les agents intelligents dans le travail et la vie quotidienne, Lianhui a officiellement lancé Om, une nouvelle série de produits d'agents multimodaux - agents d'opérations spatiales et agents de services de connaissances , pour les utilisateurs de l'industrie Créer un "super assistant". Space Operation Agent est une perception complète de l'environnement physique de l'espace grâce à des appareils IoT tels que des caméras et des micros, ainsi que diverses sources de données accessibles, profondément intégrées dans la capacité de réflexion des grands modèles, et traite et analyse avec précision plusieurs -Informations de données modales. Un aperçu des problèmes clés et des opportunités potentielles dans les opérations, basé sur les tâches cibles définies par le rôle de l'agent, combiné à la mémoire et à l'apprentissage, permet de réfléchir, de planifier et de prendre des décisions pour l'espace physique, devenant ainsi un assistant puissant pour les utilisateurs. dans la gestion de l'espace. Le champ d'application couvre divers espaces uniques et environnements de chaîne tels que la vente au détail hors ligne, les halls d'affaires, les salles informatiques, les parcs industriels, les sites touristiques culturels, les blocs urbains, etc., pour obtenir une exploitation et une gestion raffinées de l'espace. Par rapport à l'exploitation et à la gestion du monde physique réel par les agents d'opérations spatiales, les agents de services de connaissances mettent davantage l'accent sur la gestion du monde numérique et l'exploitation de la valeur des actifs numériques. Il peut être utilisé comme assistant d'intelligence artificielle personnalisé pour l'industrie. Il est largement utilisé dans le bureau, la production, l'exploitation et la maintenance, le marketing, la formation, le service client et d'autres scénarios, intégrant l'expérience et la technologie accumulées par les entreprises. , les organisations et les individus dans des domaines spécifiques, les processus métier, etc. en connaissances structurées spécifiques à l'industrie Grâce à des fonctionnalités de base telles que la gestion des connaissances, la récupération des connaissances, les questions-réponses et la génération de connaissances, il améliore la qualité de la prise de décision des utilisateurs et optimise. processus opérationnels, et transforme finalement les actifs de connaissances immatériels en productivité tangible. 2024 sera sans aucun doute la première année des agents intelligents, et les agents intelligents deviennent le meilleur moyen de mettre en œuvre de grands modèles. Concernant l'avenir, le Dr Zhao Tiancheng a révélé sa prédiction - L'avenir des agents intelligents n'est pas de se battre seuls, mais de combiner des coups de poing avec de grands modèles, surtout lorsque plusieurs types de grands modèles travaillent ensemble. débloquez un potentiel bien au-delà de celui d’un seul grand modèle de langage. Les agents briseront les frontières des chatbots traditionnels et leurs formulaires de candidature connaîtront une innovation, devenant plus diversifiés et pénétrant dans tous les aspects des activités humaines. Avec l'essor de l'IA de pointe, les grands modèles ne se limiteront plus aux grands serveurs. Ils iront en périphérie et seront intégrés dans de nombreux petits appareils, atteignant ainsi une véritable ubiquité.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!