Maison  >  Article  >  Périphériques technologiques  >  Dernière avancée du grand modèle Ant Bailing : il dispose déjà de capacités multimodales natives

Dernière avancée du grand modèle Ant Bailing : il dispose déjà de capacités multimodales natives

王林
王林original
2024-07-10 15:06:57440parcourir

Le 5 juillet, lors du forum « Trusted Large Models Help Industrial Innovation and Development » lors de la Conférence mondiale sur l'intelligence artificielle 2024, Ant Group a annoncé les derniers progrès de développement de son modèle Bailing auto-développé : le modèle Bailing a la capacité de « voir " Les capacités multimodales natives de « écouter », « parler » et « dessiner » peuvent directement comprendre et entraîner des données multimodales telles que l'audio, la vidéo, les images, le texte, etc. La multimodalité native est considérée comme le seul moyen d'accéder à l'AGI. En Chine, seuls quelques grands fabricants de modèles ont atteint cette capacité. Le journaliste a vu lors de la démonstration lors de la conférence que la technologie multimodale peut permettre aux grands modèles de percevoir et d'interagir davantage comme des humains, soutenant ainsi la mise à niveau de l'expérience corporelle intelligente. Les capacités multimodales de Bailing ont été appliquées à « l'assistant intelligent d'Alipay » et le seront. Être utilisé à l'avenir. Prend en charge des mises à niveau d'agent plus intelligentes sur Alipay.

Dernière avancée du grand modèle Ant Bailing : il dispose déjà de capacités multimodales natives

1. (Xu Peng, vice-président de Ant Group, a présenté les capacités multimodales natives de Bailing Large Model)
  1. Les capacités multimodales de Bailing Large Model ont atteint le niveau GPT-4o sur les graphiques chinois et l'ensemble d'évaluation MMBench-CN pour la compréhension du texte, a atteint le niveau excellent (le plus haut niveau) dans l'évaluation des capacités de sécurité multimodales de l'Académie des technologies de l'information et des communications, a la capacité de prendre en charge des applications à grande échelle et peut prendre en charge une série des tâches en aval telles que l'AIGC, le dialogue graphique, la compréhension vidéo et les humains numériques.
  2. La technologie multimodale des grands modèles peut permettre à l'IA de mieux comprendre les informations complexes du monde humain, et également de rendre l'IA plus cohérente avec les habitudes d'interaction humaine lorsqu'elle est appliquée. Elle a montré un grand potentiel dans de nombreux domaines tels que le service client intelligent et autonome. la conduite et le potentiel d'application du diagnostic médical.
  3. Ant Group dispose d'une multitude de scénarios d'application. Les capacités multimodales du grand modèle de Bailing ont également été appliquées aux services de vie, aux recommandations de recherche, au divertissement interactif et à d'autres scénarios.
  4. En termes de services de vie, Ant Group utilise des modèles multimodaux pour mettre en œuvre la technologie ACT, permettant à l'agent de disposer de certaines capacités de planification et d'exécution, par exemple, commander directement une tasse de café dans l'applet Starbucks en fonction des spécifications vocales de l'utilisateur. , cette fonction est actuellement disponible sur Alipay L'assistant intelligent est en ligne.
  5. Dans le domaine médical, les capacités multimodales permettent aux utilisateurs d'effectuer des tâches complexes. Il peut identifier et interpréter plus de 100 rapports de tests médicaux complexes, et peut également détecter la santé et la chute des cheveux pour fournir une assistance au traitement.

    Dernière avancée du grand modèle Ant Bailing : il dispose déjà de capacités multimodales natives

    (Public expérimenté avec l'assistant intelligent Alipay pour commander du café dans le hall d'exposition Ant)

Sur le site de lancement, Xu Peng, vice-président du groupe Ant, a présenté davantage de scénarios d'application que la technologie multimodale récemment améliorée peut réaliser :

  1. Réussi Sous forme naturelle de conversation vidéo, l'assistant IA peut identifier les vêtements de l'utilisateur et donner des suggestions de dates correspondantes
  2. Réaliser différentes combinaisons de recettes à partir d'un tas d'ingrédients en fonction des différentes intentions de l'utilisateur ; En fonction des symptômes physiques décrits par l'utilisateur, sélectionnez les médicaments potentiellement appropriés dans un lot de médicaments et lisez les instructions de prise pour référence aux utilisateurs.
  3. Sur la base des capacités multimodales du grand modèle de Bailing, Ant Group a exploré la pratique de l'atterrissage d'applications à grande échelle dans l'industrie.

Le « Modèle médical multimodal Alipay » publié simultanément sur le forum est la pratique de cette exploration. Il est entendu que le modèle médical multimodal d'Alipay a ajouté des dizaines de milliards de graphiques et de textes en chinois et en anglais, des centaines de milliards de corpus de textes médicaux et des dizaines de millions de cartes de connaissances médicales de haute qualité comprenant des rapports, des images, des médicaments et autres. informations multimodales. , possède des connaissances médicales professionnelles et s'est classé premier sur la liste A et deuxième sur la liste B sur promptCBLUE, la liste d'évaluation médicale chinoise LLM.

Basé sur les capacités multimodales du grand modèle Bailing, SkySense, un modèle de télédétection développé conjointement par Ant Group et l'Université de Wuhan, a également annoncé un plan open source sur le forum. SkySense est actuellement le modèle de base de télédétection multimodale avec la plus grande échelle de paramètres, la couverture de tâches la plus complète et la plus grande précision de reconnaissance.

« De la compréhension sémantique d'un texte unique aux capacités multimodales, il s'agit d'une itération clé de la technologie de l'intelligence artificielle, et les scénarios d'application de « regarder, écouter, écrire et dessiner » engendrés par la technologie multimodale rendront les performances de l'IA plus performantes. réaliste, pour être plus proche des humains, Ant continuera à investir dans la recherche et le développement de technologies multimodales natives », a déclaré Xu Peng.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn