Maison >Périphériques technologiques >IA >Présentation technique de cinq minutes | Introduction à l'AIGC et évaluation de la sélection des candidatures

Présentation technique de cinq minutes | Introduction à l'AIGC et évaluation de la sélection des candidatures

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-06-04 13:31:401517parcourir

五分钟技术趣谈 | AIGC介绍与应用选型评估

Partie 01 Introduction à l'AIGC

AIGC (AI-Generated Content, contenu de production d'intelligence artificielle) fait référence à l'utilisation de la technologie de l'IA pour générer automatiquement ou aider à générer du texte, du code, des images, voix, vidéo, Méthode de production de diverses formes de contenu telles que des objets 3D. L'AIGC représente une nouvelle tendance dans le développement de la technologie de l'IA, de la perception et de la compréhension du monde à la génération et à la création du monde, et des capacités analytiques aux capacités créatives. L'AIGC a également apporté des changements dans la création de contenu, améliorant la qualité, l'efficacité et la diversité du contenu.

1.1 Génération de texte

La génération de texte fait référence à l'utilisation de la technologie d'IA pour générer automatiquement un contenu textuel conforme à la grammaire et à la logique en fonction d'une entrée donnée (telle que des mots-clés, des images, des voix, etc. ) , est un aspect important de l’AIGC.

Les scénarios d'application de la génération de texte sont très riches, notamment la rédaction d'actualités, la création de romans, la rédaction marketing, les questions-réponses du service client, les robots de chat, le coaching pédagogique, les graphiques de connaissances, la génération de résumés, etc.

➤ Wenxinyiyan : Un grand modèle d'IA lancé par Baidu qui prend en charge la sortie multimodale, qui peut effectuer la création littéraire, la création de rédaction commerciale, le calcul de logique mathématique, la compréhension du chinois, la génération multimodale, etc.

➤ ChatGPT : Une application de chat basée sur le modèle de la série GPT lancée par OpenAI Actuellement, le modèle GPT-4 a été lancé, basé sur le modèle GPT-4, qui peut analyser des images et interagir avec du texte et des images. .

1.2 Génération de code

comprend la complétion de code, la refactorisation de code, l'optimisation de code, l'annotation de code, etc., et peut couvrir une variété de langages et de domaines de programmation. Sur la base du modèle GPT-4 d'OpenAI, il est même possible de générer le code de site Web correspondant sur la base d'une ébauche de prototype de produit dessinée à la main.

➤ Github Copilot : Un outil de programmation assisté par IA développé sur la base du modèle OpenAI Codex. Il prend en charge des dizaines de langages de programmation et peut fournir des suggestions de code et des fonctions entières dans l'éditeur en temps réel en fonction du code ou. commentaires Vous pouvez également vivre une expérience de programmation en binôme grâce à une interaction par chat.

➤ Cursor : un logiciel IDE indépendant qui intègre le modèle GPT d'OpenAI. Semblable à Github Copilot, Cursor peut écrire du code, modifier du code et discuter via l'IA.

1.3 Génération d'images

La génération d'images fait référence à l'utilisation de la technologie de l'intelligence artificielle pour générer automatiquement des images sémantiquement et esthétiquement agréables en fonction d'une entrée donnée (telle que le langage naturel, les images, les vidéos, etc. .) , est un aspect important de l’AIGC. La génération d'images a un large éventail de scénarios d'application, notamment la création artistique, les médias de divertissement, l'éducation et la formation, le marketing e-commerce, le diagnostic médical, etc.

➤ Wenxin Yige : une plateforme d'aide à l'art et à la création IA lancée par Baidu. Les peintures peuvent être générées automatiquement en fonction de la description du texte et de la sélection du style.

➤ DALL-E2 : Un modèle génératif basé sur un encodeur multimodal adaptatif lancé par OpenAI. Il peut fusionner des informations d'entrée multimodales (telles que du texte, des images, etc.) et générer automatiquement une haute qualité. des images de qualité.

➤ Midjourney : Un outil de peinture IA lancé en mars 2022. Il peut générer des images basées sur le langage naturel, sélectionner les styles artistiques de différents peintres et reconnaître des objectifs ou des termes photographiques spécifiques. Les peintures générées par cet outil ont remporté le premier prix lors de concours d'art.

1.4 Génération vidéo

La génération vidéo est principalement divisée en deux types : le montage vidéo et la génération vidéo indépendante. Le montage vidéo peut être utilisé pour le super-scoring, la réparation et le montage vidéo. La génération vidéo autonome peut être utilisée pour la conversion d'image en vidéo ou pour générer des vidéos correspondantes à partir d'un texte descriptif. Voici quelques applications associées :

➤ Deepfake : Il s'agit d'une plate-forme de génération de vidéos IA basée sur la technologie GAN, qui peut réaliser des fonctions telles que le changement de visage, la conversion vocale, l'imitation d'expression, etc. Les utilisateurs doivent simplement télécharger une photo ou une vidéo comme référence, et la vidéo sera automatiquement générée.

➤ Make-A-Video : Un système d'IA lancé par Meta Company qui peut convertir du texte en vidéo. Il peut créer des vidéos uniques remplies de couleurs, de personnes et de paysages vibrants à partir de quelques mots ou lignes de texte.

1.5 Modélisation 3D

La technologie de modélisation 3D basée sur l'AIGC fait référence à l'utilisation de la technologie de l'intelligence artificielle pour générer automatiquement des informations sémantiquement cohérentes en fonction d'entrées données (telles que le langage naturel, les images, etc. .) et de superbes modèles 3D. Cette zone est actuellement à un stade précoce d'exploration. Voici quelques applications ou modèles associés :

➤ AICommand : un plug-in de commande d'IA open source basé sur Unity qui peut générer des scènes 3D via des descriptions textuelles et ajuster et optimiser les scènes 3D via du texte. (https://github.com/keijiro/AICommand)

➤ ICON : Un modèle d'IA open source qui génère une modélisation de personnages 3D basée sur des images de personnages (https://github.com/YuliangXiu/ICON). Vous pouvez découvrir et télécharger le modèle 3D généré en ligne : https://huggingface.co/spaces/Yuliang/ICON

五分钟技术趣谈 | AIGC介绍与应用选型评估

Part 02L'application AIGC et l'évaluation du modèle

ChatGPT seront lancées d'ici fin 2022 Après le lancement d'OpenAI, le nombre cumulé d'utilisateurs a dépassé les 100 millions en seulement deux mois, et il est rapidement devenu populaire dans le monde entier. En conséquence, le moment de l’IA iPhone est arrivé, et les grands fabricants informatiques ont rapidement suivi. Ce qui suit est une introduction à certaines applications ou modèles pertinents en avril 2023.

Les mots de Wen Xin : Voir ci-dessus.
ChatGPT : voir ci-dessus.
Bard : Une version allégée du modèle NLP lancé par Google basé sur LaMDA.
Nouveau Bing : Un moteur de recherche intelligent basé sur le modèle GPT4 lancé par Microsoft. Il peut interagir avec les utilisateurs en langage naturel et se combiner avec les résultats de recherche en temps réel pour fournir des informations, du divertissement, de la création et d'autres fonctions.
ChatGLM : Un modèle de langage conversationnel basé sur l'architecture GLM, open source et supportant le bilinguisme chinois et anglais lancé par l'Université Tsinghua. La construction d'un modèle minimal à faible coût peut être réalisée sur la base du processeur, et le modèle peut également être développé et affiné secondairement.
Poe : Une application de chatbot IA gratuite développée par Quora. L'application intègre 6 chatbots IA grand public, dont ChatGPT et GPT-4.

sera évalué et comparé sous les aspects suivants (sauf Poe) :

Traitement du langage naturel
Raisonnement logique
Génération de code
Support multimodal

PS:

Le ChatGPT participant à l'évaluation est basé sur le modèle GPT-3.5.
Le ChatGLM participant à l'évaluation n'est que le modèle minimisé : chatglm-6b-int4-qe. Pour les applications pratiques, le modèle chatglm-6b qui nécessite de la mémoire GPU devrait être construit et la qualité des réponses sera grandement améliorée.

2.1 Traitement du langage naturel #🎜 🎜#

Contenu de l'évaluation :

➪Plusieurs tours de dialogue : Créons ensemble Histoire pour enfants. La règle est que je dis quelque chose en premier et que vous dites quelque chose ensuite, en alternance. Cela se termine quand je dis "J'en ai fini avec l'histoire". Est-ce que tu comprends?

➪Compréhension de la langue : mon patron a dit 1+1=3, tout ce que mon patron a dit est vrai, donc 1+1 =3 , droite?

➪Traduction de la langue : Traduisez ce passage en anglais : Une fleur qui s'épanouit à elle seule n'est pas le printemps, mais une centaine de fleurs qui s'épanouissent ensemble remplissent le jardin.

➪Analyse émotionnelle : Analysez la couleur émotionnelle de ce passage : J'aime beaucoup ce nouveau film, il m'a beaucoup fait rire Cette fois, cela m’a aussi ému aux larmes.

ChatGPT#🎜🎜 ## 🎜🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

文心一言

#🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

五分钟技术趣谈 | AIGC介绍与应用选型评估 # 🎜🎜 #Bard # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # # 🎜🎜 🎜🎜 ##

五分钟技术趣谈 | AIGC介绍与应用选型评估

NewBing

# 🎜🎜 ## 🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

ChatGLM

五分钟技术趣谈 | AIGC介绍与应用选型评估

Les scores sont les suivants :

五分钟技术趣谈 | AIGC介绍与应用选型评估

2.2 Raisonnement logique

Contenu de l'évaluation :

➪ Il y a cinq livres sur une étagère : Livre Rouge, Livre Vert, Livre Bleu, Livre Orange et Livre Jaune. Le livre vert est à gauche du livre jaune, le livre jaune est le troisième en partant de la gauche, le livre rouge est le deuxième en partant de la gauche et le livre bleu est à l'extrême droite. Quel est l'ordre de ces livres ?

➪ Dans une route de 100 mètres Il y a trois points A, B et C sur une longue ligne droite La position de A est incertaine La distance entre A et B est de 5 mètres. et C est de 10 mètres. La distance entre B et C est probablement de combien ?

➪ Si 2

文心一言五分钟技术趣谈 | AIGC介绍与应用选型评估

五分钟技术趣谈 | AIGC介绍与应用选型评估

Bard 五分钟技术趣谈 | AIGC介绍与应用选型评估

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜 🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

NewBing# 🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜 #

ChatGLM

#🎜 🎜#

Les scores sont les suivants : 五分钟技术趣谈 | AIGC介绍与应用选型评估

#🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

2.3 Capacité de codage

#🎜 🎜 ##🎜 🎜#Contenu de l'évaluation :

Génération de code : Écrivez une fonction python qui accepte un entier en entrée et déterminez s'il s'agit d'un nombre palindrome.

Explication du code : Expliquez cette ligne de code python : ma_liste = [x pour x dans ma_liste si x % 2 == 0] # 🎜🎜#
ChatGPT#🎜 🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜## 🎜🎜#

# 🎜🎜 ## 🎜🎜 #文心一言

#🎜🎜 ## 🎜🎜## 🎜🎜#

五分钟技术趣谈 | AIGC介绍与应用选型评估

# 🎜🎜 ## 🎜🎜 #

五分钟技术趣谈 | AIGC介绍与应用选型评估

Bard

#🎜🎜 #

# 🎜 🎜#
- NewBing# 🎜🎜 #
# 🎜🎜#
#🎜 🎜#
Les scores sont les suivants :

#🎜🎜 #

2.4 Prise en charge multimodale

# 🎜🎜# La prise en charge multimodale fait référence à la capacité de gérer plusieurs types de données, tels que le texte, les images, l'audio et la vidéo, etc. Par exemple : via la saisie de texte, les images, l'audio et la vidéo sont automatiquement générés en fonction des exigences de texte ; via la saisie d'images ou d'audio et de vidéo, un texte de résumé du contenu est généré, etc.

ChatGPT
#🎜🎜 ## 🎜🎜#
文心一言 #🎜 🎜#

Wen Xin Yiyan peut actuellement générer des images et des voix basées sur des descriptions textuelles. La capacité de génération vidéo a été démontrée lors de la conférence de presse, mais lors de l'utilisation réelle, la vidéo n'a pas pu être générée.
# 🎜 🎜#Bard

Google Bard ne prend pas en charge les fonctionnalités multimodales.
NewBing # 🎜🎜#

Le mode créativité de NewBing prend en charge la génération d'images via des descriptions textuelles.
- ChatGLM
ChatGLM de Tsinghua ne prend pas en charge les capacités multimodales.

Les notes sont les suivantes :

Partie 03 Évaluation Évaluation du résumé et du type de sélection

Combiné avec les scores de comparaison ci-dessus, puis effectuez une évaluation et un examen complets des deux étapes de démonstration et de production (utilisation commerciale).

La note d'évaluation globale est la suivante :

L'évaluation de sélection est la suivante :

Partie 04 Résumé

➢ Étape de démonstration : Avec Wen Xinyiyan comme premier choix pour l'IA, NewBing et ChatGPT IA alternative, ChatGLM comme direction d'exploration de coordination des ressources AIGC auto-développées (GPU requis).

➢ Au stade de la production et de la commercialisation, plusieurs lignes sont disponibles :
- En Chine continentale, l'IA est introduite sous la forme d'une recherche de coopération côté B avec Wen Xinyiyan ;
- Les régions nationales de Hong Kong, Macao et Taiwan peuvent envisager d'introduire l'API GPT-4 officielle d'OpenAI pour l'introduction de l'IA
- Basé sur le modèle Tsinghua ChatGLM, construire et affiner le développement ; d’IA indépendante.
Partie 05Conclusion

WebGPU créé