Maison > Article > Périphériques technologiques > Description vidéo des points de connaissance des algorithmes que les programmeurs doivent maîtriser
Avec la popularité de ChatGPT, les gens sont devenus extrêmement intéressés par le développement du domaine de l'intelligence artificielle. De nombreux experts estiment qu’une ère de l’intelligence artificielle s’annonce avec le développement rapide de la technologie logicielle et matérielle. Puis, en tant que pionnier dans le domaine des technologies de l’information, l’apprentissage des technologies de l’intelligence artificielle est devenu un sujet incontournable pour les programmeurs.
De manière générale, l'intelligence artificielle peut être divisée en trois directions de recherche : l'intelligence computationnelle, l'intelligence perceptuelle et l'intelligence cognitive.
L'intelligence informatique désigne les opérations de routine des ordinateurs que les gens connaissent, telles que les opérations numériques, la décomposition matricielle, les calculs, etc.
L'intelligence perceptuelle fait référence à la cartographie des signaux du monde physique vers le monde numérique via des caméras, des microphones ou d'autres dispositifs matériels de capteurs, en utilisant des technologies de pointe telles que la reconnaissance vocale et la reconnaissance d'images, puis en améliorant encore cela informations numériques. au niveau cognitif, comme la mémoire, la compréhension, la planification, la prise de décision, etc.
L'intelligence cognitive s'apparente davantage à la compréhension de la pensée humaine, au partage de connaissances, à l'action collaborative ou au jeu, etc., c'est-à-dire à la réflexion et à la prise de décision basées sur les informations acquises. Cette étape nécessite l’utilisation de l’intelligence informatique, de l’intelligence perceptuelle, du nettoyage des données, de la reconnaissance d’images et d’autres capacités. En outre, vous devez également comprendre les besoins de l'entreprise et être capable de coordonner et de gérer des données et des connaissances dispersées, afin de pouvoir élaborer des stratégies et prendre des décisions basées sur des scénarios commerciaux.
Actuellement, une grande partie des travaux en matière d'intelligence artificielle se concentre au stade de l'intelligence perceptuelle, tandis que pour l'intelligence cognitive, les progrès sont relativement lents.
Dans le domaine de l’intelligence cognitive, la technologie la plus proche de la vie des gens est la technologie de description vidéo. Grâce à la classification vidéo, à la détection d'objets et à d'autres technologies d'intelligence perceptuelle, nous pouvons identifier les objets qui apparaissent dans la vidéo. Mais cela ne permet pas aux gens de comprendre ce que décrit la vidéo. Elle ne peut décrire que mécaniquement un homme au visage rouge, un couteau et un cheval rouge.
La description de la vidéo doit identifier les objets dans la vidéo et comprendre la relation entre les objets. En même temps, elle comprend également les différences dans les scènes, les mouvements et les comportements des objets, et combine les connaissances stockées correspondantes. pour faire une description cohérente de la mise en œuvre. Tout cela pose de grands défis techniques. Il s’agit d’une technologie complète qui intègre la vision par ordinateur et le traitement du langage naturel, un peu comme la traduction d’une vidéo en phrase. Il est non seulement nécessaire de comprendre correctement le contenu vidéo, mais également d'utiliser un langage naturel pour exprimer la relation entre les objets de la vidéo.
Les algorithmes actuels de description de contenu vidéo sont principalement divisés en méthodes basées sur des modèles de langage, en méthodes basées sur la récupération et en méthodes d'encodeur-décodeur de base. Présentons-les séparément ci-dessous.
La méthode basée sur un modèle de langage détecte d'abord les cibles, les attributs, les actions et les relations entre les cibles dans la vidéo via la classification vidéo ou la détection de cible méthodes, relations, etc., puis remplissez les objets détectés dans le modèle de langage prédéterminé selon certaines règles pour former une phrase de description complète.
La méthode basée sur des modèles de langage est simple et intuitive, mais en raison des limitations des modèles fixes, les phrases générées ont une structure grammaticale unique et manquent de flexibilité dans les formes d'expression. Dans le même temps, cette méthode doit effectuer un travail d'annotation détaillé dès le début et formuler des étiquettes de catégorie unifiées pour chaque objet, action, attribut, etc. contenu dans la vidéo. De plus, cette méthode donnera des résultats très différents pour les vidéos en dehors de la plage des modèles.
La méthode basée sur la récupération doit d'abord être établi Une base de données, chaque vidéo de la base de données a une balise de description de phrase correspondante. Saisissez la vidéo à décrire, puis recherchez les vidéos les plus similaires dans la base de données. Après avoir résumé et réinitialisé, les phrases de description correspondant aux vidéos similaires sont migrées vers la vidéo à décrire.
De manière générale, les phrases de description générées par la méthode de récupération sont plus proches de la forme d'expression du langage naturel humain et la structure des phrases est plus flexible. Cependant, cette méthode dépend fortement de la taille de la base de données. Lorsqu'il y a un manque de vidéos similaires à la vidéo à décrire dans la base de données, la phrase de description générée comportera une erreur importante avec le contenu vidéo. Les deux méthodes ci-dessus s'appuient fortement sur un traitement visuel complexe au début, et il existe un problème d'optimisation insuffisante du modèle de langage pour les phrases générées ultérieurement. Pour les problèmes de description vidéo, les deux types de méthodes sont difficiles à générer des phrases de haute qualité avec des descriptions précises et des expressions diverses.
La méthode basée sur le codec est actuellement la méthode dominante dans le domaine de la description vidéo. Cela bénéficie principalement des progrès révolutionnaires réalisés dans le domaine de la traduction automatique grâce à des modèles d’encodage et de décodage basés sur des réseaux de neurones profonds.
L'idée de base de la traduction automatique est la suivante : représentez la phrase source d'entrée et la phrase cible dans le même espace vectoriel, utilisez d'abord l'encodeur pour encoder la phrase source dans un vecteur intermédiaire, puis utilisez le décodeur pour décoder le vecteur intermédiaire dans la phrase cible.
Le problème de description vidéo peut essentiellement être considéré comme un problème de « traduction », c'est-à-dire traduire la vidéo en langage naturel. Cette méthode ne nécessite pas de traitement complexe des vidéos au début. Elle peut apprendre directement la relation de mappage entre les vidéos et les langages de description à partir d'une grande quantité de données de formation, réaliser une formation de bout en bout et produire des vidéos avec plus de précision. contenu, grammaire flexible et formes diverses décrire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!