Maison  >  Article  >  Périphériques technologiques  >  Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

PHPz
PHPzavant
2023-03-31 22:42:101003parcourir

Des médecins chinois et des scientifiques de Google ont récemment proposé le modèle de langage visuel pré-entraîné Vid2Seq, capable de distinguer et de décrire plusieurs événements dans une vidéo. Cet article a été accepté par CVPR 2023.

Récemment, des chercheurs de Google ont proposé un modèle de langage visuel pré-entraîné pour décrire des vidéos multi-événements - Vid2Seq, qui a été accepté par CVPR23.

Auparavant, comprendre le contenu vidéo était une tâche difficile, car les vidéos contenaient souvent plusieurs événements se produisant à différentes échelles de temps.

Par exemple, une vidéo d'un musher attachant un chien à un traîneau puis le chien commençant à courir implique une épreuve longue (le traîneau à chiens) et une épreuve courte (le chien est attaché au traîneau).

Une façon de faire progresser la recherche sur la compréhension des vidéos consiste à utiliser la tâche dense d'annotation vidéo, qui consiste à localiser et à décrire temporellement tous les événements dans une vidéo d'une minute.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Adresse papier : https://arxiv.org/abs/2302.14115

L'architecture Vid2Seq améliore le modèle de langage avec des horodatages spéciaux, lui permettant de prédire de manière transparente les limites des événements et les descriptions de texte dans la même séquence de sortie.

Pour pré-entraîner ce modèle unifié, les chercheurs ont exploité des vidéos de narration non étiquetées en reformulant les limites des phrases du discours transcrit en limites de pseudo-événements et en utilisant les phrases de discours transcrites comme annotations de pseudo-événements.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Vue d'ensemble du modèle Vid2Seq

Le modèle Vid2Seq résultant est pré-entraîné sur des millions de vidéos commentées, améliorant ainsi l'état de l'art sur divers benchmarks d'annotation vidéo denses, notamment YouCook2, ViTT et ActivityNet Captions.

Vid2Seq est également bien adapté aux paramètres d'annotation vidéo dense de quelques plans, aux tâches d'annotation de segments vidéo et aux tâches d'annotation vidéo standard.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Modèle de langage visuel pour une annotation vidéo dense

L'architecture Multimodale Transformer a actualisé le SOTA de diverses tâches vidéo, telles que la reconnaissance d'actions. Cependant, adapter une telle architecture à la tâche complexe de localisation et d’annotation conjointes d’événements dans des vidéos d’une durée d’une minute n’est pas simple.

Pour atteindre cet objectif, les chercheurs améliorent le modèle de langage visuel avec des marqueurs temporels spéciaux (tels que des marqueurs de texte) qui représentent des horodatages discrets dans la vidéo, similaires à Pix2Seq dans le domaine spatial.

Pour une entrée visuelle donnée, le modèle Vid2Seq résultant peut à la fois accepter l'entrée et générer du texte et des séquences horodatées.

Tout d'abord, cela permet au modèle Vid2Seq de comprendre les informations temporelles de l'entrée vocale transcrite, qui est projetée sous la forme d'une seule séquence de jetons. Deuxièmement, cela permet à Vid2Seq de prédire conjointement des annotations d'événements denses dans le temps dans la vidéo tout en générant une seule séquence de marqueurs.

L'architecture Vid2Seq comprend un encodeur visuel et un encodeur de texte qui encodent respectivement les images vidéo et l'entrée vocale transcrite. Les encodages résultants sont ensuite transmis à un décodeur de texte, qui prédit automatiquement la séquence de sortie des annotations d'événements denses, ainsi que leur positionnement temporel dans la vidéo. L'architecture est initialisée avec une base visuelle solide et un modèle de langage fort.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Pré-formation à grande échelle sur les vidéos

La collecte manuelle d'annotations pour une annotation vidéo dense est particulièrement coûteuse en raison du caractère intensif de la tâche.

Par conséquent, les chercheurs ont pré-entraîné le modèle Vid2Seq à l'aide de vidéos de narration non étiquetées, facilement disponibles à grande échelle. Ils ont également utilisé l'ensemble de données YT-Temporal-1B, qui comprend 18 millions de vidéos commentées couvrant un large éventail de domaines.

Les chercheurs utilisent des phrases vocales transcrites et leurs horodatages correspondants comme supervision, qui sont projetés comme une séquence symbolique unique.

Vid2Seq est ensuite pré-entraîné avec un objectif génératif qui apprend au décodeur à prédire uniquement les séquences vocales transcrites en fonction d'une entrée visuelle, et un objectif de débruitage qui encourage l'apprentissage multimodal, obligeant le modèle à prédire la parole transcrite bruyante. Prédire les masques dans le contexte de séquence et d’entrée visuelle. En particulier, du bruit est ajouté à la séquence vocale en masquant de manière aléatoire les jetons d'étendue.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Résultats de référence sur les tâches en aval

Le modèle Vid2Seq pré-entraîné résultant peut être affiné sur les tâches en aval via un simple objectif de maximum de vraisemblance qui utilise le forçage de l'enseignant (c'est-à-dire, étant donné le jeton de vérité terrain précédent, prédire le jeton suivant).

Après un réglage fin, Vid2Seq surpasse SOTA sur trois benchmarks d'annotation vidéo dense en aval standard (ActivityNet Captions, YouCook2 et ViTT) et deux benchmarks d'annotation de clips vidéo (MSR-VTT, MSVD).

Dans l'article, il y a des études d'ablation supplémentaires, des résultats qualitatifs et des résultats dans les tâches de réglage de quelques plans et d'annotation de paragraphes vidéo.

Tests qualitatifs

Les résultats montrent que Vid2Seq peut prédire des limites et des annotations d'événements significatives, et que les annotations et les limites prédites sont significativement différentes de l'entrée vocale transcrite (cela montre également l'importance des marqueurs visuels dans l'entrée).

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

L'exemple suivant concerne une série d'instructions dans une recette de cuisine. Il s'agit d'un exemple de prédiction d'annotation d'événement dense par Vid2Seq sur l'ensemble de validation YouCook2 :

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

L'exemple suivant est l'annotation d'événement dense de Vid2Seq sur le Ensemble de validation ActivityNet Captions Exemples prédictifs, Dans toutes ces vidéos, il n'y a pas de discours transcrit.

Cependant, il y aura encore des cas d'échec, comme la photo marquée en rouge ci-dessous dit qu'il s'agit d'une personne qui enlève son chapeau devant la caméra.

Benchmarking SOTA

Le tableau 5 compare Vid2Seq aux méthodes d'annotation vidéo dense les plus avancées : Vid2Seq actualise SOTA sur trois ensembles de données : YouCook2, ViTT et ActivityNet Captions. Les indicateurs SODA de

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Vid2Seq sur YouCook2 et ActivityNet Captions sont respectivement 3,5 et 0,3 points supérieurs à ceux de PDVC et UEDVC. Et E2ESG utilise une pré-formation en texte brut dans le domaine sur Wikihow, et Vid2Seq est meilleure que cette méthode. Ces résultats montrent que le modèle Vid2Seq pré-entraîné possède une forte capacité à étiqueter des événements denses.

Le Tableau 6 évalue les performances de localisation d'événements du modèle d'annotation vidéo dense. Comparé à YouCook2 et ViTT, Vid2Seq est supérieur dans la gestion des annotations vidéo denses en tant que tâche de génération de séquence unique.

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Cependant, Vid2Seq ne fonctionne pas bien sur les sous-titres ActivityNet par rapport à PDVC et UEDVC. Par rapport à ces deux méthodes, Vid2Seq intègre moins de connaissances préalables sur la localisation temporelle, tandis que les deux autres méthodes incluent des composants spécifiques à une tâche tels que des compteurs d'événements ou entraînent un modèle séparément pour la sous-tâche de localisation.

Détails de mise en œuvre

  • Architecture

L'encodeur de transformateur temporel visuel, l'encodeur de texte et le décodeur de texte ont tous 12 couches, 12 têtes, intégrant la dimension 768, la dimension cachée MLP 2048.

Les séquences de l'encodeur et du décodeur de texte sont tronquées ou complétées à L=S=1000 jetons lors de la pré-formation, et S=1000 et L=256 jetons lors du réglage fin. Lors de l'inférence, le décodage par recherche de faisceau est utilisé, les 4 premières séquences sont suivies et une normalisation de longueur de 0,6 est appliquée.

  • Formation

L'auteur utilise l'optimiseur Adam, β=(0,9, 0,999), sans perte de poids.

Pendant la pré-formation, un taux d'apprentissage de 1e^-4 est utilisé, échauffé linéairement (à partir de 0) au cours des 1000 premières itérations et maintenu constant dans les itérations restantes.

Pendant le réglage fin, utilisez un taux d'apprentissage de 3e^-4, en échauffant linéairement (en partant de 0) dans les 10 premiers % des itérations et en maintenant la désintégration du cosinus (jusqu'à 0) dans les 90 % des itérations restantes. Dans le processus, un lot de 32 vidéos est utilisé et réparti sur 16 puces TPU v4.

L'auteur a effectué 40 ajustements d'époque sur YouCook2, 20 ajustements d'époque pour ActivityNet Captions et ViTT, 5 ajustements d'époque pour MSR-VTT et 10 ajustements d'époque pour MSVD.

Conclusion

Vid2Seq proposé par Google est un nouveau modèle de langage visuel pour l'annotation vidéo dense. Il peut effectuer efficacement un pré-entraînement à grande échelle sur des vidéos de narration non étiquetées et effectuer diverses annotations vidéo denses en aval. Résultats SOTA obtenus sur le benchmark.

Présentation de l'auteur

Premier auteur de l'article : Antoine Yang

Google lance Vid2Seq multimodal, comprenant le QI vidéo en ligne, les sous-titres ne seront pas hors ligne CVPR 2023 |

Antoine Yang est doctorant en troisième année dans l'équipe WILLOW de l'Inria et de l'École Normale Supérieure de Paris. Ses encadrants sont Antoine Miech, Josef Sivic, Ivan Laptev et Cordelia Schmid.

Les recherches actuelles se concentrent sur l'apprentissage de modèles de langage visuel pour la compréhension vidéo. Il a effectué un stage au Laboratoire Arche de Noé de Huawei en 2019, a obtenu un diplôme d'ingénieur de l'Ecole Polytechnique de Paris et un master en mathématiques, vision et apprentissage de l'Université Nationale Paris-Saclay en 2020, et a effectué un stage chez Google Research en 2022.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer