Maison >Périphériques technologiques >IA >Comment effectuer une recherche d'images de manière efficace et précise ? Jetez un œil au modèle pré-entraîné à la vision légère
Avez-vous déjà eu des problèmes avec la récupération d'images ?
Soit il est difficile de trouver avec précision l'image requise parmi la quantité massive d'images, soit des résultats insatisfaisants peuvent être obtenus lors de la récupération textuelle. Concernant ce problème, des chercheurs de Microsoft Research Asia et de la division Microsoft Cloud Computing et Intelligence artificielle ont mené des recherches approfondies sur les modèles visuels légers et ont proposé une série de méthodes de conception et de compression pour les modèles visuels de pré-entraînement afin de répondre aux exigences de déploiement visuel de Transformer Lightweight. .
Actuellement, cette méthode et ce modèle ont été appliqués avec succès au moteur de recherche Bing de Microsoft, permettant un raisonnement et une récupération précis et rapides de dizaines de milliards d'images. Cet article fournira une explication approfondie du développement, des technologies clés, des applications et du potentiel des modèles de pré-entraînement visuel légers, ainsi que des opportunités et des défis futurs. J'espère que tout le monde pourra mieux comprendre le domaine de la pré-entraînement visuel léger et. promouvoir conjointement le développement de technologies connexes.
Récemment, les modèles de pré-entraînement visuel basés sur Transformer ont atteint des performances supérieures sur de nombreuses tâches de vision par ordinateur et ont reçu une large attention. Cependant, les modèles visuels de pré-formation de Transformer ont généralement des paramètres volumineux et une grande complexité, ce qui limite leur déploiement et leur utilisation dans des applications pratiques, en particulier dans les appareils aux ressources limitées ou dans les scénarios avec des exigences élevées en temps réel. Par conséquent, la recherche « légère » sur de grands modèles visuels de pré-entraînement est devenue un nouveau point chaud dans le monde universitaire et industriel.
À cet égard, des chercheurs de Microsoft Research Asia et de la division Microsoft Cloud Computing et Intelligence artificielle ont mené une exploration approfondie de la conception structurelle et de l'inférence de formation de grands modèles visuels, tout en se concentrant également sur la légèreté et les performances en temps réel de grands modèles. Et le déploiement dans le cloud a également créé des applications innovantes. Cet article partira du développement de modèles visuels légers de pré-formation, explorera les technologies clés dans la recherche sur les modèles légers, ainsi que l'application et le potentiel des modèles de transformateur visuels légers dans les produits réels, et attendra enfin avec impatience les opportunités et perspectives de développement futures de défi de modèles visuels légers.
Ces dernières années, les progrès de l'apprentissage profond dans les tâches de classification d'images ImageNet ont principalement bénéficié de l'expansion substantielle de la capacité de modèles visuels. Comme le montre la figure 1, en quelques années seulement, la capacité des modèles visuels de pré-entraînement a été multipliée par plus de 300, du modèle ResNet-101 avec 44,5 millions de paramètres au modèle V-MoE avec 15 milliards de paramètres. modèles visuels de pré-formation à grande échelle Les modèles de formation ont fait de grands progrès dans des tâches telles que la compréhension des images et la génération de contenu visuel.
Figure 1 : Tableau de tendance des modifications des paramètres du modèle visuel de pré-entraînement
Qu'il s'agisse du modèle Swin-V2 à 3 milliards de paramètres de Microsoft ou du modèle ViT-G/14 à 1,8 milliard de paramètres publié par Google, Les grands modèles visuels ont démontré des performances supérieures dans de nombreuses tâches, en particulier leurs puissantes capacités de généralisation à petit tir (quelques tirs) et même à zéro tir (zéro tir), qui sont essentielles à l'obtention d'une intelligence générale.
Cependant, dans de nombreux scénarios réels, en raison des limitations des ressources de stockage et de calcul, les grands modèles sont difficiles à déployer directement ou ne peuvent pas répondre aux besoins en temps réel. Par conséquent, la recherche sur des modèles légers de pré-entraînement visuel est devenue de plus en plus importante et a une forte valeur d’application pratique. Bien qu'il existe actuellement des travaux explorant des modèles légers, la plupart de ces méthodes sont conçues pour des tâches et des structures spécifiques. La polyvalence du modèle n'est pas prise en compte lors du processus de conception et de formation, et il existe une généralisation à travers les domaines de données et les tâches.
Afin de réaliser des modèles visuels légers de pré-entraînement, les chercheurs de Microsoft ont découvert deux problèmes clés : 1) Comment concevoir une structure de modèle léger plus polyvalente ? 2) En raison de la capacité limitée des modèles visuels légers de pré-entraînement, comment concevoir des méthodes de pré-entraînement efficaces afin que les petits modèles puissent apprendre des informations efficaces à partir de données à grande échelle ? Face à ces problèmes, les chercheurs ont obtenu quelques premiers résultats grâce à des recherches et des explorations incessantes.
Étant donné que l'essentiel de l'amélioration de la polyvalence des modèles légers de pré-entraînement réside dans la manière de renforcer les capacités d'apprentissage du modèle avec des ressources limitées (nombre de paramètres, délai, etc.), afin qu'il puisse mieux apprendre de grandes -des données à grande échelle Caractéristiques universelles, les chercheurs ont donc mené une exploration approfondie sous les trois perspectives suivantes :
Les modules légers et à faible latence constituent une partie importante des modèles légers. Dans les réseaux neuronaux convolutifs, les modules légers représentatifs incluent le bloc résiduel inversé de MobileNet et l'unité de croisement aléatoire de canal de ShuffleNet (Shuffle Unit). Dans la structure du transformateur visuel, étant donné que le calcul de l'attention entre les blocs d'image ne prend pas bien en compte les informations de codage de position relative, les chercheurs ont conçu une méthode de codage de position relative d'image bidimensionnelle légère et plug-and-play iRPE [1]. les performances du modèle sans modifier les hyperparamètres d’entraînement. De plus, pour résoudre le problème de la redondance des paramètres visuels du transformateur, les chercheurs ont conçu le module Weight Multiplexing [2]. Comme le montre la figure 2, cette méthode réduit la redondance des paramètres du modèle grâce à la réutilisation des poids multicouches et introduit des transformations linéaires non partagées pour augmenter la diversité des paramètres.
Figure 2 : Module de multiplexage de poids dans Transformer
La recherche d'architecture neuronale peut être automatiquement trouvée à partir de l'espace de conception de modèle. Une structure de modèle plus légère et plus performante. performances [3]. Dans les réseaux de neurones convolutifs, les travaux représentatifs incluent NASNet et EfficientNet. Dans la recherche de structure visuelle du transformateur, les chercheurs ont proposé AutoFormer [4] et S3 [5] pour plusieurs dimensions telles que la largeur du canal, la profondeur du réseau et le nombre de têtes dans le modèle visuel, réalisant ainsi une formation évolutive dynamique et l'évolutivité du modèle visuel. Recherche de structures. Avec la même précision de modèle, le nouveau modèle obtenu grâce à la recherche comporte un plus petit nombre de paramètres et de calculs. Il convient de noter que dans S3, les chercheurs ont utilisé E-T Error [5] et le supernet de partage de poids pour guider et améliorer l'espace de recherche. Tout en obtenant une structure de modèle plus efficace, ils ont également analysé le processus d'évolution de l'espace de recherche, comme le montre la figure. 3 illustré. Dans le même temps, le processus de recherche de structure de modèle fournit une expérience de conception efficace et une référence pour la conception de modèles légers.
Figure 3 : Processus d'évolution de l'espace de recherche de modèles légers
Une autre difficulté avec les modèles légers de pré-formation est qu'en raison de la capacité limitée du modèle. il est difficile d’apprendre directement les riches informations et connaissances contenues dans des données à grande échelle. Afin de résoudre ce problème, les chercheurs ont proposé un schéma de distillation rapide de pré-entraînement pour transférer les connaissances des grands modèles vers de petits modèles légers [6]. Comme le montre la figure 4, contrairement à la distillation traditionnelle des connaissances en une seule étape, la distillation rapide de pré-formation est divisée en deux étapes : 1) compresser et enregistrer les informations d'augmentation des données et les informations de prédiction utilisées dans le processus de formation du grand modèle ; Une fois les informations de prédiction et les données du grand modèle augmentées, le grand modèle est utilisé comme enseignant pour guider l'apprentissage et la formation des modèles d'étudiants légers grâce à une distillation préalable à la formation. Différente de l'élagage et de la quantification, cette méthode utilise la réutilisation du poids mentionnée ci-dessus [2] basée sur le partage du poids. En introduisant la transformation et la distillation du poids léger, elle compresse avec succès le grand modèle visuel de pré-entraînement et obtient un modèle léger universel plus robuste. Cette méthode peut compresser le grand modèle original des dizaines de fois sans sacrifier les performances.
Figure 4 : Distillation rapide des connaissances avant la formation
Cette série de résultats de recherche a non seulement publié de nombreux articles lors de conférences universitaires de premier plan sur la vision par ordinateur (CVPR, ICCV, ECCV, NeurIPS, etc.) [1-6], également grâce à la coopération avec Microsoft Bing, a appliqué avec succès des modèles de pré-formation légers aux produits de recherche d'images, améliorant ainsi la capacité à comprendre le contenu d'images et de vidéos dans le cadre d'une entreprise réelle.
Les modèles de pré-formation visuels légers ont de nombreuses utilisations pratiques, en particulier dans les scénarios avec des exigences en temps réel élevées ou des contraintes de ressources, telles que : le rendu et l'amélioration en temps réel des vidéos dans le cloud, les tests d'images de bout en bout et la compréhension du contenu vidéo. . Les modèles visuels légers ont montré de larges perspectives d'application dans des domaines tels que la vente au détail intelligente et la fabrication de pointe, et joueront à l'avenir un rôle important dans les industries émergentes telles que le métaverse et la conduite autonome. En prenant comme exemple la recherche de contenu d'image dans le produit Bing de Microsoft, ce qui suit vous montrera l'application pratique et le déploiement de modèles visuels légers.
À l'heure actuelle, la recherche d'images basée sur le contenu est relativement mature dans la compréhension des attributs de catégorie des images, mais il reste encore de grands défis à relever dans la compréhension du contenu de scènes complexes. Les images de scènes complexes présentent généralement des caractéristiques telles qu'une grande profondeur de champ, des arrière-plans encombrés, de nombreux personnages et des relations d'objet complexes, qui augmentent considérablement la difficulté de compréhension du contenu, imposant ainsi des exigences plus élevées en matière de robustesse et de généralisation des modèles de pré-formation.
Par exemple, la qualité de la recherche des images d'anime ne peut pas être améliorée efficacement pendant longtemps. Les principaux défis sont les suivants : les lignes et les couleurs de la peinture sont plus exagérées que les images de scènes réelles, contiennent plus d'actions et de scènes, différentes bandes dessinées sont présentes. énorme différence de style et de contenu. Les figures 5 à 7 montrent respectivement trois personnages de dessins animés et comportements différents de « Slam Dunk », « Pikachu » et « Captain ». Leurs styles et contenus de bandes dessinées sont très différents. Comment comprendre efficacement le contenu des images de bandes dessinées impose des exigences plus élevées aux modèles visuels de pré-formation.
Figure 5 : Dans le moteur de recherche Microsoft Bing, la compréhension des actions du maître du slam dunk comprend : dunk, dribble, vol, tir, etc.
Figure 6 : Dans Microsoft Bing Dans le moteur de recherche, la compréhension du comportement de Pikachu est telle que manger des pommes, manger de la pastèque, manger de la glace, etc.
Figure 7 : Dans le moteur de recherche Microsoft Bing, un gros plan de l'action de tir du joueur de football
ci-dessus Le modèle général visuel léger et l'algorithme de distillation rapide de pré-entraînement mentionnés ont été utilisés avec succès dans le moteur de recherche Bing de Microsoft. Grâce au modèle de pré-formation multimodal en langage visuel fourni par Microsoft Research Asia, la fonction de recherche d'images Bing de Microsoft améliore la compréhension du contenu de bandes dessinées et peut renvoyer un contenu d'image qui correspond mieux aux besoins des utilisateurs.
Dans le même temps, l'énorme bibliothèque d'index du moteur de recherche Microsoft Bing a des exigences très élevées en matière d'efficacité de récupération. La méthode de distillation rapide de pré-entraînement fournie par Microsoft Research Asia migre efficacement les capacités d'indexation du grand modèle pré-entraîné vers un modèle léger, améliorant ainsi la précision de reconnaissance du modèle existant de 14 % et optimisant considérablement l'efficacité du calcul du modèle. , réalisant un raisonnement rapide sur des dizaines de milliards d'images.
L'allègement des modèles est au cœur des futures applications de l'intelligence artificielle. À mesure que la technologie de vision, les algorithmes, la puissance de calcul et les données continuent de s'améliorer, la complexité des modèles a considérablement augmenté et la consommation d'énergie des calculs des réseaux neuronaux est devenue de plus en plus coûteuse. L'efficacité informatique élevée et les faibles coûts de déploiement et d'application du modèle visuel léger peuvent constituer un énorme avantage pour des produits plus actuels à l'avenir. De plus, des modèles visuels légers et pré-entraînés localisés peuvent mieux protéger les données et la confidentialité des utilisateurs tout en prenant en charge davantage de services. Les données de l'utilisateur n'auront plus besoin de quitter l'appareil, ce qui permettra des mises à niveau à distance de fonctions telles que les services de modèles.
Bien sûr, les chercheurs sont également conscients des défis auxquels sont confrontés les modèles visuels légers pré-entraînés : d'une part, en termes de conception de la structure du modèle, comment atteindre la capacité d'apprentissage optimale du modèle sous les contraintes du nombre de modèles. Les paramètres et le délai d'inférence ont toujours été des questions auxquelles le monde universitaire et l'industrie prêtent une attention particulière. Bien que de nombreuses structures de modèles efficaces aient été accumulées et que de grands progrès aient été réalisés dans des domaines tels que le théorème d'approximation universelle (UAT) et la recherche de structures de réseaux neuronaux (NAS), les modèles visuels légers pré-entraînés existants et les visuels à grande échelle existent encore. entre des modèles qui doivent être encore optimisés et améliorés. D'autre part, en termes de méthodes de formation, le monde universitaire et l'industrie ont proposé diverses méthodes de formation telles que l'auto-supervision, la classification d'images et la multimodalité pour les grands modèles visuels, qui ont considérablement amélioré les capacités générales du modèle. Comment concevoir une méthode de formation plus efficace pour les modèles légers avec une capacité limitée nécessite des recherches et une exploration plus approfondies. Les chercheurs de Microsoft Research Asia continueront de promouvoir les progrès de la recherche scientifique sur les modèles visuels légers pré-entraînés et accueilleront davantage de collègues technologiques pour communiquer et explorer les technologies connexes dans ce domaine.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!