Maison  >  Article  >  Périphériques technologiques  >  Équipe Li Xi de l'Université du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

Équipe Li Xi de l'Université du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

WBOY
WBOYoriginal
2024-08-20 16:35:49245parcourir
Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous avez un excellent travail que vous souhaitez partager, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les auteurs de cet article sont tous issus de l'équipe du professeur Li Xi de l'Université du Zhejiang. Le premier auteur de l'article est le doctorant Su. Wei, et l’auteur correspondant est le professeur Li Xi (IET Fellow, National Distinguished Young Scholar). Ces dernières années, l'équipe du professeur Li Xi a publié plus de 180 travaux de recherche liés au CV/AIGC dans des revues internationales faisant autorité (telles que TPAMI, IJCV, etc.) et dans des conférences universitaires internationales de premier plan (ICCV, CVPR, ECCV, etc.), et a coopéré avec des universités et des instituts de recherche scientifiques bien connus au pays et à l'étranger.

En tant que tâche de base du langage visuel, la compréhension de l'expression référente (REC) localise la cible référencée dans l'image sur la base d'une description en langage naturel. Le modèle REC se compose généralement de trois parties : l'encodeur visuel, l'encodeur de texte et l'interaction intermodale, qui sont utilisées respectivement pour extraire les caractéristiques visuelles, les caractéristiques de texte et l'interaction et l'amélioration des caractéristiques intermodales.

La plupart des recherches actuelles se concentrent sur la conception de modules d'interaction multimodaux efficaces pour améliorer la précision des tâches, et manquent d'exploration des encodeurs visuels. Une approche courante consiste à utiliser des extracteurs de fonctionnalités pré-entraînés aux tâches de classification et de détection, tels que ResNet, DarkNet, Swin Transformer ou ViT, etc. Ces modèles parcourent tous les emplacements spatiaux de l'image pour extraire les caractéristiques sous forme de fenêtre glissante ou de patch divisé. Leur complexité de calcul augmentera rapidement avec la résolution de l'image, ce qui est plus évident dans les modèles basés sur Transformer.

En raison des caractéristiques de redondance spatiale des images, il existe un grand nombre de zones d'arrière-plan avec un faible contenu en informations et des zones sans rapport avec l'expression référentielle dans l'image. L'extraction de caractéristiques dans ces zones de la même manière augmentera la quantité. de calcul mais n'est pas efficace pour une extraction efficace des fonctionnalités. Rien n'y fait. Un moyen plus efficace consiste à prédire à l'avance la pertinence du texte et la richesse du contenu de la zone d'image, à extraire entièrement les caractéristiques de la zone de premier plan liée au texte et à extraire grossièrement les caractéristiques de la zone d'arrière-plan. Pour la prévision régionale, une méthode plus intuitive consiste à utiliser la pyramide d'images pour identifier à l'avance la zone d'arrière-plan dans l'image à gros grains au sommet de la pyramide, puis à ajouter progressivement des zones de premier plan à grain fin haute résolution.

Sur la base de l'analyse ci-dessus, nous avons proposé un cadre de perception itérative de grossière à fine, ScanFormer, qui scanne couche par couche dans la pyramide d'images, en commençant par des images à faible résolution et en filtrant progressivement. expressions référentielles/zone d'arrière-plan non pertinentes pour réduire le gaspillage de calcul et permettre au modèle de se concentrer davantage sur la zone de premier plan/liée à la tâche.

Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

  • Titre de l'article : ScanFormer : Compréhension d'expressions référentes par numérisation itérative
  • Lien de l'article : https://arxiv.org/ pdf/2406.18048

Introduction à la méthode
#🎜 🎜## 🎜🎜#

1. Cadre de perception des itérations grossières à fines Pour simplifier la structure, nous adoptons le modèle ViLT [1] qui unifie les modalités textuelles et visuelles, et le divise en deux pièces, Encoder1 et Encoder2, le long de la dimension de profondeur pour différentes tâches.
Tout d'abord, extrayez les caractéristiques du texte et stockez-les dans le cache KV ; puis construisez une pyramide d'images et itérez vers le bas depuis le haut de la pyramide, à chaque itération ; , saisissez le patch sélectionné à l'échelle actuelle, et Encoder1 est utilisé pour prédire la sélection de patchs à granularité fine à l'échelle suivante correspondant à chaque patch. En particulier, tous les patchs de l'image de niveau supérieur sont sélectionnés pour garantir que le modèle. peut obtenir des informations d’image complète à gros grain. Encoder2 extrait en outre les caractéristiques et prédit le cadre de délimitation à cette échelle en fonction du jeton [cls] de l'échelle actuelle.
Dans le même temps, les fonctionnalités intermédiaires d'Encoder1 et d'Encoder2 seront stockées dans le cache KV pour faciliter l'utilisation ultérieure de l'échelle. À mesure que l'échelle augmente, des fonctionnalités plus fines sont introduites et la prédiction de position devient plus précise, tandis que la plupart des correctifs non pertinents sont supprimés pour économiser beaucoup de calculs.
De plus, les patchs à l'intérieur de chaque échelle ont une attention bidirectionnelle et prêteront également attention à toutes les fonctionnalités de patch et de texte de l'échelle précédente. Cette attention causale à toutes les échelles peut réduire davantage les besoins en calcul.

2. Sélection dynamique des patchs

Sélection de chaque patch Le La situation est déterminée par le facteur de sélection généré par l'échelle précédente. Il existe deux options pour l'emplacement d'application. L'une est utilisée dans toutes les têtes de chaque couche de MHSA dans l'encodeur. Cependant, pour l'encodeur de N couches de têtes H, elle est utilisée. Il est difficile d'obtenir des informations de gradient efficaces pour la mise à jour, donc le facteur de sélection appris n'est pas idéal ; le second est directement utilisé comme entrée de l'encodeur, c'est-à-dire l'intégration du patch, puisqu'il n'est utilisé que dans cette position. est plus facile à apprendre. Cet article a finalement adopté cette solution . Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

De plus, il convient de noter que même si l'intégration du patch d'entrée est définie sur 0, du fait de l'existence de MHSA et FFN, les fonctionnalités du patch dans les couches suivantes deviendront toujours non nulles et affecteront les caractéristiques des patchs restants. Heureusement, lorsqu'il y a de nombreux jetons identiques dans la séquence de jetons, le calcul de MHSA peut être simplifié et une véritable accélération d'inférence peut être obtenue. De plus, afin d'améliorer la flexibilité du modèle, cet article ne définit pas directement l'intégration des correctifs sur 0, mais la remplace par un jeton constant pouvant être appris.

Par conséquent, le problème de sélection de patch se transforme en problème de remplacement de patch. Le processus de sélection des correctifs peut être décomposé en deux étapes : le remplacement constant des jetons et la fusion des jetons. Les correctifs non sélectionnés seront remplacés par le même jeton constant. Étant donné que ces jetons non sélectionnés sont les mêmes, selon la méthode de calcul de l'attention du produit scalaire mise à l'échelle, ces jetons peuvent être combinés en un seul jeton et multipliés par le nombre total, ce qui équivaut à ajouter à la dimension, donc la méthode d'attention du produit scalaire est calculé. Aucun changement, des méthodes d’accélération courantes sont toujours disponibles.

Résultats expérimentaux

Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle#🎜 🎜# Cette méthode atteint des performances similaires à l'état de l'art sur quatre ensembles de données : RefCOCO, RefCOCO+, RefCOCOg et ReferItGame. En pré-entraînant sur des ensembles de données à grande échelle et en affinant des ensembles de données spécifiques, les performances du modèle peuvent être encore considérablement améliorées et obtenir des résultats similaires à ceux des modèles pré-entraînés tels que MDETR [2] et OFA [3].


En termes de vitesse d'inférence, la méthode proposée atteint une vitesse d'inférence en temps réel tout en garantissant une vitesse d'inférence plus élevée précision des tâches.

Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

さらに、実験部分では、モデルのパッチ選択と各スケール (スケール 1 とスケール 2) での位置決め精度の分布に関する統計も作成しました。

左の図に示すように、スケールが大きくなるにつれて、きめの細かい画像特徴が追加され、モデルの精度が徐々に向上します。したがって、位置決め精度が要件を満たした時点で終了する早期終了メカニズムを追加して、高解像度画像に対するさらなる計算を回避し、サンプルに基づいて適切な解像度を適応的に選択する効果を得ることができます。この記事では、IoU、GIoU、不確実性などの予測ブランチを追加したり、早期離脱インジケーターを返すなど、いくつかの予備的な試みも行いましたが、その効果は適切で正確な早期離脱インジケーターを設計する必要があることがわかりました。探索を続けた。

右側の図は、さまざまなスケールでのパッチの選択状況を示しています。どのスケールでも、選択されたパッチは比較的小さく、ほとんどのパッチを削除できるため、コンピューティング リソースが効果的に節約されます。各サンプル (画像 + 参照式) について、実際に選択されるパッチの数は比較的少なく、おそらく全体の 65% です。

Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

最後に、実験部分では、スケールが大きくなるにつれて (赤→緑→青)、モデルの位置決め精度が徐々に向上します。さらに、選択したパッチから再構成された画像によると、モデルは背景領域の粗いスケールの情報のみに注意を払い、関連する前景領域については、きめの細かい詳細な情報に注意を払うことができることがわかります。情報。

Équipe Li Xi de lUniversité du Zhejiang : une nouvelle méthode de référence à la compréhension des expressions, ScanFormer itère du grossier au fin pour éliminer la redondance visuelle

関連文献:
[1].Kim W、Son B、Kim I. Vilt: 畳み込みまたは領域監視のない視覚と言語の変換 [C]//機械学習に関する国際会議。 PMLR、2021: 5583-5594.
[2].Kamath A、Singh M、LeCun Y、他。エンドツーエンドのマルチモーダル理解のための Mdetr 変調検出 [C]//Proceedings of theコンピュータ ビジョンに関する IEEE/CVF 国際会議。 - シーケンス学習フレームワーク [C]//機械学習に関する国際会議、2022: 23318-23340.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn