Home > Article > Technology peripherals > TPAMI 2024 | ProCo: Long-tail contrastive learning of infinite contrastive pairs
The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Du Chaoqun, the first author of this paper, is a 2020 direct PhD student in the Department of Automation, Tsinghua University. The tutor is Associate Professor Huang Gao. He previously received a Bachelor of Science degree from the Department of Physics of Tsinghua University. His research interests include model generalization and robustness research on different data distributions, such as long-tail learning, semi-supervised learning, transfer learning, etc. Published many papers in first-class international journals and conferences such as TPAMI and ICML.
Personal homepage: https://andy-du20.github.io
This article introduces a paper on long-tail visual recognition from Tsinghua University: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. This work has been TPAMI 2024 accepted, the code has been open source.
This research mainly focuses on the application of contrastive learning in long-tail visual recognition tasks. It proposes a new long-tail contrastive learning method ProCo. By improving the contrastive loss, it achieves contrastive learning of an unlimited number of contrastive pairs, effectively solving the problem Supervised contrastive learning[1] has an inherent dependence on batch (memory bank) size. In addition to long-tail visual classification tasks, this method was also experimented on long-tail semi-supervised learning, long-tail object detection, and balanced datasets, achieving significant performance improvements.
Comparison The success of learning in self-supervised learning demonstrates its effectiveness in learning visual feature representations. The core factor affecting contrastive learning performance is the number of
contrastive pairs, which enables the model to learn from more negative samples, which is reflected in the two most representative methods SimCLR [2] and MoCo [3] respectively. batch size and memory bank size. However, in long-tail visual recognition tasks, due to category imbalance, the gain brought by increasing the number of contrastive pairs will produce a serious marginal diminishing effect. This is because most of the contrastive pairs are composed of head categories. Composed of samples, it is difficult to cover the tail categories. For example, in the long-tail Imagenet data set, if the batch size (memory bank) is set to the common 4096 and 8192, then there are an average of 212
and89 categories in each batch (memory bank) respectively. The sample size is less than one. Therefore, the core idea of the ProCo method is: on the long-tail data set, by modeling the distribution of each type of data, estimating parameters and sampling from it to build contrasting pairs, ensuring that all categories can be covered. Furthermore, when the number of samples tends to infinity, the expected analytical solution of contrastive loss can be strictly derived theoretically, so that it can be directly used as the optimization target to avoid inefficient sampling of contrastive pairs and achieve an infinite number of contrastive pairs. Comparative learning.
However, there are several main difficulties in realizing the above ideas: How to model the distribution of each type of data.
Since the features of contrastive learning are distributed on the unit hypersphere, a feasible solution is to select the von Mises-Fisher (vMF) distribution on the sphere as the feature distribution (this distribution is similar to the normal distribution on the sphere) . The maximum likelihood estimation of vMF distribution parameters has an approximate analytical solution and only relies on the first-order moment statistics of the feature. Therefore, the parameters of the distribution can be estimated efficiently and the expectation of contrastive loss can be strictly derived, thereby achieving the comparison of an unlimited number of contrastive pairs. study.
Figure 1 L'algorithme ProCo estime la distribution des échantillons en fonction des caractéristiques des différents lots. En échantillonnant un nombre illimité d'échantillons, la solution analytique de la perte contrastive attendue peut être obtenue, éliminant ainsi la dépendance inhérente de l'apprentissage contrastif supervisé à l'égard du taille du lot (banque de mémoire).
Détails de la méthode
Ce qui suit présentera la méthode ProCo en détail sous quatre aspects : hypothèse de distribution, estimation des paramètres, objectifs d'optimisation et analyse théorique.
Hypothèse de distribution
Comme mentionné précédemment, les fonctionnalités de l'apprentissage contrastif sont limitées à l'hypersphère unitaire. Par conséquent, on peut supposer que la distribution à laquelle obéissent ces caractéristiques est la distribution de von Mises-Fisher (vMF) et que sa fonction de densité de probabilité est :
où z est le vecteur unitaire des caractéristiques à p dimensions, I est le vecteur unitaire modifié. Fonction de Bessel du premier type,
μ est la direction moyenne de la distribution, κ est le paramètre de concentration, qui contrôle le degré de concentration de la distribution. Lorsque κ est plus grand, le degré de regroupement des échantillons est proche de la moyenne. est plus élevé lorsque κ = 0, la distribution vMF dégénère en une distribution uniforme.
Estimation des paramètres
Sur la base de l'hypothèse de distribution ci-dessus, la distribution globale des caractéristiques des données est une distribution vMF mixte, où chaque catégorie correspond à une distribution vMF.
où le paramètre représente la probabilité a priori de chaque catégorie, correspondant à la fréquence de la catégorie y dans l'ensemble d'entraînement. Le vecteur moyen et le paramètre groupé de la distribution des caractéristiques sont estimés par estimation du maximum de vraisemblance.
En supposant que N vecteurs unitaires indépendants sont échantillonnés à partir de la distribution vMF de catégorie y, l'estimation du maximum de vraisemblance (environ) [4] des paramètres de direction moyenne et de concentration satisfait l'équation suivante :
où est l'échantillon moyenne, est la longueur du module de la moyenne de l'échantillon. De plus, afin d'utiliser des échantillons historiques, ProCo adopte une méthode d'estimation en ligne, qui peut estimer efficacement les paramètres de la catégorie de queue.
Objectif d'optimisation
Sur la base des paramètres estimés, une approche simple consiste à échantillonner à partir de la distribution vMF mixte pour construire des paires contrastives. Cependant, l'échantillonnage d'un grand nombre d'échantillons de la distribution vMF à chaque itération d'entraînement est inefficace. Par conséquent, cette étude étend théoriquement le nombre d’échantillons à l’infini et dérive strictement la solution analytique de la fonction de perte de contraste attendue directement comme cible d’optimisation.
En introduisant une branche de fonctionnalités supplémentaire (apprentissage des représentations basé sur cet objectif d'optimisation) pendant le processus de formation, cette branche peut être entraînée avec la branche de classification et n'augmentera pas puisque seule la branche de classification est nécessaire lors de l'inférence Calcul supplémentaire coût. La somme pondérée des pertes des deux branches est utilisée comme objectif d'optimisation final, et α=1 est défini dans l'expérience. Enfin, le processus global de l'algorithme ProCo est le suivant : Analyse théorique
Afin d'aller plus loin. analyser la Pour vérifier théoriquement l'efficacité de la méthode ProCo, les chercheurs ont analysé sa limite d'erreur de généralisation et sa limite d'excès de risque. Pour simplifier l'analyse, on suppose ici qu'il n'y a que deux catégories, à savoir y∈{-1,+1}. L'analyse montre que la limite d'erreur de généralisation est principalement contrôlée par le nombre d'échantillons d'apprentissage et la variance des données. L'analyse théorique des travaux connexes [6] [7] est cohérente, garantissant que la perte ProCo n'introduit pas de facteurs supplémentaires et n'augmente pas la limite d'erreur de généralisation, ce qui garantit théoriquement l'efficacité de cette méthode.
De plus, cette méthode repose sur certaines hypothèses concernant les distributions de caractéristiques et les estimations de paramètres. Pour évaluer l'impact de ces paramètres sur les performances du modèle, les chercheurs ont également analysé la limite de risque excédentaire de perte ProCo, qui mesure l'écart entre le risque attendu à l'aide des paramètres estimés et le risque optimal de Bayes, qui se situe dans la vraie distribution du risque attendu. paramètres.
Cela montre que le risque excédentaire de perte de ProCo est principalement contrôlé par le terme de premier ordre de l'erreur d'estimation du paramètre.
Résultats expérimentaux
Pour vérifier la motivation fondamentale, les chercheurs ont d'abord comparé les performances de différentes méthodes d'apprentissage contrastées sous différentes tailles de lots. Baseline inclut Balanced Contrastive Learning [5] (BCL), une méthode améliorée également basée sur SCL sur les tâches de reconnaissance à longue traîne. Le cadre expérimental spécifique suit la stratégie de formation en deux étapes de l'apprentissage contrastif supervisé (SCL), c'est-à-dire qu'il faut d'abord utiliser uniquement la perte contrastive pour la formation à l'apprentissage des représentations, puis entraîner un classificateur linéaire pour les tests avec le squelette gelé.
La figure ci-dessous montre les résultats expérimentaux sur l'ensemble de données CIFAR100-LT (IF100). Les performances de BCL et SupCon sont évidemment limitées par la taille du lot, mais ProCo élimine efficacement l'impact de SupCon sur la taille du lot en introduisant la fonctionnalité. distribution de chaque dépendance de catégorie, obtenant ainsi les meilleures performances sous différentes tailles de lots.
De plus, les chercheurs ont également mené des expériences sur des tâches de reconnaissance à longue traîne, l'apprentissage semi-supervisé à longue traîne, la détection d'objets à longue traîne et des ensembles de données équilibrés. Ici, nous montrons principalement les résultats expérimentaux sur les ensembles de données à grande échelle Imagenet-LT et iNaturalist2018. Premièrement, dans le cadre d'un programme de formation de 90 époques, par rapport à des méthodes similaires d'amélioration de l'apprentissage contrasté, ProCo présente une amélioration des performances d'au moins 1 % sur deux ensembles de données et deux piliers.
Les résultats suivants montrent en outre que ProCo peut également bénéficier d'un programme d'entraînement plus long Dans le cadre du programme de 400 époques, ProCo a atteint les performances SOTA sur l'ensemble de données iNaturalist2018 et a également vérifié qu'il peut rivaliser avec d'autres combinaisons non A. de méthodes d'apprentissage contrastées, y compris la distillation (NCL) et d'autres méthodes. "Un cadre simple pour l'apprentissage contrastif des représentations visuelles." Conférence internationale sur l'apprentissage automatique, 2020.
He, Kaiming, et al. "Contraste Momentum pour l'apprentissage des représentations visuelles non supervisé." sur la vision par ordinateur et la reconnaissance de formes. 2020.J. Zhu, et al. « Apprentissage contrastif équilibré pour la reconnaissance visuelle à longue queue », dans CVPR, 2022.
.
The above is the detailed content of TPAMI 2024 | ProCo: Long-tail contrastive learning of infinite contrastive pairs. For more information, please follow other related articles on the PHP Chinese website!