TPAMI 2024 | ProCo: Long-tail contrastive learning of infinite contrastive pairs-AI-php.cn

Home

Technology peripherals

TPAMI 2024 | ProCo: Long-tail contrastive learning of infinite contrastive pairs

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 25, 2024 pm 08:52 PM

projectLong Tail Visual Identity

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Du Chaoqun, the first author of this paper, is a 2020 direct PhD student in the Department of Automation, Tsinghua University. The tutor is Associate Professor Huang Gao. He previously received a Bachelor of Science degree from the Department of Physics of Tsinghua University. His research interests include model generalization and robustness research on different data distributions, such as long-tail learning, semi-supervised learning, transfer learning, etc. Published many papers in first-class international journals and conferences such as TPAMI and ICML.

Personal homepage: https://andy-du20.github.io

This article introduces a paper on long-tail visual recognition from Tsinghua University: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. This work has been TPAMI 2024 accepted, the code has been open source.

This research mainly focuses on the application of contrastive learning in long-tail visual recognition tasks. It proposes a new long-tail contrastive learning method ProCo. By improving the contrastive loss, it achieves contrastive learning of an unlimited number of contrastive pairs, effectively solving the problem Supervised contrastive learning[1] has an inherent dependence on batch (memory bank) size. In addition to long-tail visual classification tasks, this method was also experimented on long-tail semi-supervised learning, long-tail object detection, and balanced datasets, achieving significant performance improvements.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

Research motivation

Comparison The success of learning in self-supervised learning demonstrates its effectiveness in learning visual feature representations. The core factor affecting contrastive learning performance is the number of

contrastive pairs

, which enables the model to learn from more negative samples, which is reflected in the two most representative methods SimCLR [2] and MoCo [3] respectively. batch size and memory bank size. However, in long-tail visual recognition tasks, due to category imbalance, the gain brought by increasing the number of contrastive pairs will produce a serious marginal diminishing effect. This is because most of the contrastive pairs are composed of head categories. Composed of samples, it is difficult to cover the tail categories. For example, in the long-tail Imagenet data set, if the batch size (memory bank) is set to the common 4096 and 8192, then there are an average of 212

and

89 categories in each batch (memory bank) respectively. The sample size is less than one. Therefore, the core idea of the ProCo method is: on the long-tail data set, by modeling the distribution of each type of data, estimating parameters and sampling from it to build contrasting pairs, ensuring that all categories can be covered. Furthermore, when the number of samples tends to infinity, the expected analytical solution of contrastive loss can be strictly derived theoretically, so that it can be directly used as the optimization target to avoid inefficient sampling of contrastive pairs and achieve an infinite number of contrastive pairs. Comparative learning.

However, there are several main difficulties in realizing the above ideas: How to model the distribution of each type of data.

Since the features of contrastive learning are distributed on the unit hypersphere, a feasible solution is to select the von Mises-Fisher (vMF) distribution on the sphere as the feature distribution (this distribution is similar to the normal distribution on the sphere) . The maximum likelihood estimation of vMF distribution parameters has an approximate analytical solution and only relies on the first-order moment statistics of the feature. Therefore, the parameters of the distribution can be estimated efficiently and the expectation of contrastive loss can be strictly derived, thereby achieving the comparison of an unlimited number of contrastive pairs. study.

Figure 1 L'algorithme ProCo estime la distribution des échantillons en fonction des caractéristiques des différents lots. En échantillonnant un nombre illimité d'échantillons, la solution analytique de la perte contrastive attendue peut être obtenue, éliminant ainsi la dépendance inhérente de l'apprentissage contrastif supervisé à l'égard du taille du lot (banque de mémoire).

Détails de la méthode

Ce qui suit présentera la méthode ProCo en détail sous quatre aspects : hypothèse de distribution, estimation des paramètres, objectifs d'optimisation et analyse théorique.

Hypothèse de distribution

Comme mentionné précédemment, les fonctionnalités de l'apprentissage contrastif sont limitées à l'hypersphère unitaire. Par conséquent, on peut supposer que la distribution à laquelle obéissent ces caractéristiques est la distribution de von Mises-Fisher (vMF) et que sa fonction de densité de probabilité est : TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

où z est le vecteur unitaire des caractéristiques à p dimensions, I est le vecteur unitaire modifié. Fonction de Bessel du premier type,

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

μ est la direction moyenne de la distribution, κ est le paramètre de concentration, qui contrôle le degré de concentration de la distribution. Lorsque κ est plus grand, le degré de regroupement des échantillons est proche de la moyenne. est plus élevé lorsque κ = 0, la distribution vMF dégénère en une distribution uniforme.

Estimation des paramètres

Sur la base de l'hypothèse de distribution ci-dessus, la distribution globale des caractéristiques des données est une distribution vMF mixte, où chaque catégorie correspond à une distribution vMF.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

où le paramètre TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习 représente la probabilité a priori de chaque catégorie, correspondant à la fréquence de la catégorie y dans l'ensemble d'entraînement. Le vecteur moyen et le paramètre groupé de la distribution des caractéristiques sont estimés par estimation du maximum de vraisemblance.

En supposant que N vecteurs unitaires indépendants sont échantillonnés à partir de la distribution vMF de catégorie y, l'estimation du maximum de vraisemblance (environ) [4] des paramètres de direction moyenne et de concentration satisfait l'équation suivante :

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

où TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习 est l'échantillon moyenne, est la longueur du module de la moyenne de l'échantillon. De plus, afin d'utiliser des échantillons historiques, ProCo adopte une méthode d'estimation en ligne, qui peut estimer efficacement les paramètres de la catégorie de queue.

Objectif d'optimisation

Sur la base des paramètres estimés, une approche simple consiste à échantillonner à partir de la distribution vMF mixte pour construire des paires contrastives. Cependant, l'échantillonnage d'un grand nombre d'échantillons de la distribution vMF à chaque itération d'entraînement est inefficace. Par conséquent, cette étude étend théoriquement le nombre d’échantillons à l’infini et dérive strictement la solution analytique de la fonction de perte de contraste attendue directement comme cible d’optimisation.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

En introduisant une branche de fonctionnalités supplémentaire (apprentissage des représentations basé sur cet objectif d'optimisation) pendant le processus de formation, cette branche peut être entraînée avec la branche de classification et n'augmentera pas puisque seule la branche de classification est nécessaire lors de l'inférence Calcul supplémentaire coût. La somme pondérée des pertes des deux branches est utilisée comme objectif d'optimisation final, et α=1 est défini dans l'expérience. Enfin, le processus global de l'algorithme ProCo est le suivant : Analyse théorique

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习 Afin d'aller plus loin. analyser la Pour vérifier théoriquement l'efficacité de la méthode ProCo, les chercheurs ont analysé sa limite d'erreur de généralisation et sa limite d'excès de risque. Pour simplifier l'analyse, on suppose ici qu'il n'y a que deux catégories, à savoir y∈{-1,+1}. L'analyse montre que la limite d'erreur de généralisation est principalement contrôlée par le nombre d'échantillons d'apprentissage et la variance des données. L'analyse théorique des travaux connexes [6] [7] est cohérente, garantissant que la perte ProCo n'introduit pas de facteurs supplémentaires et n'augmente pas la limite d'erreur de généralisation, ce qui garantit théoriquement l'efficacité de cette méthode.

De plus, cette méthode repose sur certaines hypothèses concernant les distributions de caractéristiques et les estimations de paramètres. Pour évaluer l'impact de ces paramètres sur les performances du modèle, les chercheurs ont également analysé la limite de risque excédentaire de perte ProCo, qui mesure l'écart entre le risque attendu à l'aide des paramètres estimés et le risque optimal de Bayes, qui se situe dans la vraie distribution du risque attendu. paramètres.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

Cela montre que le risque excédentaire de perte de ProCo est principalement contrôlé par le terme de premier ordre de l'erreur d'estimation du paramètre.

Résultats expérimentaux

Pour vérifier la motivation fondamentale, les chercheurs ont d'abord comparé les performances de différentes méthodes d'apprentissage contrastées sous différentes tailles de lots. Baseline inclut Balanced Contrastive Learning [5] (BCL), une méthode améliorée également basée sur SCL sur les tâches de reconnaissance à longue traîne. Le cadre expérimental spécifique suit la stratégie de formation en deux étapes de l'apprentissage contrastif supervisé (SCL), c'est-à-dire qu'il faut d'abord utiliser uniquement la perte contrastive pour la formation à l'apprentissage des représentations, puis entraîner un classificateur linéaire pour les tests avec le squelette gelé.

La figure ci-dessous montre les résultats expérimentaux sur l'ensemble de données CIFAR100-LT (IF100). Les performances de BCL et SupCon sont évidemment limitées par la taille du lot, mais ProCo élimine efficacement l'impact de SupCon sur la taille du lot en introduisant la fonctionnalité. distribution de chaque dépendance de catégorie, obtenant ainsi les meilleures performances sous différentes tailles de lots.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

De plus, les chercheurs ont également mené des expériences sur des tâches de reconnaissance à longue traîne, l'apprentissage semi-supervisé à longue traîne, la détection d'objets à longue traîne et des ensembles de données équilibrés. Ici, nous montrons principalement les résultats expérimentaux sur les ensembles de données à grande échelle Imagenet-LT et iNaturalist2018. Premièrement, dans le cadre d'un programme de formation de 90 époques, par rapport à des méthodes similaires d'amélioration de l'apprentissage contrasté, ProCo présente une amélioration des performances d'au moins 1 % sur deux ensembles de données et deux piliers.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

Les résultats suivants montrent en outre que ProCo peut également bénéficier d'un programme d'entraînement plus long Dans le cadre du programme de 400 époques, ProCo a atteint les performances SOTA sur l'ensemble de données iNaturalist2018 et a également vérifié qu'il peut rivaliser avec d'autres combinaisons non A. de méthodes d'apprentissage contrastées, y compris la distillation (NCL) et d'autres méthodes. "Un cadre simple pour l'apprentissage contrastif des représentations visuelles." Conférence internationale sur l'apprentissage automatique, 2020.

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

He, Kaiming, et al. "Contraste Momentum pour l'apprentissage des représentations visuelles non supervisé." sur la vision par ordinateur et la reconnaissance de formes. 2020.

S Sra, « Une brève note sur l'approximation des paramètres pour les distributions de von mises-fisher : et une implémentation rapide de is (x) », Computational Statistics, 2012.
J. Zhu, et al. « Apprentissage contrastif équilibré pour la reconnaissance visuelle à longue queue », dans CVPR, 2022.
W. Jitkrittum, et al. « ELM : intégration et marges logit pour l'apprentissage à longue queue », Préimpression arXiv, 2022.
A K. Menon, et al . « Apprentissage longue traîne via l'ajustement logit », dans ICLR, 2021.
.

The above is the detailed content of TPAMI 2024 | ProCo: Long-tail contrastive learning of infinite contrastive pairs. For more information, please follow other related articles on the PHP Chinese website!

Statement

The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn

Let's Dance: Structured Movement To Fine-Tune Our Human Neural NetsApr 27, 2025 am 11:09 AM

Scientists have extensively studied human and simpler neural networks (like those in C. elegans) to understand their functionality. However, a crucial question arises: how do we adapt our own neural networks to work effectively alongside novel AI s

New Google Leak Reveals Subscription Changes For Gemini AIApr 27, 2025 am 11:08 AM

Google's Gemini Advanced: New Subscription Tiers on the Horizon Currently, accessing Gemini Advanced requires a $19.99/month Google One AI Premium plan. However, an Android Authority report hints at upcoming changes. Code within the latest Google P

How Data Analytics Acceleration Is Solving AI's Hidden BottleneckApr 27, 2025 am 11:07 AM

Despite the hype surrounding advanced AI capabilities, a significant challenge lurks within enterprise AI deployments: data processing bottlenecks. While CEOs celebrate AI advancements, engineers grapple with slow query times, overloaded pipelines, a

MarkItDown MCP Can Convert Any Document into Markdowns!Apr 27, 2025 am 09:47 AM

Handling documents is no longer just about opening files in your AI projects, it’s about transforming chaos into clarity. Docs such as PDFs, PowerPoints, and Word flood our workflows in every shape and size. Retrieving structured

How to Use Google ADK for Building Agents? - Analytics VidhyaApr 27, 2025 am 09:42 AM

Harness the power of Google's Agent Development Kit (ADK) to create intelligent agents with real-world capabilities! This tutorial guides you through building conversational agents using ADK, supporting various language models like Gemini and GPT. W

Use of SLM over LLM for Effective Problem Solving - Analytics VidhyaApr 27, 2025 am 09:27 AM

summary: Small Language Model (SLM) is designed for efficiency. They are better than the Large Language Model (LLM) in resource-deficient, real-time and privacy-sensitive environments. Best for focus-based tasks, especially where domain specificity, controllability, and interpretability are more important than general knowledge or creativity. SLMs are not a replacement for LLMs, but they are ideal when precision, speed and cost-effectiveness are critical. Technology helps us achieve more with fewer resources. It has always been a promoter, not a driver. From the steam engine era to the Internet bubble era, the power of technology lies in the extent to which it helps us solve problems. Artificial intelligence (AI) and more recently generative AI are no exception

How to Use Google Gemini Models for Computer Vision Tasks? - Analytics VidhyaApr 27, 2025 am 09:26 AM

Harness the Power of Google Gemini for Computer Vision: A Comprehensive Guide Google Gemini, a leading AI chatbot, extends its capabilities beyond conversation to encompass powerful computer vision functionalities. This guide details how to utilize

Gemini 2.0 Flash vs o4-mini: Can Google Do Better Than OpenAI?Apr 27, 2025 am 09:20 AM

The AI landscape of 2025 is electrifying with the arrival of Google's Gemini 2.0 Flash and OpenAI's o4-mini. These cutting-edge models, launched weeks apart, boast comparable advanced features and impressive benchmark scores. This in-depth compariso

See all articles

Hot AI Tools

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress images for free

Clothoff.io

AI clothes remover

Video Face Swap

Swap faces in any video effortlessly with our completely free AI face swap tool!

Hot Article

Assassin's Creed Shadows: Seashell Riddle Solution

1 months agoByDDD

What's New in Windows 11 KB5054979 & How to Fix Update Issues

3 weeks agoByDDD

Where to find the Crane Control Keycard in Atomfall

1 months agoByDDD

How to fix KB5055523 fails to install in Windows 11?

2 weeks agoByDDD

InZoi: How To Apply To School And University

3 weeks agoByDDD

Hot Tools

DVWA

Damn Vulnerable Web App (DVWA) is a PHP/MySQL web application that is very vulnerable. Its main goals are to be an aid for security professionals to test their skills and tools in a legal environment, to help web developers better understand the process of securing web applications, and to help teachers/students teach/learn in a classroom environment Web application security. The goal of DVWA is to practice some of the most common web vulnerabilities through a simple and straightforward interface, with varying degrees of difficulty. Please note that this software

EditPlus Chinese cracked version

Small size, syntax highlighting, does not support code prompt function

MinGW - Minimalist GNU for Windows

This project is in the process of being migrated to osdn.net/projects/mingw, you can continue to follow us there. MinGW: A native Windows port of the GNU Compiler Collection (GCC), freely distributable import libraries and header files for building native Windows applications; includes extensions to the MSVC runtime to support C99 functionality. All MinGW software can run on 64-bit Windows platforms.

SecLists

SecLists is the ultimate security tester's companion. It is a collection of various types of lists that are frequently used during security assessments, all in one place. SecLists helps make security testing more efficient and productive by conveniently providing all the lists a security tester might need. List types include usernames, passwords, URLs, fuzzing payloads, sensitive data patterns, web shells, and more. The tester can simply pull this repository onto a new test machine and he will have access to every type of list he needs.

Notepad++7.3.1

Easy-to-use and free code editor

Hot Topics

Where is the login entrance for gmail email?

7769

1644

1399

1294

1234