


Un article révolutionnaire sur la diversité des ensembles de données dans l'apprentissage automatique
La communauté Machine Learning (ML) est en effervescence sur un récent lauréat du prix Paper ICML 2024 qui remet en question les affirmations de «diversité» souvent insuffisantes dans les ensembles de données. Les chercheurs Dora Zhao, Jérone Ta Andrews, Orestis Papakyriakopoulos et le travail d'Alice Xiang, "Measy Datasity Diversity, ne se contentent pas de le réclamer", fournit un cadre indispensable pour évaluer rigoureusement la diversité des ensembles de données.
Ce n'est pas seulement un autre article sur la diversité des ensembles de données; C'est un appel à l'action. Les auteurs critiquent l'utilisation lâche de termes comme la «diversité», la «qualité» et le «biais» sans validation appropriée. Leur solution? Une approche structurée utilisant des principes de théorie de la mesure pour définir, mesurer et évaluer la diversité dans les ensembles de données ML.
Le cadre du journal comprend trois étapes cruciales:
- Conceptualisation: définir la "diversité" dans le contexte spécifique de l'ensemble de données.
- Opérationnalisation: Développement de méthodes concrètes pour quantifier les aspects définis de la diversité.
- Évaluation: Évaluation de la fiabilité et de la validité des mesures de diversité.
Les principaux résultats de leur analyse de 135 ensembles de données d'image et de texte révèlent des lacunes importantes: un manque de définitions claires de la diversité, une documentation insuffisante de la collecte de données, des problèmes de fiabilité et des défis dans la validation des allégations de diversité. Les chercheurs proposent des recommandations pratiques pour résoudre ces problèmes, notamment en utilisant un accord interannotateur et en utilisant des techniques à partir de la validité de construction.
Une étude de cas de l'ensemble de données sur tout (SA-1b) segment met en évidence l'application pratique du cadre, identifiant à la fois les forces et les domaines à améliorer ses considérations de diversité.
Les implications sont d'une grande portée: le document remet en question l'hypothèse que les ensembles de données plus importants équivalent automatiquement à une plus grande diversité, soulignant la nécessité d'une conservation intentionnelle. Il reconnaît également l'augmentation du fardeau de la documentation mais préconise des changements systémiques dans la façon dont le fonctionnement des données est évalué au sein de la communauté de recherche ML. En outre, il met en évidence l'importance de considérer comment les constructions de diversité évoluent avec le temps.
Lire l'article complet: Position: Mesurez la diversité des ensembles de données, ne vous contentez pas de le réclamer
La conclusion souligne la nécessité d'une recherche plus rigoureuse, transparente et reproductible en ML. Le cadre des auteurs fournit des outils essentiels pour s'assurer que les allégations de diversité des ensembles de données ne sont pas simplement des contributions rhétoriques mais manifestement significatives à des systèmes d'IA plus équitables et plus robustes. Ce travail est une étape critique vers l'amélioration de la conservation et de la documentation de l'ensemble de données, conduisant finalement à des modèles d'apprentissage automatique plus fiables et équitables.
Bien que l'augmentation de la rigueur puisse sembler exigeante, les auteurs soutiennent de manière convaincante que la construction d'IA sur les fondations tremblantes est inacceptable. Cet article n'est pas seulement une question de meilleurs ensembles de données; Il s'agit d'un domaine plus fiable et responsable de l'apprentissage automatique.
Questions fréquemment posées:
- Q1: Pourquoi la mesure de la diversité des ensembles de données est-elle importante? A1: Il garantit une représentation diversifiée, réduit les biais, améliore la généralisation du modèle et favorise l'équité dans l'IA.
- Q2: Comment la diversité des ensembles de données affecte-t-elle les performances du modèle ML? A2: Il améliore la robustesse et la précision en réduisant le sur-ajustement et l'amélioration des performances entre différentes populations et conditions.
- Q3: Quels sont les défis courants dans la mesure de la diversité des ensembles de données? A3: Définir la diversité, opérationnaliser les définitions, valider les revendications et assurer une documentation transparente et reproductible.
- Q4: Quelles sont les étapes pratiques pour améliorer la diversité des ensembles de données? A4: Définissant clairement des objectifs de diversité, collectant des données à partir de diverses sources, en utilisant des méthodes de mesure standardisées, une évaluation continue et la mise en œuvre d'une validation robuste.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Olympiccoder-7b de Hugging Face: un puissant modèle de raisonnement de code open source La race pour développer des modèles de langues axés sur le code supérieurs s'intensifie, et Hugging Face a rejoint la compétition avec un formidable concurrent: Olympiccoder-7b, un produit

Combien d'entre vous ont souhaité que l'IA pourrait faire plus que de répondre aux questions? Je sais que je l'ai, et ces derniers temps, je suis étonné de la façon dont il se transforme. Les chatbots IA ne visent plus seulement à discuter, ils sont à la création, à la recherche

Alors que Smart IA commence à être intégré à tous les niveaux de plates-formes et d'applications logicielles d'entreprise (nous devons souligner qu'il existe à la fois des outils de base puissants et des outils de simulation moins fiables), nous avons besoin d'un nouvel ensemble de capacités d'infrastructure pour gérer ces agents. Camunda, une société d'orchestration de processus basée à Berlin, en Allemagne, estime qu'elle peut aider SMART IA à jouer son rôle dû et à s'aligner sur des objectifs commerciaux et des règles précis dans le nouveau lieu de travail numérique. La société offre actuellement des capacités d'orchestration intelligentes conçues pour aider les organisations à modéliser, déployer et gérer les agents d'IA. Du point de vue de l'ingénierie logicielle pratique, qu'est-ce que cela signifie? L'intégration des processus de certitude et non déterministes La société a déclaré que la clé est de permettre aux utilisateurs (généralement des scientifiques des données, des logiciels)

Assistant Google Cloud Next '25, je tenais à voir comment Google distinguerait ses offres de l'IA. Les annonces récentes concernant Agentspace (discutées ici) et la suite d'expérience client (discutée ici) étaient prometteuses, mettant l'accent sur les affaires

Sélection du modèle d'introduction multilingue optimal pour votre système de génération augmentée de récupération (RAG) Dans le monde interconnecté d'aujourd'hui, la construction de systèmes d'IA multilingues efficaces est primordial. Les modèles d'incorporation multilingues robustes sont cruciaux pour RE

Launchage Austin Robotaxi de Tesla: un examen plus approfondi des affirmations de Musk Elon Musk a récemment annoncé le prochain lancement de Robotaxi de Tesla à Austin, au Texas, déployant initialement une petite flotte de 10 à 20 véhicules pour des raisons de sécurité, avec des plans pour une expansion rapide. H

La façon dont l'intelligence artificielle est appliquée peut être inattendue. Initialement, beaucoup d'entre nous pourraient penser qu'il était principalement utilisé pour les tâches créatives et techniques, telles que l'écriture de code et la création de contenu. Cependant, une récente enquête rapportée par Harvard Business Review montre que ce n'est pas le cas. La plupart des utilisateurs recherchent l'intelligence artificielle non seulement pour le travail, mais pour le soutien, l'organisation et même l'amitié! Le rapport indique que le premier des cas de demande de l'IA est le traitement et la compagnie. Cela montre que sa disponibilité 24h / 24 et 7j / 7 et la capacité de fournir des conseils et des commentaires anonymes et honnêtes sont d'une grande valeur. D'un autre côté, les tâches marketing (telles que la rédaction d'un blog, la création de publications sur les réseaux sociaux ou la copie publicitaire) se classent beaucoup plus bas sur la liste des utilisations populaires. Pourquoi est-ce? Voyons les résultats de la recherche et comment il continue d'être

La montée des agents de l'IA transforme le paysage commercial. Par rapport à la révolution du cloud, l'impact des agents de l'IA devrait être exponentiellement plus grand, promettant de révolutionner le travail des connaissances. La capacité de simuler la décision humaine


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Dreamweaver Mac
Outils de développement Web visuel

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel