recherche
MaisonPériphériques technologiquesIAOpenai O1: un nouveau modèle qui «pense» avant de répondre aux problèmes

Avez-vous entendu la grande nouvelle? Openai vient de déployer un aperçu d'une nouvelle série de modèles d'IA - Openai O1 (également connu sous le nom de Project Strawberry / Q *). Ces modèles sont spéciaux car ils passent plus de temps à «penser» avant de vous donner une réponse. Cela signifie qu'ils sont meilleurs pour résoudre des problèmes vraiment difficiles dans des domaines comme la science, le codage et les mathématiques par rapport aux modèles antérieurs, en grande partie grâce aux paramètres avancés OpenAI O1 .

Openai prend la devise «Pensez avant de parler» à cœur avec la série O1!

Aperçu

  • La nouvelle série de modèles O1 d'Openai excelle dans le raisonnement à travers des problèmes difficiles en mathématiques, en sciences et en codage, surpassant les versions précédentes.
  • Le modèle O1-Preview s'attaque aux tâches avancées, en résolvant 93% des problèmes mathématiques de l'AIME et en dépassant les experts humains dans des références scientifiques. Une grande partie de ce succès se résume à l'efficacité des paramètres OpenAi O1 pour gérer les tâches complexes.
  • O1-Mini d'OpenAI offre des capacités de codage puissantes à 80% du coût, ce qui en fait un outil accessible pour les développeurs.
  • Avec des mesures de sécurité améliorées, les modèles O1 garantissent une utilisation responsable de l'IA tout en fournissant une résolution de problèmes améliorée aux chercheurs, aux développeurs et aux éducateurs.

Table des matières

  • Quel est le gros problème?
  • Cas d'utilisation d'Openai O1
  • Résultats de test impressionnants
    • Concours de mathématiques avancées
    • Expertise scientifique
    • Codage
    • Autres repères et compréhension visuelle
  • Rencontrez O1-MinI
  • Mathématiques avec O1 Mini
  • Qui peut utiliser O1-Preview?
  • Comment accéder à O1-Preview?
  • La sécurité est également importante
  • Quelle est la prochaine étape?
  • Réflexions finales

Quel est le gros problème?

Les modèles O1-Preview sont formés pour prendre du recul et réfléchir vraiment, tout comme un humain face à un problème difficile. Ils considèrent différentes approches, affinent leurs pensées et ont même attrapé leurs propres erreurs en cours de route. Ce niveau de réflexion plus profond leur permet de résoudre des problèmes que les modèles plus anciens ne pouvaient pas gérer.

Cas d'utilisation d'Openai O1

Codage avec openai o1

Écrire des puzzles avec Openai O1

HTML Snake avec Openai O1

Résultats de test impressionnants

Pour voir à quel point l'O1 est meilleur par rapport au modèle GPT-4O précédent, OpenAI les a fait passer une série de tests difficiles, y compris les examens humains et les références d'apprentissage automatique. Et devinez quoi? O1 a surpassé le GPT-4O sur la plupart de ces tâches de raisonnement!

Décomposons certains des résultats:

Concours de mathématiques avancées

Ils ont testé les modèles sur l' AIME (American Invitational Mathematics Examination) , qui est un examen de mathématiques super difficile pour les meilleurs lycéens aux États-Unis

  • GPT-4O : a résolu environ 12% des problèmes (environ 1,8 sur 15 questions).
  • Openai O1 : résolu 74% avec une seule tentative par problème (environ 11,1 sur 15). Lorsqu'ils ont laissé le modèle essayer plusieurs fois et ont pris la réponse la plus courante, il a obtenu un score de 83% . En utilisant des méthodes encore plus avancées, il a atteint 93% , résolvant environ 13,9 sur 15 problèmes!

Pour mettre cela en perspective, un score de 13,9 placerait l'O1 parmi les 500 meilleurs étudiants à l'échelle nationale et au-dessus du seuil pour l' Olympiade mathématique des États-Unis . C'est un cerveau sérieux!

Expertise scientifique

Ils ont également évalué l'O1 sur GPQA-Diamond , une référence difficile qui teste les connaissances en chimie, en physique et en biologie. Openai a même fait venir des experts avec des doctorants pour répondre à ces questions.

  • Résultat : O1 a surpassé ces experts humains, devenant le premier modèle d'IA à le faire sur cette référence! Cela montre que l'O1 peut résoudre des problèmes scientifiques complexes à un niveau très élevé.

Codage

Dans le codage de concours comme Codeforces, les nouveaux modèles ont atteint le 89e centile , montrant qu'ils peuvent générer et déboguer le code complexe avec facilité.

Openai O1: un nouveau modèle qui «pense» avant de répondre aux problèmes

Autres repères et compréhension visuelle

Mais ce n'est pas tout! Le modèle O1 a également montré des améliorations significatives dans d'autres domaines:

Comprendre les informations visuelles (perception de la vision)

Le modèle O1 peut désormais interpréter et comprendre les images - une capacité connue sous le nom de perception de la vision . Cela signifie qu'il peut analyser les données visuelles et répondre aux questions à ce sujet, ce qui est un grand pas en avant pour l'IA.

Test d'imagerie médicale (référence MMMU)

OpenAI a testé O1 sur une référence difficile appelée MMMU (qui signifie Multimodal Medical Machine Comprendre ). Ce test évalue la façon dont une IA peut comprendre les images médicales et faire des évaluations précises, similaires aux tâches effectuées par des professionnels de la santé.

Résultat : O1 a marqué 78,2% sur ce test, ce qui en fait le premier modèle d'IA à fonctionner à un niveau comparable aux experts humains en imagerie médicale. Ceci est énorme parce que la compréhension et l'interprétation des images médicales nécessite des connaissances approfondies et une précision.

Large éventail de connaissances (référence MMLU)

Le modèle O1 a également été testé sur la référence MMLU (Multi-Multitasc Language Comprendre) , qui couvre 57 sujets différents allant de l'histoire et de la littérature aux mathématiques et à l'informatique.

Résultat : O1 a surpassé le GPT-4O dans 54 des 57 sujets! Cela montre que l'O1 n'est pas seulement spécialisé dans un domaine - il démontre une meilleure compréhension à travers un large éventail de sujets.

Openai O1: un nouveau modèle qui «pense» avant de répondre aux problèmes

En termes plus simples, la capacité d'O1 à comprendre à la fois le texte et les images signifie qu'elle devient plus polyvalente et capable. Qu'il s'agisse d'analyser des images médicales complexes, de résoudre des problèmes mathématiques avancés ou de répondre à des questions sur diverses matières, O1 établit de nouvelles normes pour ce que l'IA peut faire.

Rencontrez O1-MinI

OpenAI a également introduit O1-Mini , une version plus petite, plus rapide et plus abordable du modèle O1-Preview qui est particulièrement bon dans les tâches de codage. Il est 80% moins cher , ce qui en fait une excellente option pour les développeurs qui ont besoin de capacités de raisonnement puissantes sans se ruiner.

Nous publions également Openai O1-MinI, un modèle de raisonnement rentable qui excelle à STEM, en particulier les mathématiques et le codage.https: //t.co/wfvvczifev

- Openai (@openai) 12 septembre 2024

Mathématiques avec O1 Mini

Lire aussi: O1-Mini d'Openai: un modèle qui change la donne pour la tige avec un raisonnement rentable

Qui peut utiliser O1-Preview?

Ces nouveaux modèles changent la donne pour quiconque traitait des problèmes complexes:

  • Chercheurs et scientifiques : Ils peuvent aider à annoter les données de séquençage des cellules ou générer des formules complexes nécessaires dans des domaines comme la physique quantique.
  • Développeurs : la construction et l'exécution de workflows en plusieurs étapes devient plus facile et plus efficace.
  • Étudiants et éducateurs : Ils offrent une nouvelle façon d'explorer des concepts difficiles en mathématiques et en sciences.

Comment accéder à O1-Preview?

Chatgpt Plus et utilisateurs de l'équipe : vous pouvez accéder aux modèles O1-Preview et O1-MinI dans Chatgpt à partir d'aujourd'hui. Sélectionnez-les simplement dans le cueilleur de modèle. Il y a des limites de messages hebdomadaires pour l'instant (30 messages pour O1-Preview et 50 pour O1-MinI), mais OpenAI travaille bientôt à augmenter ces limites.

Openai O1: un nouveau modèle qui «pense» avant de répondre aux problèmes

  • ChatGPT Enterprise et Utilisateurs d'Edu : vous aurez accès aux deux modèles à partir de la semaine prochaine.
  • Développeurs : Si vous êtes dans le niveau 5 de l'API, vous pouvez commencer à expérimenter ces modèles via l'API aujourd'hui. Certaines fonctionnalités telles que l'appel de fonction et le streaming ne sont pas encore disponibles, mais elles sont en route.
  • Utilisateurs gratuits de Chatgpt : Excellentes nouvelles! OpenAI prévoit de mettre O1-MinI à la disposition de tous les utilisateurs gratuits bientôt.

La sécurité est également importante

OpenAI a également intensifié les caractéristiques de sécurité avec ces modèles. Ils ont été formés pour mieux comprendre et suivre les directives de sécurité en raisonnant les règles lors des conversations. Cela signifie qu'ils sont moins susceptibles d'être trompés pour faire quelque chose qu'ils ne devraient pas (vous pourriez avoir entendu parler de modèles d'IA «jailbreakés»).

Dans les tests de sécurité difficiles, le modèle O1-Preview a marqué 84 sur 100 , par rapport au score de GPT-4O de 22 . C'est une amélioration significative, montrant qu'ils sont bien meilleurs pour rester dans des limites sûres et appropriées.

OpenAI travaille en étroite collaboration avec des organisations de sécurité aux États-Unis et au Royaume-Uni, ils ont même donné à ces instituts un accès précoce aux modèles pour aider à la recherche et s'assurer que tout est à la hauteur.

Quelle est la prochaine étape?

Ce n'est que le début. OpenAI prévoit des mises à jour et des améliorations régulières de ces modèles. Ils cherchent à ajouter des fonctionnalités comme la navigation sur le Web, le téléchargement de fichiers et d'images, et plus encore pour les rendre encore plus utiles.

Ils continuent également de développer des modèles dans la série GPT aux côtés de cette nouvelle série O1, donc il y a beaucoup à espérer.

Réflexions finales

Le lancement des modèles O1-Preview et O1-Mini est un gros problème dans le monde de l'IA. Ils représentent une étape importante dans la façon dont l'IA peut raisonner à travers des problèmes complexes. Avec de meilleures performances et des mesures de sécurité améliorées, ces modèles sont prêts à changer la donne pour de nombreuses personnes travaillant sur des tâches difficiles.

Restez à l'écoute sur Analytics Vidhya Blog pour en savoir plus sur les utilisations de O1 et O1 Mini!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Explorer les mouvements: reconnaissance vidéo mobile efficaceExplorer les mouvements: reconnaissance vidéo mobile efficaceApr 16, 2025 am 10:25 AM

Introduction Plongeons-nous dans le monde fascinant de la reconnaissance vidéo mobile avec «Movinets Unleashed»! Ce blog vous emmène dans une exploration de la façon dont les mouvements transforment l'analyse vidéo sur les appareils mobiles, CO

Pandas vs polairesPandas vs polairesApr 16, 2025 am 10:24 AM

Introduction Imaginez que vous êtes jusqu'aux genoux dans un projet de données, en luttant avec des ensembles de données massifs et en chasse les modèles aussi rapidement que possible. Vous atteignez votre outil de manipulation de données incontournable, mais que se passe-t-il si une meilleure option existe? Entrez en polaires, un relativement NE

Rôle d'un analyste commercial informatiqueRôle d'un analyste commercial informatiqueApr 16, 2025 am 10:19 AM

Introduction Envisager une entreprise informatique dynamique sur le point de lancer un logiciel innovant. Bien que l'excitation soit élevée, un défi clé émerge: combler l'écart entre les développeurs techniques et les parties prenantes d'entreprise. C'est là que l'analyste commercial informatique

Programme factoriel à PythonProgramme factoriel à PythonApr 16, 2025 am 10:13 AM

Introduction Imaginez préparer un plat avec un profil de saveur souhaité spécifique; La séquence correcte d'étapes est cruciale. De même, en mathématiques et en programmation, le calcul du fait qu'un nombre nécessite une séquence précise de multiplicatio

Alternatives de flux d'air pour l'orchestration de données - Analytics VidhyaAlternatives de flux d'air pour l'orchestration de données - Analytics VidhyaApr 16, 2025 am 09:55 AM

Introduction Apache Airflow est un composant crucial de l'orchestration des données et est connu pour sa capacité à gérer les flux de travail complexes et à automatiser les pipelines de données. De nombreuses organisations l'ont choisi en raison de sa flexibilité et de sa flexibilité

Comment pouvez-vous vous inscrire au NVIDIA AI Summit 2024?Comment pouvez-vous vous inscrire au NVIDIA AI Summit 2024?Apr 16, 2025 am 09:49 AM

Le Nvidia AI Summit 2024: une plongée profonde dans la révolution de l'IA de l'Inde Après le Datahack Summit 2024, l'Inde se prépare pour le NVIDIA AI Summit 2024, prévue du 23 au 25 octobre au Jio World Convention Center à Mumbai. Ce bal d'événement pivot

Qu'est-ce que Sqlite?Qu'est-ce que Sqlite?Apr 16, 2025 am 09:48 AM

Introduction Imaginez un moteur de base de données rapide et simple - aucune configuration nécessaire - qui s'intègre directement dans vos applications et offre une prise en charge SQL robuste sans serveur. C'est SQLite, largement utilisé dans les applications et les navigateurs Web pour sa facilité de U

Aujourd'hui, j'ai essayé les logiciels de mots rôtis, et c'est hilarant - analytique vidhyaAujourd'hui, j'ai essayé les logiciels de mots rôtis, et c'est hilarant - analytique vidhyaApr 16, 2025 am 09:37 AM

Soyez torréfié par une IA! Une plongée hilarante dans les logiciels de mots AI Les vidéos rôties YouTube sont extrêmement populaires, mais avez-vous déjà été torréfiée par l'intelligence artificielle? J'ai récemment connu la colère comique de Wordware AI, et c'était un ex humiliant hilarant

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),