


Openai a été le premier à introduire des modèles de raisonnement comme O1 et O1-Mini, mais est-ce le seul joueur du jeu? Pas de loin! Les LLM chinois comme Deepseek, Qwen et maintenant Kimi intensiflent pour défier OpenAI en offrant des capacités similaires à des prix beaucoup plus abordables. Après les débuts impressionnants de Deepseek, c'est au tour de Kimi Ai de briller avec son nouveau modèle Kimi K1.5. Dans cet article, nous testerons Kimi K1.5 contre Openai O1 sur les mêmes tâches et verrons lequel est le meilleur!
Table des matières
- Qu'est-ce que Kimi K1.5?
- Kimi K1.5 VS OpenAI O1 et O1-MINI
- Tâche 1: Puzzle zèbre
- Tâche 2: raisonnement logique
- Tâche 3: Créer un site HTML
- Tâche 3: Créer un site HTML
- Tâche 4: Tâche 3: Recherche
- Tâche 5: Analyse d'image
- Résultat final: Kimi K1.5 vs Openai O1
Conclusion
Veuillez noter:
Veuillez noter: Kimi K1.5 est gratuit, tout en accédant à ChatGpt Plus pour O1 et O1-MinI coûte 20 $. Avant de plonger dans les tâches, comparons les deux modèles.Qu'est-ce que Kimi K1.5?
Kimi K1.5 est un LLM multimodal de Moonshot AI qui est formé avec l'apprentissage par renforcement (RL) et conçu pour exceller dans diverses tâches de raisonnement à travers le texte, la vision et le codage. Lancé récemment, Kimi K1.5 a rapidement attiré l'attention pour ses performances impressionnantes, correspondant aux capacités du modèle O1 d'Openai sans l'aperçu ou les mini-suffixes.
- Caractéristiques clés
- complètement gratuit avec une utilisation illimitée
- Recherche Web en temps réel sur 100 sites Web
- Analyser jusqu'à 50 fichiers (PDF, documents, ppts, images) avec facilité
- Raisonnement avancé du COT, disponible sans frais
Compréhension améliorée de l'image, allant au-delà de l'extraction de texte de base
- Lisez également:
- Openai O1: la nouvelle série de modèles d'Openai
O1-MinI: un modèle qui change la donne pour la tige et le raisonnement
kimi k1.5 vs openai o1 et o1-min Kimi K1.5 correspond à O1 et O1-MINI d'OpenAI dans les tâches longues et surpasse GPT-4O et Claude Sonnet 3.5 dans les tâches courtes. Ses capacités multimodales, en particulier dans le raisonnement visuel, la positionnent comme un solide concurrent aux modèles d'Openai. L'utilisation de techniques de formation RL, de recettes de données multimodales et d'optimisation des infrastructures a été essentielle pour obtenir ces résultats.
K1.5 Modèle long de COT: Avançant le raisonnement multimodal
Le modèle de COT long Kimi K1.5 obtient des performances à la pointe de la technologie (SOTA) grâce à une combinaison de mise à l'échelle à long contexte, de méthodes d'optimisation des politiques améliorées et d'apprentissage en renforcement de texte visuel (RL). Contrairement à la prédiction du modèle de langue traditionnel, qui repose sur la prédiction suivante et est limitée par les données de formation disponibles, Kimi K1.5 exploite RL pour évoluer ses données de formation en apprenant à explorer avec des récompenses. Cette approche établit un cadre RL simpliste mais efficace, évitant les techniques complexes comme les fonctions de recherche ou de valeur de Monte Carlo.
Les références clés mettent en évidence les performances exceptionnelles du modèle:
- Raisonnement mathématique : scores de 96,2 sur les modèles MATH-500 et 77,5 sur AIME 2024, correspondant aux modèles O1 et O1-Mini d'OpenAI.
- Programmation : 94e centile sur les forces de code, excellant dans la programmation compétitive.
- Raisonnement visuel : 74.9 sur Mathvista, présentant une forte intégration multimodale.
La capacité du modèle à gérer les tâches à long contexte comme la planification, la réflexion et la correction est améliorée par les déploiements partiels pendant l'entraînement, l'amélioration de l'efficacité et des performances.
K1.5 Modèle court-circuit: efficacité et performances
Le modèle court-circuit s'appuie sur le succès du modèle de CTOT long, en utilisant des méthodes longues efficaces pour distiller les techniques de CTOT long dans un cadre plus efficace. Cette approche combine un réglage fin, un apprentissage du renforcement et une distillation de longue date, offrant un raisonnement rapide et précis pour les tâches de contexte court.
Les réalisations notables incluent:
- Raisonnement mathématique : scores de 94,6 sur MATH-500 et 60,8 sur AIME 2024, surperformant des modèles de reproches existants comme GPT-4O et Claude Sonnet 3.5 jusqu'à 550%.
- Programmation : 47.3 sur livecodebench, excellant dans la génération de code et les tâches de débogage.
- compréhension du langage naturel : efficace pour les applications en temps réel comme les chatbots et les assistants virtuels.
Les techniques de distillation de longue date, y compris la fusion de modèles et l'échantillonnage de rejet le plus court, assurent des performances élevées avec des coûts de calcul réduits, ce qui rend le modèle court-circuit très efficace.
Pour en savoir plus, vous pouvez vérifier leur document de recherche ici!
Maintenant, évaluons Kimi K1.5 et Openai O1 sur les mêmes invites!
Tâche 1: puzzle zèbre
Invite: Résolvez correctement ce puzzle zèbre.
Réponse Openai O1:
Collector Position | Nationality | Lot | Amount Spent | Shirt Color |
---|---|---|---|---|
Collector #1 | Portuguese | Toy | Unknown | Blue |
Collector #2 | Japanese | Lot 40 | 0,000 | Purple |
Collector #3 | Italian | Lot 30 | 0,000 | Pink |
Collector #4 | Canadian | Unknown | 0,000 | Yellow |
Collector #5 | Unknown | Unknown | 0,000 | Unknown |
Kimi K1.5 Réponse:
Collector # | Nationality | Lot | Item | Amount | Shirt Color |
---|---|---|---|---|---|
1 | Italian | 30 | Clock | 0,000 | Blue |
2 | Japanese | 40 | Painting | 0,000 | Purple |
3 | Canadian | 10 | Vase | 0,000 | Pink |
4 | Portuguese | 34 | Toy | 0,000 | Yellow |
5 | (Unknown) |
Observation:
La réponse fournie par OpenAI O1 est significativement inexacte. Le tableau résultant n'adhère pas au format requis spécifié dans la question, ce qui rend la réponse peu fiable. D'un autre côté, Kimi K1.5 a fourni une réponse dans le format correct selon la question, mais le contenu de la réponse elle-même est incorrect.
Verdict:
openai o1: ❌ | Kimi K1.5: ❌
Tâche 2: raisonnement logique
Invite: Vous entrez dans une pièce et voyez un lit. Sur le lit, il y a deux chiens, quatre chats, une girafe, cinq vaches et un canard. Il y a aussi trois chaises et une table. Combien de jambes est sur le sol?
Réponse Openai O1:
Kimi K1.5 Réponse:
Observation:
Réponse correcte: 22 (2 (humain) 4 (tableau) 4 (lit) 12 (3 chaises))
Openai O1 a pris trop de temps pour générer la réponse. Bien que les calculs soient corrects et comprenaient une explication détaillée, il n'a pas tenu compte des jambes humaines sur le sol, ce qui rend sa réponse incorrecte. En revanche, Kimi K1.5 a fourni la bonne réponse en moins de temps.
Verdict:
openai o1: ❌ | Kimi K1.5: ✅
Tâche 3: Créez un site HTML
Invite: Créez une page HTML simple avec un bouton qui modifie la couleur d'arrière-plan en rose lorsqu'il est cliqué avec des confettis .
Réponse Openai O1:
Kimi K1.5 Réponse:
Observation:
Les deux modèles ont adhéré à l'invite et ont fourni des réponses correctes. En termes de look et de fonctionnalité de la page Web, Kimi K1.5 fait un bien meilleur travail!
Verdict:
openai o1: ❌ | Kimi K1.5: ✅
Tâche 4: Recherche Web
Invite: Lire l'article - https://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/ pour comprendre le processus de création d'une base de données vectorielle pour les données Wikipedia. Résumez les étapes clés de manière concise.
Réponse Openai O1:
Points clés pour résumer le processus de création d'une base de données vectorielle pour les données Wikipedia:
- Collectez les données : Obtenez des articles Wikipedia à partir de vidages ou d'API.
- Texte du prétraitement : Nettoyez le texte et divisez-le en «morceaux» plus petits et cohérents. »
- Sélectionnez un modèle d'incorporation : Utilisez un modèle de langue (par exemple, Openai Embeddings) pour convertir des morceaux de texte en vecteurs numériques.
- Générer des intérêts : Pour chaque morceau, produisez sa représentation vectorielle sémantique.
- Configurez une base de données vectorielle : Choisissez un magasin vectoriel (par exemple, Pinecone, Weavate, Faish, Chrom) pour stocker et indexer les intégres.
- Insérer des vecteurs : Chargez tous les vecteurs de morceaux et les métadonnées associées (par exemple, références d'article d'origine) dans la base de données.
- Test Retrieval : Interrogez la base de données avec une question vectorisée pour garantir que des morceaux de wikipedia pertinents sont renvoyés.
- Optimiser et intégrer : Utilisez l'indexation et l'intégration avec un pipeline de génération (RAG) de récupération (RAG) pour une récupération efficace et précise d'informations.
Kimi K1.5 Réponse:
L'article «Un guide complet pour construire des systèmes de chiffon agentiques avec Langgraph» décrit le processus de création d'une base de données vectorielle pour les données Wikipedia dans le cadre de la création d'un système de chiffon agentique. Voici les étapes clés résumées:
- Installez les dépendances : Installez les bibliothèques nécessaires telles que Langchain, Langchain-Openai, Langchain-Community, Langgraph et Langchain-chroma.
- Entrez les clés de l'API : Entrez en toute sécurité les touches API pour OpenAI et recherchez Tavily en utilisant la fonction GetPass pour éviter de les exposer dans le code.
- Variables d'environnement de configuration : Définir les variables d'environnement pour les touches API OpenAI et Tavily.
- Charger les données Wikipedia :
- Téléchargez les données Wikipedia à partir d'un lien Google Drive fourni ou utilisez un fichier d'archive local.
- Extraire et charger les données dans une liste de documents.
- Documents de morceaux ::
- Utilisez un séparateur de texte pour diviser les documents en morceaux plus petits et gérables.
- L'article utilise RecursiVeCaracterTextStSitter pour diviser les documents en morceaux d'environ 2000 caractères avec un chevauchement de 300 caractères.
- Créer une base de données vectorielle :
- Initialiser un client de base de données de vecteur de chroma.
- Utilisez le modèle d'incorporation d'OpenAI (text-emballeur-3-Small) pour convertir des morceaux de document en intégres.
- Stockez les morceaux de document et leurs intérêts dans l'index de la base de données vectorielle, spécifiant la similitude de la cosinus comme fonction de distance.
- Configuration de la base de données vectorielle Retriever :
- Configurez un retriever pour récupérer les 3 principaux documents les plus similaires en fonction de la similitude des cosinus.
- Définissez un seuil de similitude (par exemple, 0,3) pour filtrer les documents qui ne sont pas suffisamment similaires à la requête.
- Testez le retriever :
- Testez le retriever avec des échantillons de requêtes pour vous assurer qu'il renvoie des documents pertinents.
- Pour les requêtes sans documents pertinents dans la base de données vectorielle, le retriever doit renvoyer une liste vide.
Observation:
La sortie de Kimi K1.5 excelle en fournissant des étapes de mise en œuvre détaillées et exploitables avec des paramètres techniques spécifiques et des exigences de bibliothèque. Il équilibre une profondeur complète avec une organisation claire, explique le raisonnement derrière chaque étape et relie efficacement le processus technique à l'objectif plus large de construire un système de chiffon agentique.
Verdict:
openai o1: ❌ | Kimi K1.5: ✅
Tâche 5: Analyse d'image
Invite: L'image montre un schéma très simplifié d'un centre de données dans l'espace, avec des hypothèses simplificatrices qui nécessitent une justification.
tâches :
estimer la limite inférieure de la surface du radiateur requise pour le centre de données.
Adressez à gérer le soleil et l'espace profond dans le contexte de la gestion thermique.
Image d'entrée:
Réponse Openai O1:
Vous trouverez ci-dessous un processus de raisonnement étape par étape avec des hypothèses, des justifications et de l'application de la première loi de la thermodynamique. Le résultat final sera une limite inférieure sur la zone du radiateur requise pour dissiper 1 GW de chaleur générée par un centre de données spatial.
Hypothèses clés et simplifications
1. Entrée d'alimentation et génération de chaleur:
Supposons que le centre de données est alimenté par une source d'alimentation solaire de 1 GW. La quasi-totalité de l'énergie électrique consommée par les GPU sera convertie en chaleur (la conversion d'énergie électrique à thermique est essentiellement 100% à l'état stable car toute l'énergie électrique non stockée doit éventuellement se dissiper sous forme de chaleur). Ainsi, la chaleur des déchets à éliminer est d'environ 1 GW = 1 × 10 ^ 9 W.
2. Transfert de chaleur radiatif uniquement:
Dans l'espace, il n'y a pas de refroidissement convectif ou conducteur dans l'environnement - seulement un transfert de chaleur radiatif. Par conséquent, le mode primaire de rejet de chaleur est le rayonnement thermique d'une surface de radiateur dans l'espace profond.
3. Émissivité et absorptivité:
Supposons que le radiateur est construit avec une surface à haute émissivité, Sayε = 0,9 ε = 0,9. Ceci est plausible pour les surfaces recouvertes de certaines peintures ou matériaux à haute émissivité. Pour une limite inférieure sur la zone requise, nous supposons des conditions idéales:
- Le radiateur est principalement éloigné du soleil pour minimiser l'absorptation solaire.
Kimi K1.5 Réponse:
Pour estimer la limite inférieure de la surface du radiateur requise pour le centre de données dans l'espace, je commence par appliquer la loi Stefan-Boltzmann, qui décrit la puissance rayonnée par une surface:
Pour gérer le soleil et l'espace profond dans la gestion thermique, le centre de données doit être protégé de la lumière directe du soleil à l'aide d'un Sunshade ou positionné dans un endroit où il n'est pas exposé au soleil, comme le côté obscur d'une planète ou de la lune. Le radiateur doit être conçu pour rayonner efficacement la chaleur dans le vide de l'espace, qui est extrêmement froid.
La première loi de la thermodynamique s'applique à ce scénario en veillant à ce que la chaleur générée par l'équipement du centre de données soit égale à la chaleur rayonnée par le radiateur. Cette loi garantit que l'énergie totale du système reste constante, la chaleur générée étant entièrement prise en compte dans la conception du radiateur.
La limite inférieure de la surface du radiateur requise est approximativement 766 mètres carrés . Le centre de données doit être protégé de la lumière directe du soleil et le radiateur doit être optimisé pour la dissipation de chaleur dans le vide de l'espace pour maintenir l'équilibre thermique.
Observation:
La réponse de Kimi K1.5 est supérieure pour plusieurs raisons. Il démontre un raisonnement mathématique clair à travers une approche étape par étape, à commencer par l'équation fondamentale de la loi de Stefan-Boltzmann. Kimi définit clairement toutes les variables et leurs valeurs, montre le processus mathématique de résolution de la zone du radiateur et fournit un résultat numérique concret de 766 mètres carrés. L'explication comprend des justifications claires pour les stratégies de gestion thermique, des considérations pratiques telles que le positionnement du radiateur du côté obscur d'une planète et une connexion directe à la première loi de la thermodynamique avec une application du monde réel. La réponse se termine par des nombres spécifiques et des recommandations exploitables.En revanche, la réponse d'Openai O1 reste plus théorique, en se concentrant sur les hypothèses générales et la configuration plutôt que de terminer le calcul réel. Il n'a pas de solution numérique concrète et ne traite pas entièrement de l'aspect de la gestion thermique, ce qui le rend moins pratique et réalisable par rapport à l'approche détaillée et orientée vers la solution de Kimi K1.5.
Verdict:
openai o1: ❌ | Kimi K1.5: ✅
Résultat final: Kimi K1.5 vs Openai O1
Résultats de la tâche
Task | Winner |
---|---|
Zebra Puzzle | Neither |
Logical Reasoning | Kimi k1.5 |
Create an HTML Site | Kimi k1.5 |
Web Search | Kimi k1.5 |
Image Analysis | Kimi k1.5 |
Conclusion
Des modèles gratuits comme Kimi K1.5 et Deepseek R1 remettent en question la domination d'Openai O1, offrant des performances supérieures dans le raisonnement, le codage et les tâches multimodales sans frais. Avec Kimi K1.5 surperformant Openai dans des références clés et en profondeur R1 excellant dans les défis de codage, paie 20 $ / mois pour Openai O1 toujours justifié? Faites-nous savoir dans la section des commentaires ci-dessous!
Restez à l'écoute du blog Analytics Vidhya pour plus de contenu aussi génial!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

La crise de la capacité en plein essor sur le lieu de travail, exacerbé par l'intégration rapide de l'IA, exige un changement stratégique au-delà des ajustements progressifs. Ceci est souligné par les conclusions de la WTI: 68% des employés ont du mal avec la charge de travail, ce qui mène à Bur

Argument de la salle chinoise de John Searle: un défi à la compréhension de l'IA L'expérience de pensée de Searle se demande directement si l'intelligence artificielle peut vraiment comprendre la langue ou posséder une véritable conscience. Imaginez une personne, ignorant des chines

Les géants de la technologie chinoise tracent un cours différent dans le développement de l'IA par rapport à leurs homologues occidentaux. Au lieu de se concentrer uniquement sur les références techniques et les intégrations API, ils privilégient les assistants de l'IA "Ai-Ai" - AI T

MCP: Empower les systèmes AI pour accéder aux outils externes Le protocole de contexte du modèle (MCP) permet aux applications d'IA d'interagir avec des outils externes et des sources de données via des interfaces standardisées. Développé par anthropique et soutenu par les principaux fournisseurs d'IA, MCP permet aux modèles de langue et aux agents de découvrir des outils disponibles et de les appeler avec des paramètres appropriés. Cependant, il existe certains défis dans la mise en œuvre des serveurs MCP, y compris les conflits environnementaux, les vulnérabilités de sécurité et le comportement multiplateforme incohérent. L'article de Forbes "Le protocole de contexte du modèle d'Anthropic est une grande étape dans le développement des agents de l'IA", auteur: Janakiram Msvdocker résout ces problèmes par la conteneurisation. Doc construit sur l'infrastructure Docker Hub

Six stratégies employées par des entrepreneurs visionnaires qui ont exploité des technologies de pointe et un sens des affaires astucieux pour créer des entreprises très rentables et évolutives tout en gardant le contrôle. Ce guide est destiné aux aspirants entrepreneurs visant à construire un

Le nouvel outil Ultra HDR de Google Photos: un changeur de jeu pour l'amélioration de l'image Google Photos a introduit un puissant outil de conversion Ultra HDR, transformant des photos standard en images vibrantes et à grande échelle. Cette amélioration profite aux photographes

L'architecture technique résout les défis d'authentification émergents Le centre d'identité agentique aborde un problème que de nombreuses organisations ne découvrent que après avoir commencé à mettre en œuvre l'agent d'IA que les méthodes d'authentification traditionnelles ne sont pas conçues pour la machine.

(Remarque: Google est un client consultatif de mon entreprise, Moor Insights & Strategy.) AI: de l'expérience à la fondation d'entreprise Google Cloud Next 2025 a présenté l'évolution de l'IA de la fonctionnalité expérimentale à un composant central de la technologie d'entreprise, Stream


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

Dreamweaver Mac
Outils de développement Web visuel

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.
