Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?-IA-php.cn

Maison

Périphériques technologiques

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Joseph Gordon-Levitt

Mar 07, 2025 am 09:26 AM

Openai a été le premier à introduire des modèles de raisonnement comme O1 et O1-Mini, mais est-ce le seul joueur du jeu? Pas de loin! Les LLM chinois comme Deepseek, Qwen et maintenant Kimi intensiflent pour défier OpenAI en offrant des capacités similaires à des prix beaucoup plus abordables. Après les débuts impressionnants de Deepseek, c'est au tour de Kimi Ai de briller avec son nouveau modèle Kimi K1.5. Dans cet article, nous testerons Kimi K1.5 contre Openai O1 sur les mêmes tâches et verrons lequel est le meilleur!

Table des matières

Qu'est-ce que Kimi K1.5?
Kimi K1.5 VS OpenAI O1 et O1-MINI
Tâche 1: Puzzle zèbre
Tâche 2: raisonnement logique
Tâche 3: Créer un site HTML

Conclusion

Veuillez noter:

Veuillez noter: Kimi K1.5 est gratuit, tout en accédant à ChatGpt Plus pour O1 et O1-MinI coûte 20 $. Avant de plonger dans les tâches, comparons les deux modèles.

Qu'est-ce que Kimi K1.5?

Kimi K1.5 est un LLM multimodal de Moonshot AI qui est formé avec l'apprentissage par renforcement (RL) et conçu pour exceller dans diverses tâches de raisonnement à travers le texte, la vision et le codage. Lancé récemment, Kimi K1.5 a rapidement attiré l'attention pour ses performances impressionnantes, correspondant aux capacités du modèle O1 d'Openai sans l'aperçu ou les mini-suffixes.

Caractéristiques clés

Compréhension améliorée de l'image, allant au-delà de l'extraction de texte de base

Lisez également:

O1-MinI: un modèle qui change la donne pour la tige et le raisonnement

kimi k1.5 vs openai o1 et o1-min Kimi K1.5 correspond à O1 et O1-MINI d'OpenAI dans les tâches longues et surpasse GPT-4O et Claude Sonnet 3.5 dans les tâches courtes. Ses capacités multimodales, en particulier dans le raisonnement visuel, la positionnent comme un solide concurrent aux modèles d'Openai. L'utilisation de techniques de formation RL, de recettes de données multimodales et d'optimisation des infrastructures a été essentielle pour obtenir ces résultats.

K1.5 Modèle long de COT: Avançant le raisonnement multimodal

Le modèle de COT long Kimi K1.5 obtient des performances à la pointe de la technologie (SOTA) grâce à une combinaison de mise à l'échelle à long contexte, de méthodes d'optimisation des politiques améliorées et d'apprentissage en renforcement de texte visuel (RL). Contrairement à la prédiction du modèle de langue traditionnel, qui repose sur la prédiction suivante et est limitée par les données de formation disponibles, Kimi K1.5 exploite RL pour évoluer ses données de formation en apprenant à explorer avec des récompenses. Cette approche établit un cadre RL simpliste mais efficace, évitant les techniques complexes comme les fonctions de recherche ou de valeur de Monte Carlo.

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Les références clés mettent en évidence les performances exceptionnelles du modèle:

Raisonnement mathématique : scores de 96,2 sur les modèles MATH-500 et 77,5 sur AIME 2024, correspondant aux modèles O1 et O1-Mini d'OpenAI.
Programmation : 94e centile sur les forces de code, excellant dans la programmation compétitive.
Raisonnement visuel : 74.9 sur Mathvista, présentant une forte intégration multimodale.

La capacité du modèle à gérer les tâches à long contexte comme la planification, la réflexion et la correction est améliorée par les déploiements partiels pendant l'entraînement, l'amélioration de l'efficacité et des performances.

K1.5 Modèle court-circuit: efficacité et performances

Le modèle court-circuit s'appuie sur le succès du modèle de CTOT long, en utilisant des méthodes longues efficaces pour distiller les techniques de CTOT long dans un cadre plus efficace. Cette approche combine un réglage fin, un apprentissage du renforcement et une distillation de longue date, offrant un raisonnement rapide et précis pour les tâches de contexte court.

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Les réalisations notables incluent:

Raisonnement mathématique : scores de 94,6 sur MATH-500 et 60,8 sur AIME 2024, surperformant des modèles de reproches existants comme GPT-4O et Claude Sonnet 3.5 jusqu'à 550%.
Programmation : 47.3 sur livecodebench, excellant dans la génération de code et les tâches de débogage.
compréhension du langage naturel : efficace pour les applications en temps réel comme les chatbots et les assistants virtuels.

Les techniques de distillation de longue date, y compris la fusion de modèles et l'échantillonnage de rejet le plus court, assurent des performances élevées avec des coûts de calcul réduits, ce qui rend le modèle court-circuit très efficace.

Pour en savoir plus, vous pouvez vérifier leur document de recherche ici!

Maintenant, évaluons Kimi K1.5 et Openai O1 sur les mêmes invites!

Tâche 1: puzzle zèbre

Invite: Résolvez correctement ce puzzle zèbre.

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Réponse Openai O1:

Détails du collecteur

Collector Position	Nationality	Lot	Amount Spent	Shirt Color
Collector #1	Portuguese	Toy	Unknown	Blue
Collector #2	Japanese	Lot 40	0,000	Purple
Collector #3	Italian	Lot 30	0,000	Pink
Collector #4	Canadian	Unknown	0,000	Yellow
Collector #5	Unknown	Unknown	0,000	Unknown

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Kimi K1.5 Réponse:

Détails du collecteur

Collector #	Nationality	Lot	Item	Amount	Shirt Color
1	Italian	30	Clock	0,000	Blue
2	Japanese	40	Painting	0,000	Purple
3	Canadian	10	Vase	0,000	Pink
4	Portuguese	34	Toy	0,000	Yellow
5	(Unknown)

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Observation:

La réponse fournie par OpenAI O1 est significativement inexacte. Le tableau résultant n'adhère pas au format requis spécifié dans la question, ce qui rend la réponse peu fiable. D'un autre côté, Kimi K1.5 a fourni une réponse dans le format correct selon la question, mais le contenu de la réponse elle-même est incorrect.

Verdict:

openai o1: ❌ | Kimi K1.5: ❌

Tâche 2: raisonnement logique

Invite: Vous entrez dans une pièce et voyez un lit. Sur le lit, il y a deux chiens, quatre chats, une girafe, cinq vaches et un canard. Il y a aussi trois chaises et une table. Combien de jambes est sur le sol?

Réponse Openai O1:

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Kimi K1.5 Réponse:

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Observation:

Réponse correcte: 22 (2 (humain) 4 (tableau) 4 (lit) 12 (3 chaises))

Openai O1 a pris trop de temps pour générer la réponse. Bien que les calculs soient corrects et comprenaient une explication détaillée, il n'a pas tenu compte des jambes humaines sur le sol, ce qui rend sa réponse incorrecte. En revanche, Kimi K1.5 a fourni la bonne réponse en moins de temps.

Verdict:

openai o1: ❌ | Kimi K1.5: ✅

Tâche 3: Créez un site HTML

Invite: Créez une page HTML simple avec un bouton qui modifie la couleur d'arrière-plan en rose lorsqu'il est cliqué avec des confettis .

Réponse Openai O1:

Kimi K1.5 Réponse:

Observation:

Les deux modèles ont adhéré à l'invite et ont fourni des réponses correctes. En termes de look et de fonctionnalité de la page Web, Kimi K1.5 fait un bien meilleur travail!

Verdict:

openai o1: ❌ | Kimi K1.5: ✅

Tâche 4: Recherche Web

Invite: Lire l'article - https://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/ pour comprendre le processus de création d'une base de données vectorielle pour les données Wikipedia. Résumez les étapes clés de manière concise.

Réponse Openai O1:

Points clés pour résumer le processus de création d'une base de données vectorielle pour les données Wikipedia:

Collectez les données : Obtenez des articles Wikipedia à partir de vidages ou d'API.
Texte du prétraitement : Nettoyez le texte et divisez-le en «morceaux» plus petits et cohérents. »
Sélectionnez un modèle d'incorporation : Utilisez un modèle de langue (par exemple, Openai Embeddings) pour convertir des morceaux de texte en vecteurs numériques.
Générer des intérêts : Pour chaque morceau, produisez sa représentation vectorielle sémantique.
Configurez une base de données vectorielle : Choisissez un magasin vectoriel (par exemple, Pinecone, Weavate, Faish, Chrom) pour stocker et indexer les intégres.
Insérer des vecteurs : Chargez tous les vecteurs de morceaux et les métadonnées associées (par exemple, références d'article d'origine) dans la base de données.
Test Retrieval : Interrogez la base de données avec une question vectorisée pour garantir que des morceaux de wikipedia pertinents sont renvoyés.
Optimiser et intégrer : Utilisez l'indexation et l'intégration avec un pipeline de génération (RAG) de récupération (RAG) pour une récupération efficace et précise d'informations.

Kimi K1.5 Réponse:

L'article «Un guide complet pour construire des systèmes de chiffon agentiques avec Langgraph» décrit le processus de création d'une base de données vectorielle pour les données Wikipedia dans le cadre de la création d'un système de chiffon agentique. Voici les étapes clés résumées:

Installez les dépendances : Installez les bibliothèques nécessaires telles que Langchain, Langchain-Openai, Langchain-Community, Langgraph et Langchain-chroma.
Entrez les clés de l'API : Entrez en toute sécurité les touches API pour OpenAI et recherchez Tavily en utilisant la fonction GetPass pour éviter de les exposer dans le code.
Variables d'environnement de configuration : Définir les variables d'environnement pour les touches API OpenAI et Tavily.
Charger les données Wikipedia :
- Téléchargez les données Wikipedia à partir d'un lien Google Drive fourni ou utilisez un fichier d'archive local.
- Extraire et charger les données dans une liste de documents.
Documents de morceaux ::
- Utilisez un séparateur de texte pour diviser les documents en morceaux plus petits et gérables.
- L'article utilise RecursiVeCaracterTextStSitter pour diviser les documents en morceaux d'environ 2000 caractères avec un chevauchement de 300 caractères.
Créer une base de données vectorielle :
- Initialiser un client de base de données de vecteur de chroma.
- Utilisez le modèle d'incorporation d'OpenAI (text-emballeur-3-Small) pour convertir des morceaux de document en intégres.
- Stockez les morceaux de document et leurs intérêts dans l'index de la base de données vectorielle, spécifiant la similitude de la cosinus comme fonction de distance.
Configuration de la base de données vectorielle Retriever :
- Configurez un retriever pour récupérer les 3 principaux documents les plus similaires en fonction de la similitude des cosinus.
- Définissez un seuil de similitude (par exemple, 0,3) pour filtrer les documents qui ne sont pas suffisamment similaires à la requête.
Testez le retriever :
- Testez le retriever avec des échantillons de requêtes pour vous assurer qu'il renvoie des documents pertinents.
- Pour les requêtes sans documents pertinents dans la base de données vectorielle, le retriever doit renvoyer une liste vide.

Observation:

La sortie de Kimi K1.5 excelle en fournissant des étapes de mise en œuvre détaillées et exploitables avec des paramètres techniques spécifiques et des exigences de bibliothèque. Il équilibre une profondeur complète avec une organisation claire, explique le raisonnement derrière chaque étape et relie efficacement le processus technique à l'objectif plus large de construire un système de chiffon agentique.

Verdict:

openai o1: ❌ | Kimi K1.5: ✅

Tâche 5: Analyse d'image

Invite: L'image montre un schéma très simplifié d'un centre de données dans l'espace, avec des hypothèses simplificatrices qui nécessitent une justification.

tâches :
estimer la limite inférieure de la surface du radiateur requise pour le centre de données.
Adressez à gérer le soleil et l'espace profond dans le contexte de la gestion thermique.
Image d'entrée:

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Réponse Openai O1:

Vous trouverez ci-dessous un processus de raisonnement étape par étape avec des hypothèses, des justifications et de l'application de la première loi de la thermodynamique. Le résultat final sera une limite inférieure sur la zone du radiateur requise pour dissiper 1 GW de chaleur générée par un centre de données spatial.

Hypothèses clés et simplifications

1. Entrée d'alimentation et génération de chaleur:

Supposons que le centre de données est alimenté par une source d'alimentation solaire de 1 GW. La quasi-totalité de l'énergie électrique consommée par les GPU sera convertie en chaleur (la conversion d'énergie électrique à thermique est essentiellement 100% à l'état stable car toute l'énergie électrique non stockée doit éventuellement se dissiper sous forme de chaleur). Ainsi, la chaleur des déchets à éliminer est d'environ 1 GW = 1 × 10 ^ 9 W.

2. Transfert de chaleur radiatif uniquement:

Dans l'espace, il n'y a pas de refroidissement convectif ou conducteur dans l'environnement - seulement un transfert de chaleur radiatif. Par conséquent, le mode primaire de rejet de chaleur est le rayonnement thermique d'une surface de radiateur dans l'espace profond.

3. Émissivité et absorptivité:

Supposons que le radiateur est construit avec une surface à haute émissivité, Sayε = 0,9 ε = 0,9. Ceci est plausible pour les surfaces recouvertes de certaines peintures ou matériaux à haute émissivité. Pour une limite inférieure sur la zone requise, nous supposons des conditions idéales:

Le radiateur est principalement éloigné du soleil pour minimiser l'absorptation solaire.

Kimi K1.5 Réponse:

Pour estimer la limite inférieure de la surface du radiateur requise pour le centre de données dans l'espace, je commence par appliquer la loi Stefan-Boltzmann, qui décrit la puissance rayonnée par une surface:

Kimi K1.5 vs Openai O1: Lequel un meilleur modèle de raisonnement?

Pour gérer le soleil et l'espace profond dans la gestion thermique, le centre de données doit être protégé de la lumière directe du soleil à l'aide d'un Sunshade ou positionné dans un endroit où il n'est pas exposé au soleil, comme le côté obscur d'une planète ou de la lune. Le radiateur doit être conçu pour rayonner efficacement la chaleur dans le vide de l'espace, qui est extrêmement froid.

La première loi de la thermodynamique s'applique à ce scénario en veillant à ce que la chaleur générée par l'équipement du centre de données soit égale à la chaleur rayonnée par le radiateur. Cette loi garantit que l'énergie totale du système reste constante, la chaleur générée étant entièrement prise en compte dans la conception du radiateur.

La limite inférieure de la surface du radiateur requise est approximativement 766 mètres carrés . Le centre de données doit être protégé de la lumière directe du soleil et le radiateur doit être optimisé pour la dissipation de chaleur dans le vide de l'espace pour maintenir l'équilibre thermique.

Observation:

La réponse de Kimi K1.5 est supérieure pour plusieurs raisons. Il démontre un raisonnement mathématique clair à travers une approche étape par étape, à commencer par l'équation fondamentale de la loi de Stefan-Boltzmann. Kimi définit clairement toutes les variables et leurs valeurs, montre le processus mathématique de résolution de la zone du radiateur et fournit un résultat numérique concret de 766 mètres carrés. L'explication comprend des justifications claires pour les stratégies de gestion thermique, des considérations pratiques telles que le positionnement du radiateur du côté obscur d'une planète et une connexion directe à la première loi de la thermodynamique avec une application du monde réel. La réponse se termine par des nombres spécifiques et des recommandations exploitables.

En revanche, la réponse d'Openai O1 reste plus théorique, en se concentrant sur les hypothèses générales et la configuration plutôt que de terminer le calcul réel. Il n'a pas de solution numérique concrète et ne traite pas entièrement de l'aspect de la gestion thermique, ce qui le rend moins pratique et réalisable par rapport à l'approche détaillée et orientée vers la solution de Kimi K1.5.

Verdict:

openai o1: ❌ | Kimi K1.5: ✅

Résultat final: Kimi K1.5 vs Openai O1

Résultats de la tâche

Task	Winner
Zebra Puzzle	Neither
Logical Reasoning	Kimi k1.5
Create an HTML Site	Kimi k1.5
Web Search	Kimi k1.5
Image Analysis	Kimi k1.5

Lisez également: Kimi K1.5 vs Deepseek R1: Bataille des meilleurs LLMS chinois

Conclusion

Des modèles gratuits comme Kimi K1.5 et Deepseek R1 remettent en question la domination d'Openai O1, offrant des performances supérieures dans le raisonnement, le codage et les tâches multimodales sans frais. Avec Kimi K1.5 surperformant Openai dans des références clés et en profondeur R1 excellant dans les défis de codage, paie 20 $ / mois pour Openai O1 toujours justifié? Faites-nous savoir dans la section des commentaires ci-dessous!

Restez à l'écoute du blog Analytics Vidhya pour plus de contenu aussi génial!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semainesByDDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semainesByDDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques moisByDDD

Afficher plus

Outils chauds

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Dreamweaver Mac

Outils de développement Web visuel

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7690

1639

1393

1287

1229