ホームページ >テクノロジー周辺機器 >AI >Deepseekの後、Kimi K1.5はOpenai O1を照らします

Deepseekの後、Kimi K1.5はOpenai O1を照らします

Christopher Nolan
Christopher Nolanオリジナル
2025-03-07 11:34:09238ブラウズ

kimi K1.5:風景を再形成する生成AI推論モデル

補強学習(RL)および大規模な言語モデル(LLM)の最近のブレークスルーは、生成AI推論に革命をもたらす態勢の整ったモデルであるKimi K1.5の作成で頂点に達しました。 この記事では、Kimi K1.5の主要な特徴、革新、潜在的な影響を掘り下げて、付随する研究から洞察を引き出します。

目次:

    kimi k1.5?
  • とは何ですか
  • kimi K1.5トレーニング
  • kimi k1.5ベンチマーク
  • kimi K1.5の重要なイノベーション
  • kimi k1.5対deepseek r1
  • kimi k1.5へのアクセスAPI
  • 結論

kimi k1.5?とは何ですか

kimi K1.5は、LLMを使用してRLをスケーリングする際にかなりの跳躍を表しています。モンテカルロツリー検索などの複雑な方法に依存する従来のモデルとは異なり、自己回帰予測とRL技術を中心とした合理化されたアプローチを採用しています。 その設計により、マルチモーダルタスクを処理し、Math VistaやLive Code Benchなどのベンチマークで例外的なパフォーマンスを紹介できます。

kimi k1.5トレーニング

Kimi K1.5のトレーニングは、RLとマルチモーダル統合を通じて推論を強化するために設計されたマルチステージプロセスです。

    事前トレーニング:
  1. モデルは、テキスト(英語、中国語、コード、数学、一般的な知識)と視覚データを含む広大で高品質のマルチモーダルデータセットで事前に処理されており、関連性と多様性のために厳密にフィルタリングされています。

    監視された微調整(SFT):これには2つのフェーズが含まれます。さまざまなタスクで約100万の例を使用したバニラSFTと、複雑な推論経路をトレーニングするための長鎖(COT)SFT。
  2. 補強学習(RL):慎重にキュレーションされたプロンプトセットがRLトレーニングを駆動します。 このモデルは、応答の精度を評価する報酬モデルによって導かれた一連の推論ステップを介してソリューションを生成することを学びます。 オンラインミラーの降下はポリシーを最適化します

  3. 部分的なロールアウト:長いコンテキストを効率的に処理するために、Kimi K1.5は部分的なロールアウトを使用し、後の継続のために未完成の部分を保存します。

  4. 長さのペナルティとサンプリング:

    長さのペナルティは簡潔な回答を促進しますが、カリキュラムと優先順位付けされたサンプリング戦略では、最初に簡単なタスクにトレーニングを集中します。

  5. 評価と反復:ベンチマークに対する継続的な評価ガイド反復モデルの更新。
  6. >

    kimi k1.5システムの概要と部分的なロールアウト図:
kimi k1.5ベンチマーク

kimi K1.5は、多様なタスク全体で最先端のパフォーマンスを示しています:

  • Mathematics:
  • コーディング:
  • Codeforcesで94のスコアを達成し、Openai O1を一致させ、O1-MINIおよびQWQ 72Bプレビューを超えました。 視覚的推論:
  • Mathvista_testで74.9を獲得し、QVQ 72b(71.4)およびOpenai O1-Mini(71)を上回りました。
  • 一般的な知識:MMLU(em)で87.4を獲得し、Openai 4o(87.2)を上回る。
  • 推論戦略図:

kimi k1.5重要なイノベーション

After DeepSeek, Kimi k1.5 Outshines OpenAI o1

長いコンテキストのスケーリング:最大128,000トークンのプロセス、部分的なロールアウトによる効率を向上させます。

  • 思考の推論のチェーン:適応性のための長いCOT戦略と短いCOT戦略を組み合わせています。
  • 補強学習パイプライン:
  • キュレーションされたプロンプト、監視付き微調整、およびポリシーの最適化を備えた洗練されたRLパイプライン。 マルチモーダルデータ処理:
  • テキストと視覚データを効果的に処理します
  • kimi k1.5対deepseek r1
  • kimi K1.5およびDeepseek R1は、LLM開発へのさまざまなアプローチを表しています。 Kimi K1.5の合理化されたアーキテクチャ、統合RL、および長いコンテキスト処理は、Deepseek R1のより伝統的な方法と区別します。 違いは、コンテキストが多い複雑なタスクでのパフォーマンスに影響を与えます
  • api

経由でkimi k1.5にアクセスします APIアクセスには、Kimiの管理コンソールへの登録が必要です。 Pythonコードスニペットの例は、API相互作用を示しています:

結論

Kimi K1.5は、生成AI推論の重要な進歩を表し、最先端の結果を達成しながらRL設計を簡素化します。 コンテキストでのその革新スケーリングとマルチモーダルデータ処理は、さまざまな業界で幅広い意味を持つ主要なモデルとして位置付けています。

以上がDeepseekの後、Kimi K1.5はOpenai O1を照らしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。