検索
ホームページテクノロジー周辺機器AIコンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

リー・カイフー氏が所有する AI 企業であるゼロワンには、もう 1 人の大きなモデルプレーヤーがステージにいます:

90 億パラメータ Yi-9B

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

Yi シリーズの 「サイエンス ナンバー ワン」として知られています . コード数学を「補う」と同時に、 、その総合力は負けていません。

同様の規模の一連のオープン ソース モデル (Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 などを含む) # ##、 最高のパフォーマンス。

古いルール、リリースはオープンソース、特に

開発者に優しい :

Yi-9B (BF 16) とその量子化バージョン Yi- 9B (Int8) は

コンシューマ グレードのグラフィックス カード に導入できます。

RTX 4090 または RTX 3090 で十分です。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

深く増幅された多段階の増分トレーニング

Zero One Thousand Things の Yi ファミリは、以前に Yi-6B および Yi-34B シリーズをリリースしました。

これらは両方とも 3.1T トークンの中国語と英語のデータで事前トレーニングされていますが、Yi-9B はこれに基づいており、0.8T トークンを追加してトレーニングを継続します。

データの期限は 2023 年 6 月 です。

Yi-9B の最大の改善点は数学とコーディングにあると冒頭で述べましたが、これら 2 つの能力をどのように改善できるでしょうか?

Zero One Thousand Things の概要:

データ量を単に増やすだけでは期待に応えることはできません。

は、

最初にモデル サイズを増やします 、Yi-6B に基づいて 9B に増やし、次に多段階データの増分トレーニングを実行します

まず、モデルのサイズを大きくするにはどうすればよいでしょうか?

前提として、チームが分析を通じて発見したのは、

Yi-6B は十分に訓練されており、いくらトークンを追加しても訓練効果が向上しない可能性があるということです。サイズを大きくすることを検討してください。

(下の写真の単位はTBではなくBです)

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

どうやって増やすのですか?答えは

深い増幅です。

Zero One Thing の紹介:

元のモデルの幅を拡張すると、パフォーマンスの損失が大きくなります。適切なレイヤーを選択してモデルの深さを増幅した後、新しいレイヤーを追加します。入出力コサインは 1.0 です。つまり、増幅されたモデルのパフォーマンスは元のモデルのパフォーマンスを維持でき、モデルのパフォーマンスの損失はわずかです。

このアイデアに従って、Zero Yiwu は Yi-6B の比較的後方の 16 層

(層 12 ~ 28) をコピーして 48 層の Yi-9B を形成することを選択しました。

実験によると、この方法は、Solar-10.7B モデルを使用して中間の 16 層

(層 8 ~ 24) をコピーするよりもパフォーマンスが優れていることが示されています。

第二に、多段階トレーニング方法とは何ですか?

答えは、最初にテキストとコードを含む 0.4T データを追加することですが、データ比率は Yi-6B と同じです。

次に、別の 0.4T データを追加します。これにはテキストとコードも含まれますが、コードと数学的データの割合を増やすことに重点を置きます。

(理解しました。これは、大規模なモデルの質問における「段階的に考える」というテクニックと同じ考え方です)

これら 2 つのステップが完了しても、まだ終わっていません。チームは、パラメータ調整方法を最適化するために、2 つの論文

(大規模バッチ トレーニングの経験的モデルと学習率を低下させずバッチ サイズを増やす) のアイデアも参照しました。

つまり、固定学習率から開始して、モデル損失の減少が止まるたびに、減少が中断されずにモデルがより完全に学習できるようにバッチ サイズが増加します。

最終的に、Yi-9B には実際に合計 88 億個のパラメータが含まれ、コンテキスト長は 4k に達しました。

Yi シリーズは最強のコーディング能力と数学的能力を備えています

実際のテストでは、Zero Yiwu は貪欲なデコーディング生成メソッドを使用します

(つまり、毎回、最も高い確率値を持つ単語が生成されます)が選択されています) テストします。

参加モデルは、DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B、Gemma-7B です:

(1)

DeepSeek-Coder#国内ディープサーチ会社の ## では、その 33B 命令チューニング バージョンは人間による評価で GPT-3.5-turbo を上回り、7B バージョンのパフォーマンスは CodeLlama-34B のパフォーマンスに達する可能性があります。

DeepSeek-Math は 7B パラメータに依存して GPT-4 を覆し、オープンソース コミュニティ全体に衝撃を与えました。 (2)

SOLAR-10.7B韓国のUpstage AIは2023年12月に誕生し、その性能はMixtral-8x7B-Instructを上回ります。

(3)Mistral-7B は、Llama 2 70B や GPT-3.5 のレベルに達するか、それを超える初のオープンソース MoE 大型モデルです。

(4)Gemma-7BGoogle より、Zero Yiwu は次のように指摘しました:

有効なパラメータの数は実際にはYi-9B 。

(この 2 つの命名基準は異なります。前者は非埋め込みパラメーターのみを使用し、後者はすべてのパラメーターを使用して切り上げます)

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

結果は以下の通りです。

まず、コーディングタスクに関しては、Yi-9B のパフォーマンスは DeepSeek-Coder-7B に次ぐもので、他の 4 つはすべて KO です。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

Yi-9B の数学的能力の点では、DeepSeek-Math-7B に次いで 2 番目のパフォーマンスを示し、他の 4 つを上回っています。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

#総合的な能力も悪くない。

そのパフォーマンスは、同様のサイズのオープンソース モデルの中で最高であり、他の 5 つのプレーヤーをすべて上回っています。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

最後に、常識と推論能力もテストされました:

結果は、Yi-9B はミストラル-7B、SOLAR-10.7B とは異なるということでした。そしてGemma-7B 上下。

と言語スキル、英語が優れているだけでなく、中国語も広く賞賛されています:

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

最後に、これらを読んだ後、一部のネチズンはこう言いました。試してみるのを待ってください、試してみました。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

DeepSeek について心配している人もいます:

急いで「ゲーム」を強化してください。全体的な優位性はなくなりました==

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

ポータルはこちらです: https://huggingface.co/01-ai/Yi-9B

以上がコンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。