検索
ホームページテクノロジー周辺機器AIコンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

リー・カイフー氏が所有する AI 企業であるゼロワンには、もう 1 人の大きなモデルプレーヤーがステージにいます:

90 億パラメータ Yi-9B

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

Yi シリーズの 「サイエンス ナンバー ワン」として知られています . コード数学を「補う」と同時に、 、その総合力は負けていません。

同様の規模の一連のオープン ソース モデル (Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 などを含む) # ##、 最高のパフォーマンス。

古いルール、リリースはオープンソース、特に

開発者に優しい :

Yi-9B (BF 16) とその量子化バージョン Yi- 9B (Int8) は

コンシューマ グレードのグラフィックス カード に導入できます。

RTX 4090 または RTX 3090 で十分です。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

深く増幅された多段階の増分トレーニング

Zero One Thousand Things の Yi ファミリは、以前に Yi-6B および Yi-34B シリーズをリリースしました。

これらは両方とも 3.1T トークンの中国語と英語のデータで事前トレーニングされていますが、Yi-9B はこれに基づいており、0.8T トークンを追加してトレーニングを継続します。

データの期限は 2023 年 6 月 です。

Yi-9B の最大の改善点は数学とコーディングにあると冒頭で述べましたが、これら 2 つの能力をどのように改善できるでしょうか?

Zero One Thousand Things の概要:

データ量を単に増やすだけでは期待に応えることはできません。

は、

最初にモデル サイズを増やします 、Yi-6B に基づいて 9B に増やし、次に多段階データの増分トレーニングを実行します

まず、モデルのサイズを大きくするにはどうすればよいでしょうか?

前提として、チームが分析を通じて発見したのは、

Yi-6B は十分に訓練されており、いくらトークンを追加しても訓練効果が向上しない可能性があるということです。サイズを大きくすることを検討してください。

(下の写真の単位はTBではなくBです)

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

どうやって増やすのですか?答えは

深い増幅です。

Zero One Thing の紹介:

元のモデルの幅を拡張すると、パフォーマンスの損失が大きくなります。適切なレイヤーを選択してモデルの深さを増幅した後、新しいレイヤーを追加します。入出力コサインは 1.0 です。つまり、増幅されたモデルのパフォーマンスは元のモデルのパフォーマンスを維持でき、モデルのパフォーマンスの損失はわずかです。

このアイデアに従って、Zero Yiwu は Yi-6B の比較的後方の 16 層

(層 12 ~ 28) をコピーして 48 層の Yi-9B を形成することを選択しました。

実験によると、この方法は、Solar-10.7B モデルを使用して中間の 16 層

(層 8 ~ 24) をコピーするよりもパフォーマンスが優れていることが示されています。

第二に、多段階トレーニング方法とは何ですか?

答えは、最初にテキストとコードを含む 0.4T データを追加することですが、データ比率は Yi-6B と同じです。

次に、別の 0.4T データを追加します。これにはテキストとコードも含まれますが、コードと数学的データの割合を増やすことに重点を置きます。

(理解しました。これは、大規模なモデルの質問における「段階的に考える」というテクニックと同じ考え方です)

これら 2 つのステップが完了しても、まだ終わっていません。チームは、パラメータ調整方法を最適化するために、2 つの論文

(大規模バッチ トレーニングの経験的モデルと学習率を低下させずバッチ サイズを増やす) のアイデアも参照しました。

つまり、固定学習率から開始して、モデル損失の減少が止まるたびに、減少が中断されずにモデルがより完全に学習できるようにバッチ サイズが増加します。

最終的に、Yi-9B には実際に合計 88 億個のパラメータが含まれ、コンテキスト長は 4k に達しました。

Yi シリーズは最強のコーディング能力と数学的能力を備えています

実際のテストでは、Zero Yiwu は貪欲なデコーディング生成メソッドを使用します

(つまり、毎回、最も高い確率値を持つ単語が生成されます)が選択されています) テストします。

参加モデルは、DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B、Gemma-7B です:

(1)

DeepSeek-Coder#国内ディープサーチ会社の ## では、その 33B 命令チューニング バージョンは人間による評価で GPT-3.5-turbo を上回り、7B バージョンのパフォーマンスは CodeLlama-34B のパフォーマンスに達する可能性があります。

DeepSeek-Math は 7B パラメータに依存して GPT-4 を覆し、オープンソース コミュニティ全体に衝撃を与えました。 (2)

SOLAR-10.7B韓国のUpstage AIは2023年12月に誕生し、その性能はMixtral-8x7B-Instructを上回ります。

(3)Mistral-7B は、Llama 2 70B や GPT-3.5 のレベルに達するか、それを超える初のオープンソース MoE 大型モデルです。

(4)Gemma-7BGoogle より、Zero Yiwu は次のように指摘しました:

有効なパラメータの数は実際にはYi-9B 。

(この 2 つの命名基準は異なります。前者は非埋め込みパラメーターのみを使用し、後者はすべてのパラメーターを使用して切り上げます)

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

結果は以下の通りです。

まず、コーディングタスクに関しては、Yi-9B のパフォーマンスは DeepSeek-Coder-7B に次ぐもので、他の 4 つはすべて KO です。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

Yi-9B の数学的能力の点では、DeepSeek-Math-7B に次いで 2 番目のパフォーマンスを示し、他の 4 つを上回っています。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

#総合的な能力も悪くない。

そのパフォーマンスは、同様のサイズのオープンソース モデルの中で最高であり、他の 5 つのプレーヤーをすべて上回っています。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

最後に、常識と推論能力もテストされました:

結果は、Yi-9B はミストラル-7B、SOLAR-10.7B とは異なるということでした。そしてGemma-7B 上下。

と言語スキル、英語が優れているだけでなく、中国語も広く賞賛されています:

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

最後に、これらを読んだ後、一部のネチズンはこう言いました。試してみるのを待ってください、試してみました。

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

DeepSeek について心配している人もいます:

急いで「ゲーム」を強化してください。全体的な優位性はなくなりました==

コンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化した

ポータルはこちらです: https://huggingface.co/01-ai/Yi-9B

以上がコンシューマーグレードのグラフィックカードも利用可能!李海福氏は史上最強のコード数学能力を持つ90億パラメータのYiモデルを公開し、オープンソース化したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター