Kai-fu Lee 氏は次のように指摘しました。「ゼロ・ワン・サウザンド・シングスを世界的な大規模モデルの第一階層に加えなければなりません。」
##オープンソース ラージ モデルの世界に新たな重鎮が加わりました。今回は、イノベーション ワークス会長兼 CEO の Kai-Fu Lee 氏が立ち上げたオープンソース ラージ モデルの「Yi」シリーズです。 , 大手模型会社。 Zero One Thousand Things は今年 3 月末に正式に設立され、6 月と 7 月に業務を開始したと報告されており、Kaifu Li 博士が創設者兼 CEO です。
2001 年 11 月 6 日、Wangwu は、
Yi-6B および Yi-34B バージョン ## を含む、事前トレーニングされたオープンソース大規模モデルの「Yi」シリーズを正式にリリースしました。 # オープンソースの大規模モデルコミュニティに「ちょっとした衝撃」を与えた。
Hugging Face English オープンソース コミュニティ プラットフォームと C-Eval 中国語評価の最新リストによると、Yi-34B 事前訓練モデルは複数の SOTA 国際最高パフォーマンスを達成しました。インジケーターの認識 、LLaMA2やFalconなどのオープンソースの競合製品を破り、世界的なオープンソースの大規模モデルの「ダブルチャンピオン」になりました。 Yi-34B は、これまでに Hugging Face のグローバル オープンソース モデル ランキングでトップに輝いた唯一の国内モデル
にもなりました。
#小さくても強力なアプローチにより、英語と中国語で世界的に権威のある大型モデルのリストで No.1 に到達しました
## Hugging Face 英語テスト公開リストの事前トレーニング済みオープン ソース モデル ランキングで、Yi-34B がさまざまな指標で優れたパフォーマンスを示し、70.72 のスコアで世界 1 位にランクされたことがわかりました。 ## LLaMA2-70B や Falcon-180B など、数多くの大型モデルを粉砕し、大小さまざまな成果を上げています。 パラメータの量とパフォーマンスの観点から、Yi-34B は LLaMA2-70B のパラメータの半分未満、および Falcon のパラメータの 5 分の 1 を使用するのと同等です。 180B、さまざまなテストタスクで世界のリーダーを上回る最高の結果を達成しました。 Yi-34B は、その卓越したパフォーマンスにより、世界で最も強力なオープンソースの基本モデルの 1 つにランクされます。 出典: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
##同時に、大型の国産モデルとして、Kai-fu Lee 氏は、Yi-34B は中国語をよりよく「理解」しており、 C では世界中のすべてのオープンソース モデルを上回っていると述べました。中国の権威あるリストを評価してください。
Yi-34B は、大型モデルの最強の王である GPT-4 と比較して、CMMLU、E-Eval、Gaokao の 3 つの主要な中国指標において絶対的な優位性を持っています。中国人を強調する 世界の優れた能力は国内市場のニーズをよりよく満たすことができます。 より包括的な評価から、グローバル大規模モデルの評価において最も重要な「MMLU」(Massive Multitask Language Understanding、大規模マルチタスク言語理解)、 BBHなど機体の総合的な能力を反映する評価セットの中で、Yi-34Bが最も優れた成績を収め、総合能力、知識推論、読解力など複数の指標の評価をすべて獲得し、ハグフェイス評価との整合性が高かった。 。
ただし、LLaMA2 と同様、Yi シリーズのオープンソース大規模モデルは、GSM8k および MBPP の数学およびコード評価において、GPT モデルよりもわずかにパフォーマンスが劣ります。将来的には、Yi シリーズの大型モデルでは、コーディング能力と数学的能力に特化した継続的なトレーニング モデルが発売される予定です。 コンテキスト ウィンドウのサイズは 200k を超え、直接オープン ソースです実際の戦闘では効果が重要なコンテキスト ウィンドウに関しては、オープン ソースの Yi-34B が、200K の超長いコンテキスト ウィンドウ をサポートする世界最長のコンテキスト ウィンドウの バージョンをリリースしました。 -約 400,000 文字の長いテキスト入力。これは The Scholars の長さとほぼ同等です。比較すると、OpenAI の GPT-4 コンテキスト ウィンドウはわずか 32K で、テキスト処理量は約 25,000 ワードです。 ###############どうやってするの? Zero-One Everything 技術チームは、通信の重複計算、シーケンスの並列処理、通信の圧縮などを含む一連の最適化を実装したことがわかります。これらの機能強化により、大規模モデルのトレーニング機能が 100 倍近く向上しました。
超長いコンテキスト ウィンドウをオープンソースにした最初の
大規模モデル会社でもあることは言及する価値があります、開発者が直接使用できるようにします。 Yi-34B の 200K コンテキスト ウィンドウは直接オープン ソースであり、より豊富なセマンティック情報を提供するだけでなく、1000 ページを超える PDF ドキュメントを理解し、多くの外部ベクトル データベースを利用できます。ナレッジベースのシナリオはコンテキスト ウィンドウで置き換えることができます。 Yi-34B のオープンソースの性質は、より長いコンテキスト ウィンドウ内で微調整したい開発者に、より多くの可能性を提供します。 #独自の科学モデルトレーニング方法、トレーニングコストを 40% 削減Yi- 34B が非常に強力なのは、AI インフラ チームと自社開発の大規模トレーニング プラットフォーム という 2 つの重要な要素のおかげです。 Li Kaifu 氏は、Zero One Wan が社内に AI インフラストラクチャ (AI インフラストラクチャ) チームを設立し、主に大規模モデルのトレーニングと展開、およびさまざまな基盤となる技術の提供を担当していると紹介しました。処理サーバー、オペレーティング システム、ストレージ システム、ネットワーク インフラストラクチャ、クラウド コンピューティング プラットフォームなどの施設は、Yi シリーズ モデル トレーニングの背後にある非常に重要な「保証テクノロジ」となっています。 AI インフラの強力なサポートにより、ゼロワン Wanwu チームは業界レベルを超えるトレーニング成果を達成しました。 Yi-34B モデルのトレーニング コストは 40% 減少することが測定されました 。実際のトレーニング完了時間と予測時間の差は 1 時間未満です。さらなるシミュレーションにより、トレーニング コストを最大まで削減できます。 1000億規模では50%。 同時に、ゼロワンウィッシュは「高度な錬金術」から「科学的な訓練」への方法論の変革を達成しました。 数か月にわたるモデリングと実験を経て、Zero One Wish はモデルの設計と最適化をガイドする「スケール トレーニング実験プラットフォーム」を開発しました。データ比例計算、ハイパーパラメータ探索、モデル構造実験を小規模な実験基盤で実行でき、34Bモデルの各ノードの予測誤差を0.5%以内に制御できます。このモデルはより強力な予測能力を備えているため、比較実験に必要なリソースが大幅に削減され、トレーニング エラーによって引き起こされるコンピューティング リソースの無駄が削減されます。 データ処理パイプラインと大規模な予測を高めるためのトレーニング機能の構築により、大規模モデルのトレーニングという以前の「錬金術」プロセスが、非常に詳細で科学的なプロセスに変わりました。現在リリースされている Yi-34B および Yi-6B モデルの高いパフォーマンスを保証し、将来の大規模モデルのトレーニングにかかる時間とコストを削減し、業界の数倍の速さでモデル規模を拡張する能力を備えています。 最後に、Kai-fu Lee 氏は、Yi-34B の事前トレーニングを完了しながら、次の 1,000 億パラメータ モデルのトレーニングが直ちに開始されたことも発表しました。 今後数か月以内に、さらに多くの Yi の後継モデルが発表されると予想されます。 以上がKai-Fu Lee 氏は、「世界で最も強力な」オープンソース大規模モデルの立ち上げを正式に発表しました。40 万個の漢字を処理し、中国語と英語の両方で 1 位にランクされました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。