ホームページ >テクノロジー周辺機器 >AI >Yuanxiang XVERSE-65B: 中国最大のオープンソース モデルが登場、高性能で無条件無料商用利用可能
70億から130億のパラメータを持ついくつかの大規模なモデルが中国でこれまでにオープンソース化されており、実装結果が現れ、オープンソースエコシステムが最初に確立されました。エージェントなどのタスクの複雑さとデータ量が増加するにつれて、より大きなモデルに対する業界やコミュニティの需要がますます緊急になってきています。
研究によると、パラメーターの数が増え、トレーニング データの質が高くなるにつれて、大規模モデルのパフォーマンスを継続的に向上させることができます。業界の一般的なコンセンサスは、 が 500 ~ 600 億のパラメーターしきい値に達すると、大規模なモデルが と を「スマートに出現」させ、マルチタスクで強力なパフォーマンスを発揮できるということです。ただし、この規模のモデルのトレーニングには費用がかかり、高い技術要件が必要となるため、現在は主にクローズドソースの有料モデルとして提供されています。
海外のオープンソース エコシステムでは、Llama2-70B や Falcon-180B などのベンチマーク モデルは条件付きオープンソースであり、月間アクティブ ユーザー数または収入に商用上限が設定されており、中国語では明らかな制限があります。トレーニング データの欠如による言語能力の不足。さらに、最近米国が公布した AI チップ禁止法 により、中国の大型模型産業の開発速度がさらに制限される可能性があります。業界は、生態学的ギャップを埋め、中国語アプリケーションにより強力な理解、推論、長文生成機能を提供する高性能の大規模国産モデルを緊急に求めています。
これに関連して、Yuanxiang XVERSE Company はオープンソースの 650 億パラメータの高性能ユニバーサル大型モデルを発表しました。さらに、13B モデルは完全にアップグレードされ、小型モデルの能力の上限が増加しました。これにより、多くの中小企業、研究者、AI 開発者が大規模モデルの自由を早期に実現し、コンピューティング能力、リソースの制約、特定のタスク要件に応じて Yuanxiang の大規模モデルを自由に使用、変更、抽出できるようになります。 、研究と応用における画期的な進歩を促進します。
モデルのアドレス: https://huggingface.co/xverse/XVERSE-65B具体的には、65B モデルは次のようなプラスの影響を与える可能性があります。
研究開発の観点からは、65B は次のようなプラスの効果をもたらします。新しいテクノロジー、新しいツール、パフォーマンスの最適化、モデルのセキュリティを提供する「大きなレバレッジ」により、コミュニティは迅速に経験を蓄積することができ、独立して制御可能な国家科学技術という長期目標の促進にも役立ちます。
商業的には、多くの中小企業が「大きなツール」をゼロコストで使用でき、制限を打ち破り、アプリケーションの大幅な革新を促進できます。 Yuanxiang は、ユースケース、セキュリティ モデルの導入、潜在的な機会についての洞察も提供します。
開発者のエコロジーの観点から、コミュニティは組織の相乗効果の利点を最大限に活用し、研究開発アプリケーションの「カンブリア爆発」を促進できます。
40 以上の言語。 Yuanxiang は高性能測位を堅持し、次の 3 つの側面で 65B の機能を大幅に向上させました。
モデルの多様性に対する理解、生成、推論、記憶などの基本的な機能、優れたものから強力なものまで、創造性と正確なパフォーマンス;
ツールの呼び出し、コードの説明、反映と修正などの機能を拡張し、インテリジェント エージェントの構築と改善のための技術的基盤を築きます。モデルの実用性;3. トレーニングの安定性を大幅に向上: 65B トレーニングでは、膨大な計算量のため、通信の混雑、チップの過熱、計算ノードの障害が常態化しており、初期の頃は、週に最大 8 件の障害が発生していました。 Yuanxiang は、クラスター インフラストラクチャの運用、リソース スケジューリング、トレーニング フレームワーク、およびスケジューリング プラットフォームの連携を継続的に最適化することで、高い安定性、低中断、強力な耐障害性を備えたトレーニング システムを構築し、毎週の有効トレーニング率を 98.6% に向上させました。
さらに、約 1.6 兆個のトークンを使用したモデルのトレーニングの途中で、損失関数によって NaN 値が生成され、トレーニングが中断される可能性がありました。通常、業界では分析後に関連するデータ間隔を削除します。経験に基づいて、チームはこれがモデルの自然な進化であると判断し、データを削除せず、関連するパラメーターの更新を直接スキップすることを選択し、最終的に NaN 値の問題が解決されました。その後、パラメーター値、活性化値、勾配値などの中間状態をさらに分析したところ、問題はモデルの最後の層にある変圧器ブロックの活性化値の最大値の変化に関連している可能性があることが判明しました。最大値が徐々に減少するため、自然に解決されます。
# 今回の経験 ナンバリュー問題 研究開発経験
# 総合評価 65B 実績GPT3.5 に相当します
業界が Yuanxiang 大型モデルのパフォーマンスを包括的、客観的、かつ長期的に理解できるようにするために、研究者らは一連のデータを参照しました。権威ある学術評価を確立し、質疑応答、理解、知識、推論、数学をカバーするシステムを開発しました。 、コードなどを含む 6 つの側面における 11 の主流の信頼できる評価基準は、今後も使用され、反復されます。 XVERSE-65B 中国には比較できる同レベルのモデルが存在せず、海外ベンチマークとの比較評価では、一部の指標が上回り、総合性能はGPT3.5に匹敵し、総合的に上位を上回りました。オープンソース ベンチマーク Llama2-70B および Falcon-180B ; GPT4 とのギャップはまだあります。高品質なデータが追加され、学習データは3.2兆件に達し、能力の上限が大幅に向上しました。小さなモデル。文系と理系の両方を兼ね備えており、文系の優位性を維持しており、質疑応答は18%向上、科学は大きく進歩し、コーディングは149%、数学は198%向上したと評価されている。 Llama2 や Baichuan2 などの国内外のオープンソース ベンチマークを完全に上回りました。
x XVERSE-13B-2 の評価## ビッグの新時代を開くモデルアプリケーション Yuanxiang 大型モデルは、Github、Hugging Face、ModelScope などのプラットフォームで「XVERSE」を検索することでダウンロードできます。
,簡単な登録後、 、商用利用は無条件に無料で可能で、中小企業、科学研究機関、個人開発者のほとんどのアプリケーションと反復ニーズを満たすことができます。
Yuanxiang は、モデルのトレーニング、推論、展開、微調整などのあらゆる技術サービスも提供し、エンターテインメント、金融、医療などのさまざまな業界を強化し、インテリジェントなサービスなどの複数のシナリオを支援します。顧客サービス、クリエイティブなライティング、正確な推奨事項を提供し、業界をリードするユーザー エクスペリエンスを創造します。 2023年10月、テンセントミュージックは率先して元祥モデルとの戦略的提携を発表し、lyraXVERSEアクセラレーションモデルを共同で発売し、音楽アシスタント「AI小琴」を包括的にアップグレードし、今後もAIと3Dカッティングの探究を続ける。音楽エンターテインメントをリードするエッジテクノロジー 革新的な方向性。八尾 それは最先端技術を継続的に探求する原動力のようなもので、XVERSE オープンソース シリーズは大型モデルの国産代替と継続的な技術革新の促進に尽力し、実体経済とデジタル経済。私たちは企業や開発者と手を携えて、大規模モデル アプリケーションの新時代を共同で切り開くことを楽しみにしています。タイムズ!」 #Yuanxiang について
Yuanxiang XVERSE は、2021 年初頭に深センに設立されました。同社は国内大手 AI および 3D テクノロジー サービス会社であり、「あなたの世界を定義する」というビジョンを掲げ、AI 主導の 3D コンテンツ制作と消費のためのワンストップ プラットフォームの作成に取り組んでいます。 」。以上がYuanxiang XVERSE-65B: 中国最大のオープンソース モデルが登場、高性能で無条件無料商用利用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。