ホームページ >テクノロジー周辺機器 >AI >Yuanxiang XVERSE-65B: 中国最大のオープンソースモデルが登場、高性能で無条件無料商用利用可能

Yuanxiang XVERSE-65B: 中国最大のオープンソースモデルが登場、高性能で無条件無料商用利用可能

PHPz転載: 2023-11-06 15:33:201192ブラウズ

70億から130億のパラメータを持ついくつかの大規模なモデルが中国でこれまでにオープンソース化されており、実装結果が現れ、オープンソースエコシステムが最初に確立されました。エージェントなどのタスクの複雑さとデータ量が増加するにつれて、より大きなモデルに対する業界やコミュニティの需要がますます緊急になってきています。

研究によると、パラメーターの数が増え、トレーニングデータの質が高くなるにつれて、大規模モデルのパフォーマンスを継続的に向上させることができます。業界の一般的なコンセンサスは、 が 500 ～ 600 億のパラメーターしきい値に達すると、大規模なモデルが とを「スマートに出現」させ、マルチタスクで強力なパフォーマンスを発揮できるということです。ただし、この規模のモデルのトレーニングには費用がかかり、高い技術要件が必要となるため、現在は主にクローズドソースの有料モデルとして提供されています。

海外のオープンソースエコシステムでは、Llama2-70B や Falcon-180B などのベンチマークモデルは条件付きオープンソースであり、月間アクティブユーザー数または収入に商用上限が設定されており、中国語では明らかな制限があります。トレーニングデータの欠如による言語能力の不足。さらに、最近米国が公布した AI チップ禁止法により、中国の大型模型産業の開発速度がさらに制限される可能性があります。業界は、生態学的ギャップを埋め、中国語アプリケーションにより強力な理解、推論、長文生成機能を提供する高性能の大規模国産モデルを緊急に求めています。

これに関連して、Yuanxiang XVERSE Company は

オープンソースの 650 億パラメータの高性能ユニバーサル大型モデルを発表しました。さらに、13B モデルは完全にアップグレードされ、小型モデルの能力の上限が増加しました。これにより、多くの中小企業、研究者、AI 開発者が大規模モデルの自由を早期に実現し、コンピューティング能力、リソースの制約、特定のタスク要件に応じて Yuanxiang の大規模モデルを自由に使用、変更、抽出できるようになります。、研究と応用における画期的な進歩を促進します。

モデルのアドレス: https://huggingface.co/xverse/XVERSE-65B

Yuanxiang XVERSE-65B: 中国最大のオープンソースモデルが登場、高性能で無条件無料商用利用可能

Yuanxiang XVERSE 創設者 Yao Xing 氏は次のように述べています。限られた時間や継続的なコンピューティング能力の不足などの課題に直面したこのチームは、豊富な経験を活かして 3 か月以内に複数の高性能 7B および 13B モデルを開発し、有望な 65B モデルを初めてコミュニティに発表しました。研究、ビジネス、エコロジーに 3 つの価値をもたらします。」

具体的には、65B モデルは次のようなプラスの影響を与える可能性があります。

研究開発の観点からは、65B は次のようなプラスの効果をもたらします。新しいテクノロジー、新しいツール、パフォーマンスの最適化、モデルのセキュリティを提供する「大きなレバレッジ」により、コミュニティは迅速に経験を蓄積することができ、独立して制御可能な国家科学技術という長期目標の促進にも役立ちます。

商業的には、多くの中小企業が「大きなツール」をゼロコストで使用でき、制限を打ち破り、アプリケーションの大幅な革新を促進できます。 Yuanxiang は、ユースケース、セキュリティモデルの導入、潜在的な機会についての洞察も提供します。
開発者のエコロジーの観点から、コミュニティは組織の相乗効果の利点を最大限に活用し、研究開発アプリケーションの「カンブリア爆発」を促進できます。

# このオープンソースは無料でご利用いただけます。チェーンによる自己研究、複数の技術革新

40 以上の言語。 Yuanxiang は高性能測位を堅持し、次の 3 つの側面で 65B の機能を大幅に向上させました。

モデルの多様性に対する理解、生成、推論、記憶などの基本的な機能、優れたものから強力なものまで、創造性と正確なパフォーマンス;

ツールの呼び出し、コードの説明、反映と修正などの機能を拡張し、インテリジェントエージェントの構築と改善のための技術的基盤を築きます。モデルの実用性;

7B および 13B で一般的で潜在的に深刻な幻覚問題を大幅に軽減し、大型モデルの幻覚を減らし、精度と専門性を向上させます。
Yuanxiang の大型モデルシリーズは、チェーン全体にわたって自社開発されており、多数の主要テクノロジーと研究開発イノベーションをカバーしています:
1. 複雑な分散システム設計: から学ぶチーム研究開発 Tencent Go AI「Jue Yi」や Honor of Kings AI「Jue Wu」などの大規模システムにおける豊富な経験、効率的なオペレーター、メモリ最適化、並列スケジューリング戦略、データコンピューティング通信のオーバーラップなどの自社開発の主要テクノロジー、効率的かつ安定したトレーニングシステムを構築するため、キロカロリークラスターの最大演算能力利用率は58.5%に達し、業界トップクラスにランクされます。
2. 総合的なパフォーマンスの向上: FlashAttendant2 を使用して 65B トレーニングでの計算を高速化し、仮想パイプラインテクノロジを 3D 並列処理に基づいて使用して、長いパイプラインによって生成される過剰なバブルレートを削減し、計算推論効率を向上させます。コンテキストウィンドウ長さは 8K から 16K まで徐々に長くなり、長いテキストの理解、長いテキストの生成、超長い対話などの複雑なタスクを正常に完了できるだけでなく、ツールの呼び出し、コードの説明、反映と修正の機能も拡張されています。インテリジェントなエージェント (AI エージェント) をより適切に構築できます。

3. トレーニングの安定性を大幅に向上: 65B トレーニングでは、膨大な計算量のため、通信の混雑、チップの過熱、計算ノードの障害が常態化しており、初期の頃は、週に最大 8 件の障害が発生していました。 Yuanxiang は、クラスターインフラストラクチャの運用、リソーススケジューリング、トレーニングフレームワーク、およびスケジューリングプラットフォームの連携を継続的に最適化することで、高い安定性、低中断、強力な耐障害性を備えたトレーニングシステムを構築し、毎週の有効トレーニング率を 98.6% に向上させました。

さらに、約 1.6 兆個のトークンを使用したモデルのトレーニングの途中で、損失関数によって NaN 値が生成され、トレーニングが中断される可能性がありました。通常、業界では分析後に関連するデータ間隔を削除します。経験に基づいて、チームはこれがモデルの自然な進化であると判断し、データを削除せず、関連するパラメーターの更新を直接スキップすることを選択し、最終的に NaN 値の問題が解決されました。その後、パラメーター値、活性化値、勾配値などの中間状態をさらに分析したところ、問題はモデルの最後の層にある変圧器ブロックの活性化値の最大値の変化に関連している可能性があることが判明しました。最大値が徐々に減少するため、自然に解決されます。

^{# 今回の経験ナンバリュー問題研究開発経験}

# 総合評価 65B 実績GPT3.5 に相当します
業界が Yuanxiang 大型モデルのパフォーマンスを包括的、客観的、かつ長期的に理解できるようにするために、研究者らは一連のデータを参照しました。権威ある学術評価を確立し、質疑応答、理解、知識、推論、数学をカバーするシステムを開発しました。、コードなどを含む 6 つの側面における 11 の主流の信頼できる評価基準は、今後も使用され、反復されます。
XVERSE-65B 中国には比較できる同レベルのモデルが存在せず、海外ベンチマークとの比較評価では、一部の指標が上回り、総合性能はGPT3.5に匹敵し、総合的に上位を上回りました。オープンソースベンチマーク Llama2-70B および Falcon-180B ; GPT4 とのギャップはまだあります。

高品質なデータが追加され、学習データは3.2兆件に達し、能力の上限が大幅に向上しました。小さなモデル。文系と理系の両方を兼ね備えており、文系の優位性を維持しており、質疑応答は18％向上、科学は大きく進歩し、コーディングは149％、数学は198％向上したと評価されている。 Llama2 や Baichuan2 などの国内外のオープンソースベンチマークを完全に上回りました。

x XVERSE-13B-2 の評価
## ビッグの新時代を開くモデルアプリケーション Yuanxiang 大型モデルは、Github、Hugging Face、ModelScope などのプラットフォームで「XVERSE」を検索することでダウンロードできます。

,簡単な登録後、、商用利用は無条件に無料で可能で、中小企業、科学研究機関、個人開発者のほとんどのアプリケーションと反復ニーズを満たすことができます。
Yuanxiang は、モデルのトレーニング、推論、展開、微調整などのあらゆる技術サービスも提供し、エンターテインメント、金融、医療などのさまざまな業界を強化し、インテリジェントなサービスなどの複数のシナリオを支援します。顧客サービス、クリエイティブなライティング、正確な推奨事項を提供し、業界をリードするユーザーエクスペリエンスを創造します。 2023年10月、テンセントミュージックは率先して元祥モデルとの戦略的提携を発表し、lyraXVERSEアクセラレーションモデルを共同で発売し、音楽アシスタント「AI小琴」を包括的にアップグレードし、今後もAIと3Dカッティングの探究を続ける。音楽エンターテインメントをリードするエッジテクノロジー革新的な方向性。
八尾それは最先端技術を継続的に探求する原動力のようなもので、XVERSE オープンソースシリーズは大型モデルの国産代替と継続的な技術革新の促進に尽力し、実体経済とデジタル経済。私たちは企業や開発者と手を携えて、大規模モデルアプリケーションの新時代を共同で切り開くことを楽しみにしています。タイムズ!」 #Yuanxiang について

Yuanxiang XVERSE は、2021 年初頭に深センに設立されました。同社は国内大手 AI および 3D テクノロジーサービス会社であり、「あなたの世界を定義する」というビジョンを掲げ、AI 主導の 3D コンテンツ制作と消費のためのワンストッププラットフォームの作成に取り組んでいます。」。
##公式ウェブサイト：www。 Yuanxiang の創設者である Yao Xing は、Tencent の元副社長であり Tencent AI Lab の創設者であり、科学技術省の新世代人工知能戦略諮問委員会のメンバーでもあります。 3D および AI テクノロジーの分野では、Yuanxiang には深い蓄積と完全なレイアウトがあります。 3D分野では、業界をリードする「デバイスとクラウドのコラボレーション」3Dインタラクティブ技術を独自に開発し、ゼロ閾値（軽い）、ワンストップ（速い）、高品質（アメリカ的）な新しい3D体験を生み出しました。 AI分野、オープンソース中国最大のパラメータを備えた市販最大の大型モデルXVERSE-65Bは、大型モデルの国内代替開発と産業応用の促進を目的に設計されています。

以上がYuanxiang XVERSE-65B: 中国最大のオープンソースモデルが登場、高性能で無条件無料商用利用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

分布式 github 人工智能 transformer https 个人开发性能优化 agi

声明：

この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?次の記事：生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?

続きを見る

Yuanxiang XVERSE-65B: 中国最大のオープンソース モデルが登場、高性能で無条件無料商用利用可能

関連記事

Yuanxiang XVERSE-65B: 中国最大のオープンソースモデルが登場、高性能で無条件無料商用利用可能