科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました-AI-php.cn

ホームページ

テクノロジー周辺機器

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 27, 2024 pm 09:41 PM

業界テンセントクラウド

中国電子学会 2023 科学技術賞の受賞者リストが発表されましたが、今回はおなじみの Tencent Angel 機械学習プラットフォームを発見しました。

大規模モデルが急速に開発されている現在の時代において、科学技術賞は機械学習プラットフォームの研究および応用プロジェクトに授与され、モデルの価値と重要性が全面的に認められています。トレーニングプラットフォーム。

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

科学技術賞は、特に大規模モデルの急速な開発の文脈における機械学習プラットフォームプロジェクトの研究と応用を表彰し、モデルトレーニングプラットフォームの価値と重要性が十分に認識されています。

ディープラーニングの台頭により、大手企業は人工知能テクノロジーの開発における機械学習プラットフォームの重要性を認識し始めています。 Google、Microsoft、Nvidia などの企業は、人工知能モデルのトレーニングプロセスを高速化するために独自の機械学習プラットフォームを立ち上げました。これらのプラットフォームは開発者に便利なサポートを提供し、複雑な人工知能システムをより迅速に構築および最適化できるようにします。この傾向により、人々は機械学習テクノロジーの開発にさらに注目するようになり、将来の人工知能アプリケーションのための強固な基盤が築かれました。

2023 年以降、大規模モデルの台頭によりモデルパラメータの増加がさらに促進されます。大手企業はパラメータスケールが数千億、さらには数兆に達するモデルを発表しており、これらのモデルは一般的にディープニューラルネットワーク構造を採用しています。ただし、この開発は、モデルの分散トレーニングの難しさと、アプリケーションの複雑さによって引き起こされるモデル設計の課題という 2 つの主要な問題点ももたらしました。

なぜ Angel 機械学習プラットフォームなのか?

4 つのコア技術のブレークスルーの詳細な説明

多数の学者やその他の権威ある専門家で構成される評価委員会は、Tencent Angel 機械学習プラットフォームは、技術的複雑性が高く、開発が難しく、革新性が高く、応用の可能性が広いため、全対全通信のための効率的なキャッシュスケジューリングと管理技術、適応型プリサンプリング技術など、全体的な技術は国際的に先進的なレベルに達しています。グラフ構造検索技術は世界トップレベルに達しています。

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

^{録音アーキテクチャ、このアーキテクチャの特徴は、モデルパラメーターの保存とモデル計算の実行の2つのタスクが異なるサーバーで実行されることです。サーバーを追加すると、より高い計算要件を伴う大規模なモデルをサポートできます。このアーキテクチャにより、モデルのトレーニングプロセスがより効率的になり、大規模なデータセットや複雑なモデルの計算を処理できるようになります。分散パラメータサーバーの設計により、システムは優れた拡張性と柔軟性を備え、さまざまな規模やニーズの機械学習タスクに対応できます。このアーキテクチャの利点は、クラスタリソースを効果的に利用し、コンピューティング効率を向上させ、より高速かつ効率的なサービスをユーザーに提供できることです。キャッシュ、モデルのストレージとスケジューリング、マルチモーダルモデル、融合学習などのコア領域で技術的なブレークスルーを達成できます。ソート、大規模グラフモデルと構造検索技術。}

トレーニング効率を向上させるために、テラバイトレベルの機械学習モデルは通常、多数のパラメーターと勾配同期を必要とする分散トレーニング手法を採用します。キロカロリートレーニングを例に挙げると、IO通信量は25TBに達し、消費時間の53%を占めますさらに、異なる計算能力クラスター間の異種ネットワーク環境と相まって、通信ネットワークの遅延も異なるため、より高い要件が課せられます。モデルトレーニングプロセス中の通信オーバーヘッド。 Tencent Angel 機械学習プラットフォームは、Tencent Cloud Xingmai ネットワークの効率的な通信およびキャッシュスケジュール管理技術に基づいており、TB レベルのモデルトレーニングにおける高い通信オーバーヘッドの問題を効果的に解決し、ネットワーク通信時間を 80% 削減し、分散型を実現します。業界の主流ソリューションの 2.5 倍に達するトレーニングパフォーマンス。

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

現在の計算能力条件では、モデルは TB レベルに達していますが、メインストリーム GPU のビデオメモリはまだ 80G しかなく、パラメータストレージにボトルネックがあります。テラバイトレベルのモデルトレーニングパラメータを保存することが難しいという重要な問題に対応して、Tencent Angel機械学習プラットフォームは、ビデオメモリとメインメモリの統合された観点からストレージ管理メカニズムを提案し、従来のモデルと比較して2倍のモデルストレージ容量を実現します。業界の主流ソリューションの 2 倍のトレーニングパフォーマンスを実現します。

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

大規模なモデルを一般的なモデルに開発するには、マルチモーダルデータの処理サポートが不可分であり、テキスト、画像、ビデオなどの異なるモダリティのデータを調整、統合、理解することが困難です。。マルチモーダルモデルのトレーニングにおいて、Tencent Angel 機械学習プラットフォームは、広告シナリオのマルチモーダル融合学習に基づくフルリンクランキング広告推奨テクノロジーを提案し、広告再現率を 40% 以上向上させるのに役立ちます。

科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しました

さらに、レコメンデーションシステムのグラフモデルトレーニングのために、Tencent Angel 機械学習プラットフォームは、最適な構造を自動的に出力できるグラフノード特徴適応型グラフネットワーク構造検索技術を設計しました。は、TB グラフモデルアプリケーションにおける「グラフデータマイニングの難しさ」の問題を解決し、モデルトレーニングのパフォーマンスを 28 倍向上させ、業界と比較して最高の拡張性を備えています。

Tencent Angel 機械学習プラットフォームの構築への道

Tencent Hunyuan の大規模モデルが兆規模に拡大

Tencent として人工知能技術の基本プラットフォームである Tencent Angel プラットフォームは 2015 年に誕生し、PS-Worker 分散トレーニングと 10 億パラメータの LDA モデルのトレーニングをサポートしています。

2017 年に Angel フレームワークは Github 上でオープンソース化され、開発者に公開されると同時に、技術的には異種ネットワーク下での通信問題が解決され、パフォーマンスがさらに向上しました。 2019 年に、私たちはスケーラブルなグラフモデルのマルチモーダル理解テクノロジでブレークスルーを達成し、数兆ノードを持つスケーラブルなグラフモデルの問題を解決しました。 2021 年には、大規模なモデルパラメーターのストレージとパフォーマンスの問題を解決するために、GPU メモリ統合パースペクティブストレージテクノロジが提案されます。

Tencent の汎用人工知能大型モデルである Tencent Hunyuan の作成においては、Tencent の Angel 機械学習プラットフォームも重要な役割を果たしました。

2023 年 9 月、Tencent の Hunyuan 大型モデルが正式に発表され、事前トレーニングコーパスは 2 兆トークンを超え、強力な中国語理解と作成能力、論理的推論能力、信頼性の高いタスク実行能力を備えています。

Tencent Hunyuan の大規模モデルを構築する必要性に直面して、Tencent の Angel 機械学習プラットフォームは、大規模モデルのトレーニングと推論用に自社開発の機械学習フレームワーク Angel PTM および Angel HCF を作成し、10,000 カードでの単一タスクをサポートしました。レベル: 大規模なトレーニングと大規模な推論サービスの展開。大規模モデルのトレーニングの効率は、主流のオープンソースフレームワークの 2.6 倍に向上しました。数千億の大規模モデルのトレーニングにより、コンピューティング電力コストの 50% を節約できます。アップグレード後は、10,000 枚のカードの超大規模トレーニングをサポートします。タスクごとに。推論に関しては、Tencent Angel 機械学習プラットフォームの推論速度が 1.3 倍に向上し、Tencent Hunyuan 大型モデル Wenshengtu のアプリケーションでは、推論時間が当初の 10 秒から 3 ～ 4 秒に短縮されました。

さらに、Angel はモデル開発からアプリケーション実装までのワンストッププラットフォームも提供しており、ユーザーは API インターフェイスや微調整を通じて Tencent の Hunyuan 大規模モデル機能をすぐに呼び出すことができ、大規模モデルアプリケーションの構築を加速します。 Tencent カンファレンス、Tencent News、Tencent Video を含む 400 以上の Tencent 製品とシナリオが Tencent Hunyuan の内部テストに接続されています。

Tencent Hunyuan は、ハイブリッドエキスパートモデル (MoE) 構造を採用することでモデルを数兆個のパラメーターに拡張し、パフォーマンスの向上と推論コストの削減を推進しました。一般的なモデルとして、Tencent Hunyuan は中国語のパフォーマンス、特にテキスト生成、数理論理学、マルチターン対話において業界をリードしています。現在、Tencent Hunyuan は、Vincent 写真と Vincent ビデオの機能をさらに強化するためのマルチモーダルモデルの開発にも積極的に取り組んでいます。

Tencent の多数のアプリケーションシナリオは、Tencent の Angel 機械学習プラットフォームの実装のための実験場を提供します。 Tencent の Hunyuan 大型モデルに加えて、Tencent の Angel 機械学習プラットフォームは、Tencent の広告や Tencent カンファレンスなどの製品もサポートしており、Tencent Cloud を通じて複数の業界や企業顧客にサービスを提供し、あらゆる分野のデジタルでインテリジェントな発展を支援しています。

Tencent 広告を例に挙げると、Tencent Angel 機械学習フラット分散トレーニング最適化やマルチモーダル理解グラフデータマイニングなどの革新的なテクノロジーを使用して、広告ビジネスシナリオにおけるマルチモーダル大規模モデルのトレーニング速度が向上しました。モデル規模は10倍となり、広告想起率が大幅に向上しました。

以上が科学技術進歩賞の最優秀賞の受賞: Tencent は、数兆のパラメータを持つ大規模モデルのトレーニングの問題を解決しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIゲーム開発は、激動の夢想家ポータルでエージェントの時代に入りますMay 02, 2025 am 11:17 AM

激動ゲーム：AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberはあなたのRobotaxiショップになりたいと思っています、プロバイダーはそれらを許可しますか？May 02, 2025 am 11:16 AM

UberのRobotaxi戦略：自動運転車用の乗車エコシステム最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。で支配的な位置を活用します

ビデオゲームをプレイするAIエージェントは、将来のロボットを変革しますMay 02, 2025 am 11:15 AM

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

スタートアップインダストリアルコンプレックス、VC 3.0、およびジェームズクーリエのマニフェストMay 02, 2025 am 11:14 AM

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。ベンチャーキャピタル3.0：パラダイム

AdobeはAdobe Max London 2025でクリエイティブクラウドとホタルを更新しますMay 02, 2025 am 11:13 AM

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。（注：ADOB

すべてのメタがラマコンで発表しましたMay 02, 2025 am 11:12 AM

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。この多面的なアプローチはBOをターゲットにします

AIは単なる通常のテクノロジーに過ぎないという提案に関する醸造論争May 02, 2025 am 11:10 AM

この結論に関して、人工知能の分野には深刻な違いがあります。「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。それについて議論しましょう。この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。一般的な技術としての人工知能第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報（AGI）を達成し、さらには可能な人工スーパーインテリジェンス（AS）を達成することです