ホームページ  >  記事  >  テクノロジー周辺機器  >  大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

WBOY
WBOY転載
2023-07-21 21:53:081211ブラウズ

ジェネレーティブ AI (AIGC) は、人工知能の一般化の新たな時代を切り開きました。大規模モデルを巡る競争は壮絶です。コンピューティング インフラストラクチャが競争の主な焦点であり、権力の覚醒が業界のコンセンサスになりつつあります。

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

新しい時代では、大規模なモデルは単一モダリティからマルチモダリティに移行しており、パラメータとトレーニング データセットのサイズは指数関数的に増大しており、大規模な非構造化データには高性能の混合負荷機能のサポートが必要です。時代が経つにつれ、データ集約型のパラダイムが普及し、スーパーコンピューティングやハイ パフォーマンス コンピューティング (HPC) などのアプリケーション シナリオが深化していき、既存のデータ ストレージ ベースでは継続的なアップグレードのニーズを満たすことができなくなりました。

コンピューティング能力、アルゴリズム、データが人工知能の開発を推進する「トロイカ」である場合、外部環境の大きな変化の中で、この 3 つは動的バランスを取り戻すことが急務です。アルゴリズムモデルの改善による「ソフトパワー」の向上と、演算電源の最適化による「ハードパワー」の強化には、データ伝送の「容量」とデータの「保存容量」の更なるサポートが必要電力源として、新しいデータ ストレージ ベースが繭から出現し、多くの課題に対処する過程で蝶になるでしょう。

複雑で継続的に進化する要件を伴うアプリケーション シナリオは、新しいデータ ストレージ ベースの最良の試金石です。この意味で、教育および科学研究業界は典型的な代表例です。コンピューティング能力とデータは、この分野におけるデジタル変革の重要な要素であり、専門分野を統合した科学研究コンピューティングは、データベースの意思決定支援と同様に重要です。 HPC から HPDA (高性能データ分析) への移行は、教育と科学研究の効率を向上させるための大きな一歩であり、AI の強化により、過去には計算が不可能、不正確、非実用的だった問題の解決に役立ちます。

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

最近開催された 2023 年世界人工知能会議で、ファーウェイの OceanStor Pacific 分散ストレージは、上海交通大学による HPC AI ストレージ ベースの構築を支援し、正式に開始されました。「ターン イット オーバー」統合データベースは、今年さらに 25PB 拡張されますこれは、教育と科学研究のデジタル化とインテリジェント化の新たなベンチマークとなるとともに、データ ストレージの新しい基盤を探索する旅のマイルストーンとなることが期待されています。

データとコンピューティング能力の関係の進化とそこから生じる課題

深海ゾーンに参入する何千もの業界のデジタル変革と、人工知能やビッグデータなどの新興テクノロジーの協調的な爆発により、データとコンピューティング能力の関係は微妙な変化を迎えています。

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

教育と科学研究の分野はデジタル経済の最前線にあり、この変化に非常に敏感です。以前は、データはコンピューティング能力に従う必要がありました。複雑な科学および工学の問題の迅速な数値的解決に対処するために、教育および科学研究コミュニティは長い間、最も強力なコンピューティング パワーを構築する方法にさらに注意を払ってきましたが、データはデータをサポートする機能としてのみ考慮されてきました。コンピューティング能力。

現在、「コンピューティングパワーはデータを中心に展開する」という考え方が徐々に新しいトレンドになってきています。新しいアプリケーションの出現、データ量の拡大、データセキュリティ問題の浮き彫りにより、データ自体の価値がより重視されるようになりました。 AI、ビッグデータ、その他のテクノロジーの進歩に基づいて、従来のスーパーコンピューティングはデータ集約型のスーパーコンピューティングに進化しており、複数の異種コンピューティング能力を同じデータ ストレージ ベースに構築する必要があります。

上海交通大学ネットワーク情報センター副所長の林新華氏は、データとコンピューティング能力における優位性の逆転は、データ集約型のスーパーコンピューティング プラットフォームを構築する機会を提供するだけでなく、多くの新たなイノベーションももたらすと考えています。統合されたデータストレージベースの構築への課題。

まず第一に、データの爆発的な増加により、ストレージ容量の需要が大幅に増加しています。統計によると、「Jiaowosuan」プラットフォームのデータ規模は年率7PBで成長しており、気象学や海洋学、エネルギー探査、衛星リモートセンシング、遺伝子配列決定、クライオ電子顕微鏡、AIなどのアプリケーションシナリオのデータ量が増加しています。自動運転、製造CAE、アニメーションレンダリングはいずれもペタバイトレベルに達しており、このような膨大な量のデータを収容するデータインフラを利用することは容易ではありません。

第二に、新しいビジネスが絶えず出現しており、より高いストレージ パフォーマンスが必要です。 AI の一般化プロセスの加速、特に大規模なモデルやマルチモダリティのバッチ出力は、IO パフォーマンスに深刻な課題をもたらします。数百テラバイトのデータセットが標準となり、自然言語処理とマルチモーダルアプリケーションによりデータ量の増加が加速しており、小さなファイルのトレーニングデータセットに効率的にアクセスするには、新たなレベルに達するストレージパフォーマンスが必要です。

第三に、マルチクラスタ ストレージはキャンパス全体で共有されており、異種クラスタ間のデータ フローにより、データ損失や動作速度の低下などの問題が発生する可能性があります。 「Jiaowosuan」プラットフォームは、ARM クラスター、X86 クラ​​スター、AI クラスターなど、さまざまな異種コンピューティング能力を提供します。多くのクラスターの中で、完全なデータ フローとデータ統合を実現することによってのみ、コンピューティング能力とデータの最大値を解放できます。

ついに、従来の AI ローカル ディスク トレーニングと大量の同時データ分析が、IO の壁を打ち破ろうとしています。複数のデータ移行プロセスにおける IO ボトルネックは非常に顕著です。従来の読み取りおよび書き込みプロセスは時間がかかり、データのロードには 3 回のデータ移行が含まれ、チェックポイントにも 2 回のデータ移行が含まれます。このプロセス中に発生する効率の損失は無視できません。

分散ストレージ統合統合データベースの画期的な道筋

上記の課題に対処するために、上海交通大学とファーウェイストレージは2019年から緊密な協力を開始し、「私に渡してください」データ集約型スーパーコンピューティングプラットフォームを共同構築しました。ファーウェイのOceanStor Pacific分散ストレージ製品は、テクノロジーとアプリケーション革新における深い蓄積に依存しており、「Tuowo Calculation」が学校全体のさまざまな異種コンピューティングパワープラットフォームをサポートする統合データベースを構築するのに役立ちます。

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します

分散型統合データベースを構築することが、「Leave It to Me」が新たなデータ アプリケーションを受け入れる唯一の方法です。水平方向に拡張可能な分散ストレージ アーキテクチャに基づいており、「Jiaowosuan」プラットフォームのストレージ容量と帯域幅はオンデマンドで拡張できます。 1 つ目は、単一クラスターが EB レベルの容量に達する、パフォーマンス容量の直線的な増加です。2 つ目は、キャビネットのスペースを節約するために高密度で大容量のハードウェアを使用することです。3 つ目は、パフォーマンスを向上させるために EC の大部分を使用することです。シナリオベースの圧縮によるディスク使用率。

「Jiaowosuan」プラットフォームは、当初の 2PB の容量と 6GB/s の帯域幅から、2020 年には 20PB の容量と 60GB/s の帯域幅に増加し、2022 年には 40PB の容量と 120GB/s の帯域幅に拡張されることがわかっています。 2023 年には、容量がさらに 25PB 拡張されると予想されています。同時に、ファーウェイのOceanStor Pacific分散ストレージは、5Uと120のディスクスロットの超高密度設計を備えており、大規模なECデータ冗長性保護アルゴリズムと組み合わせることで、ハードディスク容量の使用率を91.6%まで高めることができ、高信頼性。

分散型オールフラッシュ ハードウェアのサポートは、ストレージ パフォーマンスの問題を解決するための「任せてください」の基礎です。 Huawei OceanStor Pacific の支援により、「Turn it over」プラットフォームはオールフラッシュ ハードウェア アクセラレーションを使用して、帯域幅と IOPS パフォーマンスを大幅に向上させます。各ノードには 800,000 IOPS と 20GB/S の帯域幅があり、以下の高パフォーマンス要件を満たすことができます。混合負荷条件。

キャンパス全体にわたるグローバル分散ストレージの統合管理は、マルチクラスターのストレージ共有の問題を解決する良い方法です。グローバル ファイル システムを使用してドメイン全体の複数のストレージ セットを管理することにより、「Jiaowosuan」プラットフォームはキャンパス全体に統合されたデータベースを構築します。ファーウェイの OceanStor Pacific 分散ストレージ製品のサポートにより、グローバル ファイル ビュー、データ管理、およびスケジューリングを実現します。グローバル データ フロー、統合ストリーミング メタデータ、その他の複数の目標。

データ分析の高速化、マルチプロトコル アクセスのロスレス相互運用性、再配置のない高効率は、「任せてください」が IO の壁を打ち破る強力なツールです。ファーウェイのAI指向ストレージソリューションとファーウェイのOceanStor Pacificの「1つのデータ、複数プロトコルによるアクセス」分散ストレージ機能に基づいた「ターンイットオーバー」プラットフォームは、外部ストレージを実現してデータの再配置を削減し、分析効率を大幅に向上させ、ストレージを節約します。空間。

大型モデル時代のHPDA AIの将来像

「Jiaowosuan」プラットフォームと、分散、統合、統合されたデータの新しい基盤を構築するためのHuawei Storageとの連携の進化の軌跡を通じて、データ集約型のシナリオがその進化を加速していることを理解するのは難しくありません。

初期の HPC から後期の HPDA、そして HPDA AI の飛行翼に至るまで、教育および科学研究業界のアプリケーション シナリオは充実し続けており、ストレージ製品とデータベースの需要も増加し続けています。 。実際、教育と科学研究は何千もの業界のデジタル化プロセスにおける氷山の一角にすぎず、データ ストレージの時代が到来しています。

ビッグモデル時代の到来により、ストレージを含むITインフラストラクチャはさらに再構築され、新しいAI遺伝子を搭載したストレージ製品が業界のデジタルアップグレードの新たな主流となることが予想されます。 7月14日、「AIの新たな勢いを解き放つ新たなデータパラダイム」をテーマとするファーウェイのラージモデル時代のAIストレージ新製品発表会がオンラインで開催される。企業に AI を導入している場合でも、AI 機能を備えたアプリケーションを開発している場合でも、今回リリースされたソリューションは、時代に遅れを取らないよう、より優れた技術アーキテクチャと製品を提供します。

人工知能の一般化が始まりました。ストレージ業界のリーダーが率先して声援を送りました。今後のあらゆる動きに注目してください。

以上が大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はsohu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。