ホームページ >テクノロジー周辺機器 >AI >200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

王林
王林転載
2023-04-18 12:37:03771ブラウズ

今週、チップスタートアップの Cerebras は、単一のコンピューティング デバイスで 100 億を超えるパラメーターを使用して NLP (自然言語処理) 人工知能モデルをトレーニングするという新たなマイルストーンを発表しました。

Cerebras によってトレーニングされた AI モデルの量は、前例のない 200 億パラメータに達しており、すべて複数のアクセラレータにわたってワークロードを拡張する必要はありません。この成果は、インターネット上で最も人気のあるテキストから画像への AI 生成モデル、OpenAI の 120 億パラメータの大規模モデル DALL-E を満たすのに十分です。

#Cerebras の新しい仕事で最も重要なことは、インフラストラクチャとソフトウェアの複雑さの要件が軽減されることです。この会社が提供するチップ、Wafer Scale Engine-2 (WSE2) は、その名前が示すように、TSMC の 7 nm プロセスの単一のウエハ全体にエッチングされており、その領域は通常、数百の主流チップを収容するのに十分な大きさです。 2.6兆個のトランジスタ、85万個のAIコンピューティングコアと40GBの統合キャッシュを搭載し、パッケージング後の消費電力は15kWにもなります。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

Wafer Scale Engine-2 は、ウエハーのサイズに近く、iPad よりも大きいです。

Cerebras の 1 台のマシンは、サイズの点ではすでにスーパーコンピューターに似ていますが、1 つのチップに最大 200 億のパラメータを保持する NLP モデルは依然として大幅に優れています。数千の GPU でのトレーニングのコストと、それに関連するハードウェアとスケーリングの要件を削減し、同時にモデルを分割するという技術的な困難を排除します。後者は「NLP ワークロードの最も苦痛な側面の 1 つ」であり、場合によっては「完了するまでに数か月かかる」とセレブラス氏は述べています。

これは、処理される各ニューラル ネットワークだけでなく、各 GPU とそれらを結び付けるネットワークの仕様にも固有のカスタマイズされた問題です。これらの要素を設定する必要があります。最初のトレーニング セッションの前に事前に作成されており、システム間で移植することはできません。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

# Cerebras の CS-2 は、Wafer Scale Engine-2 チップを含むスタンドアロンのスーパーコンピューティング クラスターです。電源、メモリ、ストレージのサブシステム。

#200 億のパラメータのおおよそのレベルはどれくらいですか?人工知能の分野では、大規模な事前学習モデルは、最近さまざまなテクノロジー企業や機関が開発に力を入れている方向性であり、OpenAI の GPT-3 は、記事全体を書くことができ、十分な作業を実行できる NLP モデルです。人間の読者を欺く 1,750 億という驚異的なパラメーターを使用した数学的演算と変換。昨年末に発売された DeepMind の Gopher は、パラメータ数の記録的な数を 2,800 億に引き上げました。

最近、Google Brain は、Switch Transformer という 1 兆を超えるパラメータを使用してモデルをトレーニングしたとさえ発表しました。

「NLP の分野では、大規模なモデルの方がパフォーマンスが良いことが証明されています。しかし、伝統的に、これらの大規模なモデルの分解を完了するためのリソースと専門知識を持っている企業はわずか数社だけです。モデル、それを何百、何千ものグラフィックス処理装置に分散させるという大変な作業が必要です」とセレブラス社のCEO兼共同創設者であるアンドリュー・フェルドマン氏は語った。 「その結果、大規模な NLP モデルをトレーニングできる企業はほとんどありません。費用も時間もかかり、他の業界では利用できません。」

現在、Cerebras のアプローチは、 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B、GPT-NeoX 20B モデルのアプリケーションのしきい値を下げることで、AI エコシステム全体が数分で大規模なモデルを構築し、単一の CS-2 システムでトレーニングできるようになります。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立


#ただし、フラッグシップ CPU のクロック速度と同様、パラメーターの数は 1 つの要素にすぎません。大規模モデルのパフォーマンスにおける指標。最近では、DeepMindが今年4月に提案したChinchillaが、従来のわずか700億個のパラメータでGPT-3やGopherを上回ったなど、パラメータを削減しながらより良い結果を達成した研究もある。

この種の研究の目標は、もちろん、より賢く働くことであり、懸命に働くことではありません。したがって、Cerebras の成果は、人々が最初に目にするものよりも重要です。この研究は、チップ製造の現在のレベルがますます複雑になるモデルに適応できるという自信を与えてくれます。また、同社は、特殊なチップをコアとして持つシステムがサポートされていると述べています。」数千億、さらには数兆のパラメータを持つモデル。

単一チップ上でトレーニング可能なパラメータの数が爆発的に増加しているのは、Cerebras のウェイト ストリーミング テクノロジーに依存しています。このテクノロジーは、計算とメモリのフットプリントを分離し、AI ワークロードで急速に増加するパラメータの数に基づいてメモリを任意のスケールで拡張できるようにします。これにより、セットアップ時間が数か月から数分に短縮され、GPT-J や GPT-Neo などのモデル間の切り替えが可能になります。研究者が述べたように、「数回のキーストロークだけで実行できます。」

「Cerebras は、大規模な言語モデルを低コストで便利な方法で実行できる機能を人々に提供し、その可能性を広げます」 「これは、エキサイティングなインテリジェンスの新時代です。これは、数千万ドルを費やすことができない組織に、大規模なモデルで競争するための簡単かつ安価な方法を提供します」と Intersect360 Research の主任研究責任者である Dan Olds 氏は述べています。 「大規模なデータセットで GPT-3 および GPT-J レベルのモデルをトレーニングする CS-2 顧客からの新しいアプリケーションや発見を非常に楽しみにしています。」

以上が200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。