検索
ホームページテクノロジー周辺機器AI200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

今週、チップスタートアップの Cerebras は、単一のコンピューティング デバイスで 100 億を超えるパラメーターを使用して NLP (自然言語処理) 人工知能モデルをトレーニングするという新たなマイルストーンを発表しました。

Cerebras によってトレーニングされた AI モデルの量は、前例のない 200 億パラメータに達しており、すべて複数のアクセラレータにわたってワークロードを拡張する必要はありません。この成果は、インターネット上で最も人気のあるテキストから画像への AI 生成モデル、OpenAI の 120 億パラメータの大規模モデル DALL-E を満たすのに十分です。

#Cerebras の新しい仕事で最も重要なことは、インフラストラクチャとソフトウェアの複雑さの要件が軽減されることです。この会社が提供するチップ、Wafer Scale Engine-2 (WSE2) は、その名前が示すように、TSMC の 7 nm プロセスの単一のウエハ全体にエッチングされており、その領域は通常、数百の主流チップを収容するのに十分な大きさです。 2.6兆個のトランジスタ、85万個のAIコンピューティングコアと40GBの統合キャッシュを搭載し、パッケージング後の消費電力は15kWにもなります。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

Wafer Scale Engine-2 は、ウエハーのサイズに近く、iPad よりも大きいです。

Cerebras の 1 台のマシンは、サイズの点ではすでにスーパーコンピューターに似ていますが、1 つのチップに最大 200 億のパラメータを保持する NLP モデルは依然として大幅に優れています。数千の GPU でのトレーニングのコストと、それに関連するハードウェアとスケーリングの要件を削減し、同時にモデルを分割するという技術的な困難を排除します。後者は「NLP ワークロードの最も苦痛な側面の 1 つ」であり、場合によっては「完了するまでに数か月かかる」とセレブラス氏は述べています。

これは、処理される各ニューラル ネットワークだけでなく、各 GPU とそれらを結び付けるネットワークの仕様にも固有のカスタマイズされた問題です。これらの要素を設定する必要があります。最初のトレーニング セッションの前に事前に作成されており、システム間で移植することはできません。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立

# Cerebras の CS-2 は、Wafer Scale Engine-2 チップを含むスタンドアロンのスーパーコンピューティング クラスターです。電源、メモリ、ストレージのサブシステム。

#200 億のパラメータのおおよそのレベルはどれくらいですか?人工知能の分野では、大規模な事前学習モデルは、最近さまざまなテクノロジー企業や機関が開発に力を入れている方向性であり、OpenAI の GPT-3 は、記事全体を書くことができ、十分な作業を実行できる NLP モデルです。人間の読者を欺く 1,750 億という驚異的なパラメーターを使用した数学的演算と変換。昨年末に発売された DeepMind の Gopher は、パラメータ数の記録的な数を 2,800 億に引き上げました。

最近、Google Brain は、Switch Transformer という 1 兆を超えるパラメータを使用してモデルをトレーニングしたとさえ発表しました。

「NLP の分野では、大規模なモデルの方がパフォーマンスが良いことが証明されています。しかし、伝統的に、これらの大規模なモデルの分解を完了するためのリソースと専門知識を持っている企業はわずか数社だけです。モデル、それを何百、何千ものグラフィックス処理装置に分散させるという大変な作業が必要です」とセレブラス社のCEO兼共同創設者であるアンドリュー・フェルドマン氏は語った。 「その結果、大規模な NLP モデルをトレーニングできる企業はほとんどありません。費用も時間もかかり、他の業界では利用できません。」

現在、Cerebras のアプローチは、 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B、GPT-NeoX 20B モデルのアプリケーションのしきい値を下げることで、AI エコシステム全体が数分で大規模なモデルを構築し、単一の CS-2 システムでトレーニングできるようになります。

200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立


#ただし、フラッグシップ CPU のクロック速度と同様、パラメーターの数は 1 つの要素にすぎません。大規模モデルのパフォーマンスにおける指標。最近では、DeepMindが今年4月に提案したChinchillaが、従来のわずか700億個のパラメータでGPT-3やGopherを上回ったなど、パラメータを削減しながらより良い結果を達成した研究もある。

この種の研究の目標は、もちろん、より賢く働くことであり、懸命に働くことではありません。したがって、Cerebras の成果は、人々が最初に目にするものよりも重要です。この研究は、チップ製造の現在のレベルがますます複雑になるモデルに適応できるという自信を与えてくれます。また、同社は、特殊なチップをコアとして持つシステムがサポートされていると述べています。」数千億、さらには数兆のパラメータを持つモデル。

単一チップ上でトレーニング可能なパラメータの数が爆発的に増加しているのは、Cerebras のウェイト ストリーミング テクノロジーに依存しています。このテクノロジーは、計算とメモリのフットプリントを分離し、AI ワークロードで急速に増加するパラメータの数に基づいてメモリを任意のスケールで拡張できるようにします。これにより、セットアップ時間が数か月から数分に短縮され、GPT-J や GPT-Neo などのモデル間の切り替えが可能になります。研究者が述べたように、「数回のキーストロークだけで実行できます。」

「Cerebras は、大規模な言語モデルを低コストで便利な方法で実行できる機能を人々に提供し、その可能性を広げます」 「これは、エキサイティングなインテリジェンスの新時代です。これは、数千万ドルを費やすことができない組織に、大規模なモデルで競争するための簡単かつ安価な方法を提供します」と Intersect360 Research の主任研究責任者である Dan Olds 氏は述べています。 「大規模なデータセットで GPT-3 および GPT-J レベルのモデルをトレーニングする CS-2 顧客からの新しいアプリケーションや発見を非常に楽しみにしています。」

以上が200億パラメータの大規模モデルの単一マシントレーニング: Cerebrasが新記録を樹立の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
生成エンジン最適化に関するビジネスリーダーのガイド(GEO)生成エンジン最適化に関するビジネスリーダーのガイド(GEO)May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますこのスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているか世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月:私たちは祝うために何を残しましたか?2050年5月:私たちは祝うために何を残しましたか?May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

あなたが聞いたことがないディープフェイク検出器はそれが98%正確ですあなたが聞いたことがないディープフェイク検出器はそれが98%正確ですMay 03, 2025 am 11:10 AM

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。 研究者

Quantum Talent Wars:The Hidden Crisis Treatenting Tech'の次のフロンティアQuantum Talent Wars:The Hidden Crisis Treatenting Tech'の次のフロンティアMay 03, 2025 am 11:09 AM

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。 しかし、大きな問題があります:スキルを持っている人々が深刻な不足があります

プロトタイプ:これらの細菌は電気を生成できますプロトタイプ:これらの細菌は電気を生成できますMay 03, 2025 am 11:08 AM

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています:微生物

AIとサイバーセキュリティ:新政権の100日間の計算AIとサイバーセキュリティ:新政権の100日間の計算May 03, 2025 am 11:07 AM

今週のRSAC 2025会議で、SNYKは「The First 100 Days:How AI、Policy&Cyber​​security Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。