この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。
世界最大のアクセラレータチップCS-2ウェーハスケールエンジンの開発で有名な企業であるCerebrasは、人工知能のトレーニングに「ジャイアントコア」を使用するという重要な一歩を踏み出したと昨日発表した。同社は、世界最大の NLP (自然言語処理) AI モデルを単一チップ上でトレーニングしました。
モデルには 20 億のパラメータがあり、CS-2 チップでトレーニングされています。世界最大の加速器チップは 7nm プロセスを使用し、正方形のウェハーからエッチングされます。主流のチップよりも数百倍大きく、15KWの電力があります。 2.6兆個の7nmトランジスタが統合され、85万個のコアと40GBのメモリがパッケージされています。
図 1 CS-2 ウェーハ スケール エンジン チップ
大規模 AI モデルのシングルチップ トレーニングの新記録
NLP モデルの開発は、人工知能の重要な分野です。 NLP モデルを使用すると、人工知能はテキストの意味を「理解」し、対応するアクションを実行できます。 OpenAI の DALL.E モデルは、典型的な NLP モデルです。このモデルは、ユーザーが入力したテキスト情報を画像出力に変換できます。
例えば、ユーザーが「アボカドの形をした肘掛け椅子」と入力すると、AIがこの文に対応する複数の画像を自動生成します。
写真: 情報を受け取ってAIが生成した「アボカドの形をした肘掛け椅子」の画像
それだけでなく、このモデルは、AIが種、幾何学、歴史的時代などの複雑な知識を理解できるようにすることもできます。等
しかし、これらすべてを実現するのは簡単ではありません。NLP モデルの従来の開発には、非常に高い計算能力コストと技術的閾値が伴います。
実際、数字だけを議論すると、Cerebras が開発したモデルの 20 億個のパラメータは、他のモデルと比較すると少し平凡に思えます。
前述の DALL.E モデルには 120 億のパラメータがありますが、現在最大のモデルは、DeepMind が昨年末に発表した Gopher で、2,800 億のパラメータがあります。
しかし、驚異的な数字とは別に、Cerebras が開発した NLP には大きな進歩があります。NLP モデルの開発の難しさを軽減します。
「Giant Core」はどのようにして GPU に勝つのでしょうか?
従来のプロセスによれば、NLP モデルを開発するには、開発者が巨大な NLP モデルをいくつかの機能部分に分割し、ワークロードを数百または数千のグラフィックス処理ユニットに分散する必要があります。
何千ものグラフィックス処理ユニットは、メーカーにとって莫大なコストを意味します。
技術的な問題もメーカーを悲惨にします。
モデルのスライスはカスタムの問題であり、各ニューラル ネットワーク、各 GPU、およびそれらを接続 (または相互接続) するネットワークの仕様は固有であり、システム間で移植可能ではありません。
メーカーは、最初のトレーニングの前に、これらすべての要素を明確に考慮する必要があります。
この作業は非常に複雑で、完了するまでに数か月かかる場合もあります。
セレブラス氏は、これが NLP モデル トレーニングの「最も苦痛な側面の 1 つ」であると述べました。 NLP を開発するために必要なリソースと専門知識を備えている企業はほんの一握りです。 AI 業界の他の企業にとって、NLP トレーニングは費用と時間がかかりすぎ、利用できません。
しかし、1 つのチップで 20 億のパラメーターを持つモデルをサポートできる場合、モデルのトレーニングのワークロードを分散するために大規模な GPU を使用する必要がないことを意味します。これにより、メーカーは何千もの GPU トレーニング コストと、関連するハードウェアおよびスケーリング要件を節約できます。また、ベンダーはモデルをスライスしてワークロードを数千の GPU に分散するという苦労をする必要がなくなります。
Cerebras は、モデルの品質を評価するために数値だけにこだわるわけではありません。パラメーターの数だけが基準ではありません。
セレブラスは、「巨大なコア」で生まれたモデルの「勤勉」を期待するのではなく、モデルが「賢い」ことを望んでいます。
Cerebras がパラメータ数の爆発的な増加を達成できる理由は、加重フロー技術を使用しているためです。このテクノロジーにより、計算量とメモリのフットプリントが分離され、AI ワークロードで増加する任意の数のパラメータを格納できる大きさにメモリを拡張できるようになります。
この画期的な進歩のおかげで、モデルのセットアップにかかる時間が数か月から数分に短縮されました。また、開発者は「数回のキーストローク」で GPT-J や GPT-Neo などのモデルを切り替えることができます。これにより、NLP 開発が容易になります。
これはNLPの分野に新たな変化をもたらしました。
Intersect360 Research の最高研究責任者である Dan Olds 氏は、Cerebras の成果について次のようにコメントしています。「費用対効果が高く、アクセスしやすい方法で大規模な言語モデルを大衆に提供する Cerebras の能力は、人工知能のエキサイティングな新時代を切り開きます。」
以上が世界最大の AI チップが大規模モデルの単一デバイス トレーニングの記録を破る、Cerebras は GPU を「抹殺」したいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

メモ帳++7.3.1
使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。
