ホームページ > 記事 > テクノロジー周辺機器 > LLMは歴史になるでしょうか?オープンソースの bGPT は深層学習のパラダイムを覆す可能性があります。バイナリを直接シミュレートし、アナログ デジタル世界の新時代を切り開きます。
Microsoft Research Asia によって発表された最新の成果 bGPT、このバイトベースの Transformer モデルは、デジタル世界を探索するための新しい扉を開きます。
従来の語彙ベースの言語モデルとは異なり、bGPT は、特定の形式やタスクに制限されることなく、生のバイナリ データを直接処理できるという点で独特です。デジタル世界を完全にシミュレートし、モデル開発の新たな可能性を開くことを目的としています。
#論文: #https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6
コード:https://www.php.cn/link/359499f804ea7988921bf86c9377fb95モデル:
https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad プロジェクトのホームページ:
https ://www.php.cn/link/71af59614c8b42af334933e9261e53be研究チームは、研究論文の中で、モデリングにおける bGPT の大きな可能性を実証しました。バイトレベルの処理を実行することにより、bGPT はテキスト、画像、オーディオを生成するだけでなく、フォーマット変換アルゴリズムや CPU 状態のモデリングなど、コンピューターの動作をシミュレートすることもできます。すべてのデータをバイトのシーケンスとして扱うこのアプローチにより、bGPT は異なるタイプのデータを同じフレームワークに統合できます。
bGPT の論文は公開されると、この活動が新たな可能性を開くということで広範な議論を引き起こしました。
バイナリ データ: デジタル世界を構成する基本 DNA
bGPT は、従来の AI 生成やバイトレベルの処理によるタスクの理解に適用できるだけでなく、より非従来的なアプリケーションも処理できます。たとえば、音楽の送信と保存のための標準フォーマットである MIDI を直接シミュレートできますが、これまでの研究では MIDI のバイナリ特性により直接モデリングが避けられてきました。
しかし、bGPT は音楽データの変換アルゴリズムを正確にシミュレートし、ABC 記譜法を MIDI 形式に変換する際の非常に低いエラー率 (0.0011 BPB) を達成することができます。 。
実際のアプリケーションでは、bGPT は通常、ABC シンボルと MIDI ファイル間の変換を正確に完了することができ、場合によっては元のファイルのエラーを修正して音楽変換をより正確にすることもできます。
bGPT は、ABC 記譜法を MIDI 形式 (上記) と元の MIDI データ ( の比較) に自動的に変換します。下の図) は重要な違いを強調しています。元の MIDI データ (下の図を参照) ではビートが欠落しており、コード伴奏が切断されていますが、bGPT 変換の結果 (上の図を参照) では、この欠落部分が正しく埋められています。 、コード伴奏の滑らかさを確保します。
研究チームは、CPU モデリングもハードウェア動作シミュレーションの代表的なタスクであると考えています。このタスクでは、モデルが一連の低レベル機械命令を入力として受け取る必要があり、その目標は各命令の実行を正確に予測するためのプログラムを停止するまでの CPU ステータスの更新方法。
このタスクでは、bGPT は 99.99% 以上の精度を示し、ネイティブ バイナリ データの処理におけるバイト モデルの能力とスケーラビリティを実証しました。
プログラムと初期 CPU 状態が与えられると、bGPT はプログラムが終了するまでの CPU 実行の完全なプロセスを正確に予測できます。この例では、bGPT はすべての CPU 命令を正確に処理します。理解を容易にするために、実際のバイト シーケンスは、より読みやすい形式に変換されます。
bGPT は、ネイティブ バイナリ データを処理できるだけでなく、複数のデータ タイプを統合して統合することもできます。モデル アーキテクチャでは、すべてのデータはバイト シーケンスとみなされます。
このアプローチにより、データ モデリング プロセスが簡素化されるだけでなく、特定のデータ型に合わせてモデルをカスタマイズする必要がなく、あらゆるデータ ソースからの統合が簡単になります。
研究チームは論文の中で従来のテキスト、画像、音声ファイルの例を挙げ、統合データモデリングにおけるbGPTの機能を実証しました。彼らがトレーニングした bGPT モデルには約 1 億個のパラメータがあります。
実験結果は、GPT-2 (テキスト モデル)、ViT (ビジュアル モデル)、AST (オーディオ モデル) と同じスケールのモデルと比較して、bGPT は異なるモデルでより優れたパフォーマンスを発揮することを示しています。データ型 どちらも同等のパフォーマンスを示しました。
bGPT はテキスト生成において非常に優れたパフォーマンスを発揮します。バイトレベルのテキストエンコーディングのおかげで、このモデルは語彙に依存しないため、すべての言語をサポートできます。
その階層型 Transformer アーキテクチャでは、計算オーバーヘッドは GPT-2 と同様ですが、最大 8KB のテキストを生成できます。これは GPT-2 の長さ制限を大幅に超えています。 Wikipedia データで事前トレーニングした後、bGPT によって生成されたテキストはスタイルとトピックの両方で GPT-2 に匹敵し、テキスト生成におけるその強力な能力が証明されました。
bGPT は Wikipedia データセットで事前トレーニングされており、生成されたテキスト サンプルの品質とトピックの一貫性は GPT-2 に匹敵します。
bGPT は、一連の画像バイトの次のバイトを予測することで画像を生成できます。モデルは ImageNet データセットで事前トレーニングされており、生成された画像の解像度は 32x32 ピクセルです。
現在のスケールではありますが、バイト シーケンスを通じて画像の 2 次元の空間関係を正確にキャプチャすることは困難であり、生成された画像、テクスチャ、光にアーティファクトやノイズが発生します。また、シャドウ効果は通常、まだ比較的正確です。
さらに、これらの生成された画像は通常どおり BMP ファイルにデコードできます。研究チームは、OpenAIが開発したiGPTのピクセルシーケンスモデリング手法と同様に、bGPTの規模を拡大することで、より高品質でよりリアルな画像生成が実現できる可能性があると指摘しました。
これらは、ImageNet データセットで事前トレーニングされた bGPT によって生成された一連の画像です。画像のテクスチャと照明効果は一般に正確ですが、生成された画像内の主なオブジェクトを識別するのは困難な場合があります。
bGPT はオーディオ データをバイトのシーケンスとして扱い、8000 Hz のサンプリング レートで 1 秒の長さのオーディオ サンプルを生成できます。
モデルは LibriSpeech データ セットで事前トレーニングされ、さらに微調整され、Speech Commands v2 データ セットで実証されました。 bGPT によって生成されたオーディオ サンプルは高レベルの精度を維持しており、一部のサンプルは実際のオーディオとほとんど区別できません。以下は、オーディオ生成の分野における bGPT の機能を示す一連の例です。
従来の言語モデルは、どれほど強力であっても、主に自然言語テキストの処理に焦点を当てています。 。 bGPT モデルは、バイトベースの処理メカニズムを通じてテキスト処理の制限を打ち破り、新しいデータ処理カテゴリを切り開きます。
この進歩により、bGPT は、テキスト、画像、オーディオ、さらにはアルゴリズムやハードウェアからのネイティブ バイナリ データを含むさまざまなデータ タイプをシームレスに処理できるようになり、完全にシミュレーションおよび実行する道が開かれます。デジタルの世界を理解する。
bGPT は魅力的な機能を実証していますが、計算オーバーヘッドの点で制限があります。たとえば、現在、従来のグラフィック カードでは最大 8KB のバイト シーケンスしか処理できません。これは明らかな問題を引き起こします。大量のデータを生成または処理する必要があるアプリケーションの制限。今後の作業計画は、より効率的なアルゴリズムの開発とハードウェアの進歩の活用に焦点を当て、より大きなデータシーケンスを処理する能力の向上を目指します。
世界中のテクノロジー愛好家は、ネットワーク プルーニングと自己学習の最適化から、超大規模ネットワークの自己再構築機能に至るまで、bGPT の将来の可能性に期待し始めています。これらの議論は共通のビジョンを示しています。bGPT は最終的に、あらゆる種類のバイト データを処理および出力できる統合モデルを実現し、真にデジタル世界の包括的なシミュレーターになる可能性があります。
研究チームは、bGPT のコードとモデルをオープンソース化しました。これは、モデル アーキテクチャを調整せずに、独自のデータ セットで bGPT を直接トレーニングし、デジタル分野におけるバイト モデルの幅広い可能性を探ることができることを意味します。
以上がLLMは歴史になるでしょうか?オープンソースの bGPT は深層学習のパラダイムを覆す可能性があります。バイナリを直接シミュレートし、アナログ デジタル世界の新時代を切り開きます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。