検索
ホームページテクノロジー周辺機器AIMicrosoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

NLP の分野では、大規模言語モデル (LLM) がさまざまな自然言語タスクの共通インターフェイスとして機能してきました。入力と出力をテキストに変換できる限り、LLM ベースのインターフェイスをタスクに適応させることができます。たとえば、サマリー タスクはドキュメントを取り込み、サマリー情報を出力します。したがって、入力ドキュメントを要約言語モデルに入力し、要約を生成できます。

NLP タスクにおける LLM の適用は成功しているにもかかわらず、研究者は画像や音声などのマルチモーダル データに対して LLM をネイティブに使用することに依然として苦労しています。知能の基本的な構成要素として、マルチモーダルな知覚は、知識の獲得と現実世界への対処の両方において、一般的な人工知能を実現するために必要な条件です。さらに重要なことは、マルチモーダル入力のロックを解除することで、マルチモーダル ロボティクス、ドキュメント インテリジェンス、ロボット工学など、より価値の高い分野での言語モデルの適用を大幅に拡大できることです。

したがって、Microsoft チームは、論文「必要なのは言語だけではない: 認識と言語の調整」で マルチモーダル大規模言語を紹介しました。モデル」モデル (MLLM) - KOSMOS-1 は、一般的なモダリティを認識し、指示に従い (つまり、ゼロショット学習)、コンテキスト内で学習 (つまり、数ショット学習) することができます。研究の目標は、モデルが見て会話できるように、知覚を LLM と一致させることです。研究者らは、METALMの手法に従ってKOSMOS-1をゼロから訓練した(論文「言語モデルは汎用インターフェースである」を参照)。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

  • 論文アドレス: https://arxiv.org/pdf /2302.14045.pdf
  • プロジェクトアドレス: https://github.com/microsoft/unilm

以下の図 1 に示すように、研究者は Transformer ベースの言語モデルを一般的なインターフェイスとして使用し、それを認識モジュールに接続します。彼らは、テキスト データ、任意にインターリーブされた画像とテキスト、画像とキャプションのペアを含む Web スケールのマルチモーダル コーパスでモデルをトレーニングしました。さらに、研究者らは純粋な言語データを送信することで、クロスモーダルな指示に従う能力を調整しました。

最後に、KOSMOS-1 モデルは、以下の表 1 に示すように、ゼロショット学習設定および少数ショット学習設定での言語、知覚言語、および視覚タスクをネイティブにサポートします。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#研究者らは、生成されたいくつかの例を以下の図 2 と 3 に示しています。

KOSMOS-1 モデルは、さまざまな自然言語タスクに加えて、視覚的な対話、視覚的な説明、視覚的な質問応答、画像の字幕、簡単な数式、OCR、ゼロショット画像分類と説明。 彼らはまた、MLLM の非言語的推論能力を評価するために、レイブンのプログレッシブ マトリックス (RPM) に基づいた IQ テスト ベンチマークを確立しました。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#これらの例は、マルチモーダル認識のネイティブ サポートが、新しいタスクに LLM を適用する新しい機会を提供することを示しています。さらに、LLM と比較して、MLLM はより優れた常識推論パフォーマンスを達成し、クロスモーダル転送が知識の獲得を促進することを示しています。

KOSMOS-1 モデルのパラメータ数は 16 億であるため、一部のネチズンは、この大規模なマルチモーダル モデルを自分のコンピュータで実行できるという希望を表明しました。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#

KOSMOS-1: マルチモーダルな大規模言語モデル

図 1 に示すように、KOSMOS-1 は、一般的なモダリティを認識し、命令に従うことができるマルチモーダルな言語モデルです。コンテキスト内で出力を生成します。具体的には、KOSMOS-1 のバックボーンは、Transformer に基づく因果言語モデルです。モデルにはテキスト以外にも他のモダリティを埋め込んで入力することができ、下図に示すように言語以外にも視覚や音声などの埋め込みも可能です。 Transformer デコーダは、マルチモーダル入力の一般的なインターフェイスとして機能します。モデルがトレーニングされると、KOSMOS-1 は、ゼロショットおよびフューショット設定での言語タスクおよびマルチモーダル タスクでも評価できます。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

トランスフォーマー デコーダーは統一された方法でモダリティを認識し、入力情報は特別なトークンを含むシーケンスに平坦化されます。たとえば、 はシーケンスの始まりを示し、 はシーケンスの終わりを示します。特別なトークン と は、エンコードされた画像の埋め込みの開始と終了を表します。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#埋め込みモジュールは、テキスト トークンおよびその他の入力モダリティをベクトル表現にエンコードします。 、この研究ではルックアップ テーブルを使用して埋め込みにマッピングします。連続信号モダリティ (画像や音声など) の場合、入力は離散コードとして表すこともできます。

その後、取得された入力シーケンスの埋め込みが Transformer ベースのデコーダーに供給されます。次に、因果モデルが自己回帰的にシーケンスを処理し、次のトークンが生成されます。要約すると、MLLM フレームワークは、入力がベクトルとして表現されている限り、さまざまなデータ型を柔軟に処理できます。

モデル トレーニング

最初はトレーニング データ セットです。データセットには、テキスト コーパス、画像と字幕のペア、画像とテキストのクロス データセットが含まれます。具体的には、テキスト コーパスには The Pile と Common Crawl (CC) が含まれ、画像とキャプションのペアには英語の LAION-2B、LAION-400M、COYO-700M、および Conceptual Captions が含まれ、画像とテキストのクロスマルチモーダル データ セットは Common Crawl から取得されます。スナップショット。

データセットがあり、次にトレーニング設定があります。 MLLM コンポーネントには、24 のレイヤー、2048 の隠れ次元、8192 の FFN、32 のアテンション ヘッド、および 1.3B のパラメーター サイズが含まれています。より良いモデルの収束を可能にするために、1024 の特徴次元を持つ事前トレーニングされた CLIP ViT-L/14 モデルから画像表現が取得されます。画像はトレーニング中に 224 × 224 の解像度に前処理され、さらに、最後のレイヤーを除くすべての CLIP モデル パラメーターはトレーニング中にフリーズされます。 KOSMOS-1 のパラメータの総数は約 1.6B です。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

#実験結果

この研究では、一連の豊富な実験を実施しました。 KOSMOS-1の評価:言語タスク(言語理解、言語生成、OCRフリーテキスト分類)、クロスモーダル転送(常識推論)、非言語推論(IQテスト)、知覚言語タスク(画像字幕、視覚的質問)および回答、Web Q&A)、視覚的なタスク (ゼロショット画像分類、説明付きゼロショット画像分類)。

#画像の字幕。 次の表は、COCO および Flickr30k でのさまざまなモデルのゼロサンプルのパフォーマンスを示しています。 KOSMOS-1は他のモデルと比べて大きな成果を上げており、パラメータ数がFlamingoよりもはるかに少ないにもかかわらず性能も良好です。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。次の表は、いくつかのサンプルのパフォーマンスの比較を示しています。

##

ビジュアル Q&A。 KOSMOS-1 は、Flamingo-3B および Flamingo-9B モデルよりも高い精度と堅牢性を備えています:

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

次の表は、いくつかのサンプルのパフォーマンスの比較を示しています:

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

## #######IQテスト。レイブンの推論テストは、非言語的推論を評価するために使用される最も一般的なテストの 1 つです。図 4 に例を示します。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。#表 6 は、IQ テスト データセットの評価結果を示しています。 KOSMOS-1は、非言語環境で抽象的な概念的パターンを認識し、複数の選択肢の中から後続の要素を推論することができます。私たちの知る限り、モデルがこのようなゼロサンプルの Raven IQ テストを実行できたのはこれが初めてです。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

ウェブ Q&A。

Web Q&A は、Web ページからの質問に対する回答を見つけることを目的としています。モデルがテキストの意味論と構造の両方を理解する必要があります。結果は次のとおりです。

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。##マルチモーダルな思考チェーン プロンプト。

思考の連鎖のプロンプトに触発されて、この記事ではこの点に関する実験を実施しました。図 5 に示すように、この記事では言語認識タスクを 2 つのステップに分解します。最初の段階で画像が与えられると、最終結果を生成するための要件を満たす出力を生成するようにモデルをガイドするためにキューが使用されます。

表 9 からわかるように、マルチモーダル思考連鎖プロンプトのスコアは 72.9 ポイントです。標準プロンプトよりも高い スコア 5.8 ポイント:

Microsoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。

さらに実験的な内容については、元の論文を参照してください。

以上がMicrosoft マルチモーダル ChatGPT が登場しますか?写真を見て質問に答える、IQ テストなどのタスクを処理するための 16 億のパラメータ。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIセラピストがここにいます:あなたが知る必要がある14の画期的なメンタルヘルスツールAIセラピストがここにいます:あなたが知る必要がある14の画期的なメンタルヘルスツールApr 30, 2025 am 11:17 AM

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。 これが常に良いかどうか

食料品の通路にAIを呼びます食料品の通路にAIを呼びますApr 30, 2025 am 11:16 AM

数十年の技術である人工知能(AI)は、食品小売業界に革命をもたらしています。 大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

あなたの精神を持ち上げるために生成的なAIからPEPの話をするあなたの精神を持ち上げるために生成的なAIからPEPの話をするApr 30, 2025 am 11:15 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です(こちらのリンクを参照)。さらに、私のコンプのために

AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由Apr 30, 2025 am 11:14 AM

プロの画像を維持するには、時折ワードローブの更新が必要です。 オンラインショッピングは便利ですが、対面の試練の確実性がありません。 私の解決策? AI駆動のパーソナライズ。 衣類の選択をキュレーションするAIアシスタントが想像しています

Duolingoを忘れてください:Google Translateの新しいAI機能は言語を教えていますDuolingoを忘れてください:Google Translateの新しいAI機能は言語を教えていますApr 30, 2025 am 11:13 AM

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。 アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。 関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください!」を示しています。つまり、Googleがカスタマイズされたことを意味します

彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれています彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれていますApr 30, 2025 am 11:12 AM

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。 ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル(MCP)に基づいて構築され、AI Agenを可能にします

プロンプト:Deepfake Detectionは活況を呈しているビジネスですプロンプト:Deepfake Detectionは活況を呈しているビジネスですApr 30, 2025 am 11:11 AM

メタの最新のベンチャー:chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。 このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。 レバー

ビジネスリーダーのためのAIサイバーセキュリティでの次の2年間ビジネスリーダーのためのAIサイバーセキュリティでの次の2年間Apr 30, 2025 am 11:10 AM

AIサイバー攻撃の上昇する潮をナビゲートします 最近、人類のためのCISOであるジェイソン・クリントンは、機械間通信が増殖すると、これらの「アイデンティティ」を保護するために、非人間のアイデンティティに結びついた新たなリスクを強調しました。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!