現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野に大きな変化の波を引き起こしています。 LLM には強力な創発能力があり、複雑な言語理解タスク、生成タスク、さらには推論タスクでもうまく機能することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピューター ビジョン (CV) における LLM の可能性をさらに探求するようになりました。
LLM の優れた才能の 1 つは、状況に応じて学習する能力です。コンテキスト学習は LLM のパラメーターを更新しませんが、さまざまな NLP タスクで驚くべき結果を示します。では、GPT は状況に応じた学習を通じて視覚的なタスクを解決できるのでしょうか?
最近、Google とカーネギー メロン大学 (CMU) の研究者が共同で発表した論文は、画像 (または他の非言語モダリティ) を言語に変換できる限り、それを言語に翻訳できることを示しています。 LLM が理解できるので、これは実現可能だと思われます。
#写真
論文アドレス: https://arxiv.org/abs/2306.17842
この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい手法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずにイメージ生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功した方法でもあります。
まず、コンテキスト学習による画像コンテンツの生成に対する LLM の実験的効果を見てみましょう。
#たとえば、この論文では、特定のコンテキストで 50 枚の手書きの画像を提供することで、出力としてデジタル画像を生成する必要がある複雑なクエリに答えるように PaLM 2 に求めています。#Pictures
は、画像コンテキスト入力を使用して現実的な画像を生成することもできます。
Picture
画像の生成に加えて、コンテキスト学習を通じて、PaLM 2 は画像の説明も実行できます。
# #画像関連の質問に対する視覚的な Q&A もあります:
写真
ノイズ除去を使用してビデオを生成することもできます:
画像
メソッドの概要
実際には、画像を LLM が使用できる言語に変換します。は理解できますが、これは Visual Transformer (ViT) 論文で研究されている問題です。 Google と CMU によるこの論文では、画像を表すために実際の単語を使用して、それを次のレベルに引き上げています。
このアプローチは、テキストで満たされた塔を構築し、画像のセマンティクスと詳細をキャプチャするようなものです。このテキストで埋められた表現により、画像の説明を簡単に生成できるようになり、LLM が画像関連の質問に答えたり、画像のピクセルを再構築したりすることもできます。
具体的には、この研究では、トレーニングされたエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、LLM を使用してトークン空間を生成することを提案しています。適切な語彙トークン、最後にトレーニングされたデコーダを使用してこれらのトークンをピクセル空間に変換します。この独創的なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。
この研究では、SPAE と SOTA 手法である Frozen および LQAE を実験的に比較しました。結果を以下の表 1 に示します。 SPAEGPT は、トークンの 2% のみを使用しながら、すべてのタスクで LQAE よりも優れたパフォーマンスを示します。 全体的に、mini-ImageNet ベンチマークでのテストでは、SPAE メソッドが以前の SOTA よりも優れていることがわかりました。このメソッドによりパフォーマンスが向上しました。 25%増加します。 SPAE設計法の有効性を検証するために、本研究ではアブレーション実験を実施しました。表 4 および図 10 に示すとおりです。 # 興味を持った読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。 実験と結果
写真
写真
以上が大規模な言語モデルの視覚的才能: GPT は文脈学習を通じて視覚的なタスクも解決できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

メモ帳++7.3.1
使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン
