検索
ホームページテクノロジー周辺機器AI脳内の映像を高解像度で復元できるようになりました

近年、画像生成の分野、特にテキストから画像への生成において大きな進歩が見られます。テキストを使用して考えを説明する限り、AI は斬新でリアルな画像を生成できます。

しかし、実際にはさらに一歩進めることができます。心の中の考えをテキストに変換するステップを省略し、脳活動 (EEG (脳波) 記録など) を通じて直接制御することができます。 ) 画像の生成的作成。

この「思考からイメージへ」生成方法には、幅広い応用の可能性があります。たとえば、芸術創作の効率が大幅に向上し、人々が一瞬のインスピレーションを捉えるのに役立ち、夜間に人々の夢を視覚化することも可能になる可能性があり、自閉症の子供や言語障害の患者を助けるための心理療法にも使用される可能性があります。

最近、清華大学深セン国際大学院、テンセント AI 研究所、彭城研究所の研究者が共同で、訓練されたデータの強力な生成機能を使用して「イメージへの思考」に関する研究論文を発表しました。テキストから画像へのモデル (安定拡散など) は、EEG 信号から直接高品質の画像を生成します。

脳内の映像を高解像度で復元できるようになりました写真

論文アドレス: https://arxiv.org/pdf/2306.16934.pdf

プロジェクトのアドレス: https://github.com/bbaaii/DreamDiffusion

メソッドの概要

最近の関連研究(例: MinD-Vis) は、fMRI (機能的磁気共鳴画像信号) に基づいて視覚情報を再構築しようと試みます。彼らは、脳の活動を使用して高品質の結果を再構築する実現可能性を実証しました。しかし、これらの方法は、脳信号を迅速かつ効率的に作成するための理想的な利用にはまだ程遠いです。これは主に 2 つの理由によるものです:

第一に、fMRI 装置は持ち運びができず、それが必要です。専門家によって操作されているため、fMRI 信号を捕捉するのは困難です;

第 2 に、fMRI データ収集のコストが高く、実際の芸術作品制作でこの方法を使用するのに大きな障害となります。 . .

対照的に、EEG は脳の電気活動を記録する非侵襲的で低コストの方法であり、現在、EEG 信号を取得できるポータブルな市販製品が市販されています。

しかし、「思考からイメージへ」の生成を実現するには、依然として 2 つの主要な課題があります。

1) EEG 信号は、次の方法によって生成されます。非侵襲的な方法で捕獲するため、騒音が発生します。また、脳波データには限界があり、個人差も無視できません。では、非常に多くの制約の下で、EEG 信号から効果的で堅牢な意味表現を取得するにはどうすればよいでしょうか?

2) 安定拡散のテキストと画像の空間は、CLIP の使用と多数のテキストと画像のペアでのトレーニングにより、適切に位置合わせされています。しかし、脳波信号には独自の特性があり、その空間はテキストや画像とは大きく異なります。限られたノイズのある脳波と画像のペア上で脳波、テキスト、画像の空間をどのように調整するか?

最初の課題に対処するために、この研究では、まれな EEG 画像ペアだけではなく、大量の EEG データを使用して EEG 表現をトレーニングすることを提案します。この研究では、マスクされた信号モデリング手法を使用して、文脈上の手がかりに基づいて欠落トークンを予測します。

入力を 2 次元画像として扱い、空間情報をマスクする MAE や MinD-Vis とは異なり、この研究では脳波信号の時間的特性を考慮し、EEG 信号の時間特性をより深く掘り下げます。人間の脳の意味論の時間的変化。この研究では、トークンの一部をランダムにブロックし、ブロックされたトークンを時間領域で再構築しました。このようにして、事前トレーニングされたエンコーダーは、さまざまな個人およびさまざまな脳活動からの EEG データを深く理解することができます。

2 番目の課題については、以前のソリューションでは通常、トレーニングに少数のノイズの多いデータ ペアを使用して、安定拡散モデルを直接微調整していました。ただし、最終的な画像再構成損失を考慮して SD をエンドツーエンドで微調整するだけでは、脳信号 (EEG や fMRI など) とテキスト空間の間の正確な位置合わせを学習することは困難です。したがって、研究チームは、EEG、テキスト、および画像空間の位置合わせを実現するために、追加の CLIP 監視を使用することを提案しました。

具体的には、SD 自体は CLIP のテキスト エンコーダーを使用してテキスト エンコーダを生成します。これは、前段階のマスクされた事前トレーニングされた EEG エンベディングとは大きく異なります。 CLIP の画像エンコーダを活用して、CLIP のテキスト埋め込みと適切に調整された豊富な画像埋め込みを抽出します。これらの CLIP 画像埋め込みは、EEG 埋め込み表現をさらに改良するために使用されました。したがって、改良された EEG 特徴埋め込みは CLIP の画像およびテキスト埋め込みとよく調整でき、SD 画像生成により適しており、それによって生成される画像の品質が向上します。

上記の 2 つの慎重に設計されたソリューションに基づいて、この研究では新しい手法 DreamDiffusion を提案します。 DreamDiffusion は、脳波 (EEG) 信号から高品質でリアルな画像を生成します。

脳内の映像を高解像度で復元できるようになりました写真

具体的には、DreamDiffusion は主に 3 つの部分で構成されます。

1 ) 信号の事前トレーニングをマスクして、効果的で堅牢な EEG エンコーダを実現します。

#2) 微調整には、事前トレーニングされた安定拡散と限定された EEG 画像ペアを使用します。

3) CLIP エンコーダを使用して、EEG、テキスト、画像スペースを調整します。

まず、研究者らはノイズの多いEEGデータを使用し、マスク信号モデリングを使用し、EEGエンコーダーをトレーニングして、文脈上の知識を抽出しました。結果として得られる EEG エンコーダは、クロスアテンション メカニズムを介して安定拡散の条件付き機能を提供するために使用されます。

脳内の映像を高解像度で復元できるようになりました写真

#EEG 機能と安定拡散の互換性を強化するために、研究者らは、EEG の埋め込みをさらに削減しました。微調整プロセス CLIP 画像埋め込みからの距離により、EEG、テキスト、画像の埋め込みスペースがさらに調整されます。

実験と分析

Brain2Imageとの比較

研究者による比較Brain2Image を使用したこの記事の方法。 Brain2Image は、EEG から画像への変換に、従来の生成モデル、つまり変分オートエンコーダー (VAE) と敵対的生成ネットワーク (GAN) を使用します。ただし、Brain2Image はいくつかのカテゴリの結果のみを提供し、リファレンス実装は提供しません。

これを念頭に置いて、この研究では、Brain2Image 論文に示されているいくつかのカテゴリ (つまり、飛行機、ジャック・オ・ランタン、パンダ) の定性的比較を実行しました。公平な比較を確保するために、研究者らは Brain2Image 論文で説明されているのと同じ評価戦略を使用し、さまざまな方法で生成された結果を以下の図 5 に示しています。

以下の図の最初の行は Brain2Image によって生成された結果を示し、最後の行は研究者が提案した手法である DreamDiffusion によって生成された結果を示しています。 DreamDiffusion によって生成された画像品質は、Brain2Image によって生成された画像品質よりも大幅に高いことがわかり、この方法の有効性も検証されています。

脳内の映像を高解像度で復元できるようになりました#写真

アブレーション実験

# #事前トレーニングの役割: 大規模なEEGデータの事前トレーニングの有効性を証明するために、この研究では未訓練のエンコーダーを使用して検証用に複数のモデルをトレーニングしました。モデルの 1 つは完全なモデルと同一でしたが、もう 1 つのモデルにはデータの過剰適合を避けるために 2 つの EEG コーディング層しかありませんでした。トレーニング プロセス中、2 つのモデルは CLIP 監視の有無にかかわらずトレーニングされ、その結果が表 1 のモデルの列 1 ~ 4 に示されています。事前トレーニングなしのモデルの精度が低下していることがわかります。

脳内の映像を高解像度で復元できるようになりました

マスク率: この記事では、最適な MSM を決定するための EEG データの使用についても研究します。トレーニング前のマスク率。表 1 のモデルの列 5 ~ 7 に示されているように、マスク率が高すぎるか低すぎると、モデルのパフォーマンスに悪影響を及ぼす可能性があります。マスク率が 0.75 の場合、総合精度が最も高くなります。この発見は、通常低いマスク比を使用する自然言語処理とは異なり、EEG で MSM を実行する場合は高いマスク比がより良い選択であることを示唆しているため、非常に重要です。

CLIP アライメント: このアプローチの鍵の 1 つは、CLIP エンコーダを介した画像に対する EEG 表現のアライメントです。本研究では、この手法の有効性を検証するために実験を行ったので、その結果を表1に示します。 CLIP 監視が使用されていない場合、モデルのパフォーマンスが大幅に低下することがわかります。実際、図 6 の右下隅に示すように、CLIP を使用して EEG 特徴を位置合わせすると、事前トレーニングがなくても妥当な結果が得られます。このことは、この方法における CLIP 監視の重要性を強調しています。 ###############写真######

以上が脳内の映像を高解像度で復元できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Pythonの可変vs不変のオブジェクト-AnalyticsVidhyaPythonの可変vs不変のオブジェクト-AnalyticsVidhyaApr 13, 2025 am 09:15 AM

導入 Pythonはオブジェクト指向のプログラミング言語(またはoop)です。前の記事では、その多目的な性質を調査しました。このため、Pythonはさまざまなデータ型を提供します。これはMに広く分類できます

無料でTableauを学ぶ11のYouTubeチャネル-AnalyticsVidhya無料でTableauを学ぶ11のYouTubeチャネル-AnalyticsVidhyaApr 13, 2025 am 09:14 AM

導入 Tableauは、効率的なデータ分析とプレゼンテーションのために、世界中で企業や個人が現在使用している最も堅牢なデータ視覚化ツールの1つと考えられています。ユーザーフレンドリーなインターフェイスとextenを使用しています

10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)