検索
ホームページテクノロジー周辺機器AIAI Morning Post | テキスト、画像、音声、ビデオ、そして 3D が相互に生成し合う体験とは何ですか?

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

現地時間の 5 月 9 日、Meta は、視覚 (画像およびビデオ形式)、温度 (赤外線画像)、テキスト、音声、深度情報、モーション読み取り値 (慣性測定ユニットまたは IMU によって生成)。現在、関連するソース コードは GitHub でホストされています。

6 つのモードにまたがるとはどういう意味ですか?

ImageBind はビジョンを核としており、6 つのモードを自由に理解して変換できます。 Meta は、犬の鳴き声を聞いて犬の絵を描き、対応する深度マップとテキストの説明を同時に与える、鳥の画像と海の波の音を入力して画像を取得するなどのいくつかのケースを示しました。浜辺の鳥。

Midjourney、Stable Diffusion、DALL-E 2 などのテキストと画像を組み合わせる画像ジェネレーターと比較すると、ImageBind はより広い網を張るようなもので、テキスト、画像/ビデオ、オーディオ、3D 測定値 (深度)、温度データを接続できます。 (熱) および運動データ (IMU から) を分析し、人間が環境を知覚または想像する方法と同様に、あらゆる可能性について最初にトレーニングすることなく、データ間のつながりを直接予測します。

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

研究者らは、ImageBind は大規模な視覚言語モデル (CLIP など) を使用して初期化できるため、これらのモデルの豊富な画像とテキスト表現を活用できると述べています。したがって、ImageBind は、ほとんどトレーニングすることなく、さまざまなモダリティやタスクに適応できます。

ImageBind は、関連するすべての種類のデータから学習するマルチモーダル AI システムを作成するという Meta の取り組みの一環です。モダリティの数が増えるにつれ、ImageBind は研究者が 3D センサーと IMU センサーを組み合わせて没入型の仮想世界を設計または体験するなど、新しい総合的なシステムの開発を試みるための水門を開きます。また、テキスト、ビデオ、画像を組み合わせて画像、ビデオ、オーディオ ファイル、またはテキスト情報を検索することで、記憶を探索する豊富な方法も提供します。

このモデルは現在単なる研究プロジェクトであり、直接的な消費者向けまたは実用的なアプリケーションはありませんが、生成 AI が将来どのように没入型で多感覚のコンテンツを生成できるかを示し、またメタインが可能であることも示しています。 OpenAI や Google などの競合他社とは異なる方法で、大規模なオープンソース モデルへの道を切り開いています。

結局のところ、Meta は ImageBind テクノロジーが最終的には現在の 6 つの「感覚」を超えると信じており、ブログで次のように述べています。 —触覚、音声、嗅覚、脳の fMRI 信号など—により、より豊かな人間中心の人工知能モデルが可能になります。」

ImageBind の使用

ChatGPT が検索エンジンおよび質問と回答のコミュニティとして機能し、Midjourney が描画ツールとして使用できる場合、ImageBind で何ができるでしょうか?

公式デモによると、画像から直接音声を生成できます:

音声から画像を生成することもできます:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

または、次のテキストを入力して、関連する画像や音声コンテンツを直接取得することもできます:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

音声を与えて対応する画像を生成することもできます:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

前述したように、ImageBind は、将来の生成 AI システムを複数のモダリティで提示する方法を提供し、同時に Meta の内部仮想現実、複合現実、メタバース、その他のテクノロジーやシナリオと組み合わせることができます。 ImageBind のようなツールを使用すると、アクセシブルな空間に新しい扉が開きます。たとえば、視覚や聴覚に障害のある人が周囲の環境をよりよく認識できるように、リアルタイムのマルチメディア記述を生成することができます。

マルチモーダル学習については、まだ発見されていないことがたくさんあります。現在、人工知能の分野では、より大きなモデルでのみ現れるスケーリング動作を効果的に定量化し、そのアプリケーションを理解していません。 ImageBind は、画像の生成と取得のための新しいアプリケーションを厳密な方法で評価および実証するためのステップです。

作者: バラッド

出典: First Electric Network (www.d1ev.com)

以上がAI Morning Post | テキスト、画像、音声、ビデオ、そして 3D が相互に生成し合う体験とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は搜狐で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますメンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加します2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaPythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は?Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかエージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai:学生のためのAIの戦いGoogle対Openai:学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)