Meta は、テキスト、音声、視覚など 6 種類のデータを統合するオープンソースの多感覚人工知能モデルです。-AI-php.cn

ホームページ

テクノロジー周辺機器

Meta は、テキスト、音声、視覚など 6 種類のデータを統合するオープンソースの多感覚人工知能モデルです。

王林

May 16, 2023 am 09:43 AM

AIオープンソース

Meta Inc. は、テキスト、オーディオ、ビジュアルデータ、温度と動きの測定値などを含む複数のデータストリームを統合する新しいオープンソースの人工知能モデルである ImageBind をリリースしました。このモデルは現在単なる研究プロジェクトにすぎず、消費者への直接的な応用や実用化はまだありませんが、没入型で多感覚の体験を生み出すことができる将来の生成 AI システムの可能性を示しています。同時に、このモデルは、OpenAI や Google などの競合他社がますます閉鎖的になる一方で、人工知能研究の分野における Meta のオープンな姿勢も示しています。

Meta 开源多感官人工智能模型，整合文本、音频、视觉等六类数据

#研究の核となるコンセプトは、複数の種類のデータを多次元インデックス (人工知能の用語では「埋め込み空間」) に統合することです。この概念は少し抽象的かもしれませんが、最近の生成人工知能ブームの基礎となっています。たとえば、DALL-E、Stable Diffusion、Midjourney などの AI 画像ジェネレーターは、トレーニング段階でテキストと画像を結び付けるシステムに依存しています。彼らは、この情報を画像の説明に結び付けながら、視覚データ内のパターンを探します。これらのシステムがユーザーのテキスト入力に基づいて画像を生成できるのはこのためです。同じ方法でビデオやオーディオを生成できる多くの AI ツールにも同じことが当てはまります。

Meta によれば、そのモデル ImageBind は 6 種類のデータを単一の埋め込みスペースに統合した初めてのモデルです。 6 種類のデータには、視覚 (画像とビデオを含む)、熱画像 (赤外線画像)、テキスト、音声、深度情報、そして最も興味深いのは、慣性測定ユニット (IMU) によって生成される運動測定値が含まれます。 (IMU は携帯電話やスマートウォッチに搭載されており、携帯電話を横向きから縦向きに切り替えることから、さまざまな種類の動きを区別するまで、さまざまなタスクを実行するために使用されます。)

将来の AI システムは、タスクを実行できるようになります。テキスト入力システムと同様に、このデータを相互参照します。たとえば、オーディオおよびビジュアル入力だけでなく、環境や物理プラットフォームの動きも生成できる将来の仮想現実デバイスを想像してください。長い海の旅を疑似体験してもらうと、波の音を背景に船に乗るだけでなく、足元で甲板が揺れ、海風が吹くのを感じることもできます。

メタ氏はブログ投稿で、将来のモデルでは「触覚、音声、匂い、脳のfMRI信号」などの他の感覚入力ストリームも追加できる可能性があると指摘した。同社はまた、この研究により、「機械がさまざまな形の情報から同時に、包括的に、直接学習する人間の能力に近づくことができる」と主張しています。

もちろん、この多くは予測に基づいています。この研究の直接的な応用は非常に限られている可能性が高い。たとえば昨年、Meta 社は、テキストの説明に基づいて短くぼやけたビデオを生成できる AI モデルを実証しました。 ImageBind などの研究では、システムの将来のバージョンで、ビデオ出力に一致するオーディオの生成など、他のデータストリームを組み込む方法が示されています。

業界観察者にとって、この調査も興味深いものです。なぜなら、IT House は、メタカンパニーが基礎となるモデルをオープンソース化していることに気づいたからです。これは、人工知能の分野でますます注目を集めている実践です。

以上がMeta は、テキスト、音声、視覚など 6 種類のデータを統合するオープンソースの多感覚人工知能モデルです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。クラウドコンピューティングとセキュリティレッスンの台頭で

3つの方法生成AIは起業家を増幅します：平均に注意してください！Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する：Andrew Ngの新しいコースに深く飛び込むマシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル（LLMS）の幻覚は避けられませんか？Apr 15, 2025 am 11:31 AM

大規模な言語モデル（LLM）と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル（LLMS）、強力なAIシステムの例です。

60％の問題 - AI検索がトラフィックを排出する方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64％減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。新しい

AI R＆Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。