2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください-AI-php.cn

ホームページ

テクノロジー周辺機器

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 07, 2024 am 08:40 AM

データモデル

写真は 2 枚だけです。、追加のデータを測定する必要はありません。——

Dangdang、完全な 3D クマがそこにあります:

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

##DUSt3R というこの新しいツールは非常に人気があり、公開されて間もなく GitHub ホットリストで 2 位にランクされました。 ##。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

ネチズンは実際にテストを行い、写真を 2 枚撮り、プロセス全体を実際に再現しました

必要な作業は少なくなります2 秒以上 ! (3D 画像に加えて、深度マップ、信頼度マップ、点群画像も提供できます)

これはすごい友人はこう言わなければなりません:

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてくださいみんな

soraのことは忘れてください

まず、これは私たちが実際に見て触れることができるものです。
# 実験では、DUSt3R が単眼/多視点深度推定と相対姿勢推定の 3 つのタスクで SOTA を達成することを示しています。

著者チーム 2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください (フィンランド、アアルト大学、NAVER LABS人工知能研究所欧州支部より)

の「マニフェスト」も勢いに満ちています:

私たちは、世界から難しい 3D ビジュアルタスクを必要としないようにすることです。

それでは、どうやって行うのでしょうか?

「オールインワン」

マルチビューステレオ再構成

(MVS)

タスクの最初のステップは、内部パラメータと内部パラメータを含むカメラパラメータを推定することです。外部パラメータ。

この操作は退屈で面倒ですが、後続の 3 次元空間内のピクセルの三角形分割には不可欠であり、これはパフォーマンスが向上するほぼすべての MVS アルゴリズムの切り離せない部分です。

この記事の研究において、著者のチームによって導入された DUSt3R は、まったく異なるアプローチを採用しました。

は、カメラのキャリブレーションや視点姿勢に関する事前情報を必要とせず、任意の画像の高密度または制約のない 3D 再構成を完了できます。

ここで、チームはペアワイズ再構成問題をポイントプロット回帰として定式化し、単眼と両眼の再構成状況を統合します。

3 つ以上の入力イメージが提供される場合、ポイントイメージのすべてのペアは、シンプルで効果的なグローバルアライメント戦略を通じて共通の参照フレームに表現されます。下の図に示すように、未知のカメラポーズと固有の特徴を持つ写真のセットが与えられると、DUSt3R は対応するポイントマップのセットを出力します。そこから、通常は推定が難しいさまざまな幾何学量を直接復元できます。カメラパラメータ、ピクセル対応、深度マップ、完全に一貫した 3D 再構築効果など。

(著者は、DUSt3R が単一の入力画像にも適用できることを思い出させます)

特定のネットワークアーキテクチャに関して言えば、DUSt3R 2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

Standard Transformer エンコーダおよびデコーダ

に基づいており、CroCo (ビュー全体にわたる 3D ビジョンタスクの自己教師あり事前トレーニングに関する研究)

からインスピレーションを得て採用されました。単純な回帰損失トレーニングが完了しました。

下の図に示すように、シーンの 2 つのビュー (I1, I2) は、最初に共有 ViT エンコーダーを使用して Siamese (Siamese) モードでエンコードされます。。

結果のトークン表現

(F1 および F2)

は、クロスアテンションを渡す 2 つの Transformer デコーダーに渡されます。情報は常に交換されます。。

^{#最後に、2 つの回帰ヘッドは 2 つの対応点マップと関連する信頼度マップを出力します。}重要な点は、両方のポイントマップが最初のイメージと同じ座標系で表される必要があるということです。

マルチタスク SOTA

実験では、まず 7Scenes (7 つの屋内シーン) および Cambridge Landmarks (8 つの屋外シーン) データセットで DUST3R のパフォーマンスを評価します。絶対姿勢推定タスクの場合、指標は平行移動誤差と回転誤差 (値が小さいほど優れています) です。

著者は、他の既存の特徴マッチングやエンドツーエンドの手法と比較して、DUSt3R のパフォーマンスは顕著であると述べています。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

なぜなら、視覚的な位置決めのトレーニングを一度も受けたことがなく、第二に、トレーニングプロセス中にクエリ画像やデータベース画像に遭遇したことがないからです。

2 番目は、10 個のランダムなフレームに対して実行されるマルチビューポーズ回帰タスクです。結果 DUST3R は両方のデータセットで最高の結果を達成しました。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

単眼の深度推定タスクでは、DUSt3R は屋内および屋外のシーンも適切に保持でき、自己教師ありベースラインよりも優れたパフォーマンスを発揮しますが、最先端の教師ありベースラインとは異なります。 . 上下。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

マルチビュー深度推定の点でも、DUSt3R のパフォーマンスは優れています。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

以下は、2 つの担当者グループによって与えられた 3D 再構成効果です。雰囲気を伝えるために、入力した画像は 2 つだけです:

(1 )

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

(2)

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

ネチズンによる実測: 2つの写真が重ならなければOK

はいネットユーザーが DUST3R に重複するコンテンツのない 2 つの画像を提供したところ、数秒以内に正確な 3D ビューが出力されました。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

(写真は彼のオフィスなので、トレーニング中に見たことはないと思います）

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

これに対して、一部のネチズンは、これはつまり、「客観的な測定」を行い、代わりに AI のように動作します。

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

さらに、入力画像が 2 つの異なるカメラで撮影された場合でもこの方法が有効かどうかを知りたい人もいます ?

一部のネチズンが実際に試してみたところ、答えは yes!

2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてください

ポータル:
[1]論文 https://arxiv.org/abs/2312.14132
[2]コード https://arxiv.org/abs/2312.14132 ://github.com/naver/dust3r

以上が2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてくださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました

AIが間違っていましたか？今、そのための保険がありますMay 01, 2025 am 11:11 AM

AIのリスクを取り巻く増大する懸念に対処するために、グローバルな専門家保険会社であるChaucer GroupとArmilla AIは、新しいサードパーティの責任（TPL）保険商品を導入するために力を合わせました。このポリシーは、企業を守ります

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。