NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。-AI-php.cn

ホームページ

テクノロジー周辺機器

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

王林

Apr 26, 2023 pm 05:37 PM

3d開発する

2D 画像の 3D 再構成は、常に CV 分野のハイライトでした。

この問題を克服するために、さまざまなモデルが開発されてきました。

本日、シンガポール国立大学の学者らが共同で論文を発表し、この長年の問題を解決するための新しいフレームワーク Anything-3D を開発しました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

論文アドレス: https://arxiv.org/pdf/2304.10261.pdf

#Meta の「すべてを分割する」モデルの助けを借りて、Anything-3D は分割されたオブジェクトを直接生き生きとさせます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

さらに、Zero-1-to-3 モデルを使用すると、コーギーをさまざまな角度から見ることができます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

# 文字の 3D 再構築も実行できます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

これは本当に画期的なものであると言えます。

何でも 3D!

現実世界では、さまざまな物体や環境が多様かつ複雑です。したがって、制約がなければ、単一の RGB 画像から 3D 再構成することは多くの困難に直面します。

ここでは、シンガポール国立大学の研究者が、一連の視覚言語モデルと SAM (セグメント-エニシング) オブジェクトセグメンテーションモデルを組み合わせて、多機能で信頼性の高いシステムを生成しました。 -3D。

目的は、単一視点の条件下で 3D 再構成のタスクを完了することです。

BLIP モデルを使用してテクスチャ記述を生成し、SAM モデルを使用して画像内のオブジェクトを抽出し、テキスト → 画像拡散モデル Stable Diffusion を使用してオブジェクトを Nerf に配置します。 (神経放射線野) 。

その後の実験で、Anything-3D は強力な 3 次元再構成機能を実証しました。正確なだけでなく、幅広い用途に適用できます。

Anything-3D は、既存の方法の限界を解決する上で明らかな効果をもたらします。研究者らは、さまざまなデータセットでのテストと評価を通じて、この新しいフレームワークの利点を実証しました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

上の写真には、「コーギーが舌を出して何千マイルも走っている写真」と「その写真」が見られます。高級車に身を投じる銀翼の女神のイメージ」と「頭に青いロープをかぶった野原の茶色の牛のイメージ」。

これは、Anything-3D フレームワークが、あらゆる環境で撮影された単一ビューの画像を 3D 形式に巧みに復元し、テクスチャを生成できることを示す予備的なデモンストレーションです。

この新しいフレームワークは、カメラの視点やオブジェクトのプロパティが大きく変化しても、一貫して高精度の結果を提供します。

2D 画像から 3D オブジェクトを再構成することは、コンピュータービジョンの分野の主題の中核であり、ロボット工学、自動運転、拡張現実、仮想現実に大きな影響を与えることを知っておく必要があります。、3次元プリントなどに影響を与えます。

近年、ある程度の進歩は見られましたが、非構造化環境における単一画像オブジェクトの再構築というタスクは依然として非常に魅力的な問題であり、早急に解決する必要があります。

現在、研究者は、点群、グリッド、ボリューム表現など、単一の 2 次元画像から 1 つまたは複数のオブジェクトの 3 次元表現を生成する任務を負っています。

しかし、この問題は根本的に真実ではありません。

2 次元投影によって生じる固有の曖昧さのため、オブジェクトの 3 次元構造を明確に決定することは不可能です。

形状、サイズ、質感、外観の大きな違いと相まって、自然環境で物体を再構築することは非常に複雑です。さらに、現実世界の画像内のオブジェクトは遮蔽されることが多く、遮蔽された部分の正確な再構成が妨げられます。

同時に、照明や影などの変数もオブジェクトの外観に大きな影響を与える可能性があり、角度や距離の違いによって 2 次元投影に明らかな変化が生じることもあります。

難しいことについてはもう十分です。Anything-3D をプレイする準備ができました。

研究者らは論文の中で、視覚言語モデルとオブジェクトセグメンテーションモデルを統合して 2D オブジェクトを簡単に 3D に変換するこの画期的なシステムフレームワークを詳細に紹介しました。

このようにして、強力な機能と強力な適応性を備えたシステムになります。シングルビューの再構築?簡単です。

2 つのモデルを組み合わせることで、特定の画像の 3 次元テクスチャと幾何学形状を取得して決定することが可能だと研究者らは述べています。

Anything-3D は、BLIP モデル (ブートストラップ言語画像モデル) を使用して画像のテキスト説明を事前トレーニングし、SAM モデルを使用して画像の分布領域を特定します。オブジェクト。

次に、セグメント化されたオブジェクトとテキストの説明を使用して、3D 再構成タスクを実行します。

つまり、この論文では、事前学習済みの 2D テキスト→画像拡散モデルを使用して、画像の 3D 合成を実行します。さらに、研究者らは分別蒸留を使用して、画像専用の Nerf をトレーニングしました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

上の図は、3D 画像を生成するプロセス全体です。左上隅は 2D 元の画像で、最初に SAM を介してコーギーをセグメント化し、次に BLIP を介してテキストの説明を生成し、次に分別蒸留を使用してナーフを作成します。

研究者らは、さまざまなデータセットでの厳密な実験を通じて、このアプローチの有効性と適応性を実証し、同時に精度、堅牢性、一般化機能の点で既存の方法を上回りました。

研究者らはまた、自然環境における 3D オブジェクトの再構築における既存の課題の包括的かつ詳細な分析を実施し、新しいフレームワークがそのような問題をどのように解決できるかを調査しました。

最終的に、基本モデルにゼロ距離視覚と言語理解機能を統合することにより、新しいフレームワークはさまざまな現実世界の画像からオブジェクトを再構築し、正確かつ複雑かつ広範な画像を生成できます。適用可能な 3D 表現。

Anything-3D は、3D オブジェクト再構成の分野における大きな進歩であると言えます。

＃

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

#＃緑の帽子をかぶったアヒル

# 時代の涙で色あせた大砲かわいい子豚ミニ貯金箱朱赤の4つ脚付きハイスツール ############### この新しいフレームワークは、単一ビュー画像内の領域をインタラクティブに識別し、最適化されたテキスト埋め込みオブジェクトで 2D を表現できます。最終的には、3D 対応の分別蒸留モデルを使用して、高品質の 3D オブジェクトを効率的に生成します。 ######

要約すると、Anything-3D は、単一ビューの画像から自然な 3D オブジェクトを再構成できる可能性を示しています。

研究者らは、新しいフレームワークの 3D 再構成の品質はより完璧になる可能性があり、生成の品質を向上させるために常に努力していると述べています。

さらに、研究者らは、新しいビューの合成やエラーの再構成などの 3D データセットの定量的評価は現在提供されていないが、これらは将来の反復作業に含まれる予定であると述べました。

一方、研究者の最終目標は、このフレームワークを拡張して、疎なビューでのオブジェクトの回復など、より実際的な状況に対応できるようにすることです。

著者について

Wang は現在、シンガポール国立大学 (NUS) の ECE 学部のテニュアトラック助教授です。

シンガポール国立大学に入社する前は、スティーブンス工科大学の CS 学部で助教授を務めていました。 Stevens に入社する前は、イリノイ大学アーバナシャンペーン校のベックマン研究所でトーマスファン教授の画像形成グループで博士研究員を務めていました。

Wang は、パスカル・フア教授の監督下にあるローザンヌ工科大学 (EPFL) のコンピュータビジョン研究室で博士号を取得し、同大学から第一級優等で理学士号を取得しました。 2010 年に香港理工大学コンピュータサイエンス学部で理学士号を取得。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

以上がNUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、