検索
ホームページテクノロジー周辺機器AICVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案

単眼ダイナミック シーンとは、単眼カメラを使用して観察および分析される、オブジェクトがシーン内で自由に移動できる動的環境を指します。単眼での動的なシーンの再構成は、環境の動的な変化の理解、物体の運動軌跡の予測、動的なデジタル資産の生成などのタスクにおいて非常に重要です。単眼視覚技術を使用すると、動的シーンの 3 次元再構成とモデル推定が実現され、動的環境におけるさまざまな状況をよりよく理解し、対処できるようになります。この技術はコンピュータビジョンの分野に応用できるだけでなく、自動運転、拡張現実、仮想現実などの分野でも重要な役割を果たします。単眼の動的なシーンの再構成を通じて、環境内のオブジェクトの動きをより正確に捉えることができます。

Neural Radiance Field (Neural Radiance Field、NeRF) に代表されるニューラル レンダリングの台頭により、ますます多くの研究が行われ始めました。動的シーンの 3D 再構築のための暗黙的表現。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は満足のいくレンダリング品質を実現していますが、真のフォトリアルなレンダリングにはまだ程遠いです。

浙江大学とバイトダンスの研究チームは、上記の問題の核心は、レイ キャスティングに基づく NeRF パイプラインが逆流を通じて観測空間を観測空間にマッピングすることであると指摘しました。正規空間が使用される場合。逆マッピングは学習された構造の収束には理想的ではなく、その結果、現在の方法では D-NeRF データセットで 30 レベルの PSNR レンダリング インデックスしか達成できません。

この課題を解決するために、研究チームはラスタライズに基づいた単眼の動的シーンモデリングプロセスを提案しました。彼らは、変形フィールドと 3D ガウスを初めて組み合わせ、高品質の再構築と新しい透視レンダリングを可能にする新しい方法を作成しました。この研究論文「高忠実度単眼動的シーン再構成のための変形可能な 3D ガウシアン」が、コンピューター ビジョン分野のトップ国際学会である CVPR 2024 に採択されました。この研究のユニークな点は、変形フィールドを 3D ガウスに適用して単眼の動的シーンに拡張する最初の研究であることです。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

  • プロジェクトのホームページ: https://ingra14m.github.io/Deformable-Gaussians/

  • 論文リンク: https://arxiv.org/abs/2309.13101

  • コード: https://github.com/ingra14m/Deformable-3D-Gaussians

実験結果は、変形フィールドが正準空間の 3D ガウス順方向マッピングを観測空間に正確に効果的にマッピングできることを示しています。 D-NeRF データセットでは、10% 以上の PSNR 改善が達成されました。さらに、実際のシーンでは、カメラのポーズが十分に正確ではない場合でも、レンダリングの詳細を向上させることができます。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

# 図 1 ハイパーナーフの実際のシーンの実験結果。

関連作品

動的シーンの再構成は、3 次元再構成において常にホットな問題です。 NeRFに代表されるニューラルレンダリングが高品質なレンダリングを実現するにつれ、動的再構成の分野でも暗黙的表現に基づく一連の研究が登場している。 D-NeRF と Nerfies は、NeRF レイキャスティング パイプラインに基づいた変形フィールドを導入し、堅牢な動的なシーンの再構築を実現します。 TiNeuVox、K-Planes、および Hexplanes は、これに基づいてグリッド構造を導入し、モデルのトレーニング プロセスを大幅に高速化し、レンダリング速度を向上させます。ただし、これらの方法はすべて逆マッピングに基づいており、ゲージ空間と変形フィールドの高品質な分離を真に達成することはできません。

3D ガウス スプラッシュは、ラスター化に基づいた点群レンダリング パイプラインです。 CUDA によってカスタマイズされた微分可能なガウス ラスタライゼーション パイプラインと革新的な高密度化により、3D ガウスは SOTA レンダリング品質を実現するだけでなく、リアルタイム レンダリングも実現します。動的 3D ガウスは、まず静的 3D ガウスを動的フィールドに拡張します。ただし、マルチビュー シーンのみを処理できるため、携帯電話での撮影などのシングルビュー シーンなど、より一般的な状況での用途が大幅に制限されます。

研究思想

Deformable-GS の核心は、静的な 3D ガウスを単眼の動的なシーンに拡張することです。各 3D ガウスは、画像レベルのレンダリングのための位置、回転、スケール、不透明度、および SH 係数を保持します。 3D ガウス アルファ ブレンドの公式によれば、時間の経過に伴う位置、およびガウス形状を制御する回転とスケーリングが、動的な 3D ガウスを決定する決定的なパラメータであることを見つけるのは難しくありません。ただし、従来の点群ベースのレンダリング方法とは異なり、3D ガウスが初期化された後、位置や透明度などのパラメーターは最適化によって継続的に更新されます。これにより、動的ガウスの学習がさらに困難になります。 ###

この研究は、変形フィールドと 3D ガウスを組み合わせて最適化される動的シーン レンダリング フレームワークを革新的に提案します。具体的には、本研究では、COLMAP またはランダム点群によって初期化された 3D ガウスを正準空間として扱い、変形フィールドを使用して正準空間内の 3D ガウスの座標情報を入力として使用し、各 3D ガウスの位置と形状を予測します。時間の経過とともにパラメータが変化します。この研究では、変形フィールドを使用して、ラスター化されたレンダリングのために 3D ガウスを正準空間から観測空間に変換できます。この戦略は 3D ガウスの微分可能なラスタライゼーション パイプラインには影響せず、それによって計算された勾配を使用して正準空間 3D ガウスのパラメーターを更新できます。

さらに、変形フィールドの導入は、より大きな動作範囲を持つ部品のガウス密度化に有益です。これは、動きの振幅が大きい領域の変形場の勾配が相対的に高くなり、高密度化プロセス中に対応する領域がより細かく制御されるようになるためです。正準空間 3D ガウスの数と位置パラメータは初期段階では常に更新されますが、実験結果は、この統合最適化戦略が最終的には堅牢な収束結果を達成できることを示しています。約 20,000 回の反復の後、正準空間内の 3D ガウスの位置パラメータはほとんど変化しません。

研究チームは、実際のシーンでのカメラのポーズが十分に正確ではないことが多く、動的なシーンがこの問題をさらに悪化させることを発見しました。神経放射場は多層パーセプトロン (MLP) に基づいており、非常に滑らかな構造であるため、これは神経放射場に基づく構造に大きな影響を与えません。ただし、3D ガウスは点群の明示的な構造に基づいており、わずかに不正確なカメラのポーズをガウス スプラッシュによって確実に修正することは困難です。

この問題を軽減するために、この研究ではアニーリング スムーズ トレーニング (AST) を革新的に導入しました。このトレーニング メカニズムは、初期段階では 3D ガウシアンの学習をスムーズにし、後の段階ではレンダリングの詳細度を高めるように設計されています。この機構の導入により、レンダリングの品質が向上するだけでなく、時間補間タスクの安定性と滑らかさも大幅に向上します。

図 2 に本研究のパイプラインを示します. 詳細については論文の原文を参照してください。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

結果表示

この研究では、最初に、この分野で広く使用されている D-NeRF データセット上の合成データセットの実験を行いました。動的再構築の。図 3 の視覚化結果から、Deformable-GS では以前の方法と比較してレンダリング品質が大幅に向上していることがわかります。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

##図3 D-NERFデータセットに関するこの研究の定性的実験的比較結果。

この研究で提案された方法は、視覚効果の大幅な改善を達成するだけでなく、それに対応してレンダリングの定量的指標も改善します。研究チームがD-NeRFデータセットのレゴシーンにエラーを発見したことは注目に値します。つまり、トレーニングセットとテストセットのシーンにはわずかな違いがあります。これは、レゴ モデルのシャベルのフリップ角度が一貫していないことに現れています。これは、レゴ シーンで以前の方法の指標を改善できない根本的な理由でもあります。有意義な比較を可能にするために、この研究ではメトリクス測定のベースラインとしてレゴの検証セットを使用しました。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

図 4 合成データセットの定量的比較。

図 4 に示すように、この研究では、CVPR 2020 の D-NeRF、Sig Asia 2022 の TiNeuVox、CVPR2023 Tensor4D、K プレーンを含む SOTA メソッドをフル解像度 (800x800) で比較しました。 。この研究で提案された方法は、さまざまなレンダリング指標 (PSNR、SSIM、LPIPS) およびさまざまなシナリオにおいて大幅な改善を達成しました。

この研究で提案された方法は、合成シーンに適用できるだけでなく、カメラのポーズが十分に正確ではない実際のシーンでも SOTA 結果を達成します。図 5 に示すように、この研究は NeRF-DS データセットに対する SOTA 手法と比較しています。実験の結果、本研究で提案した手法は、高光反射面に特別な処理を行わなくても、高光反射シーンに特化したNeRF-DSを上回り、最高の描写効果が得られることが分かりました。

CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

# 図 図 5 実際のシーンの手法の比較。

MLP の導入によりレンダリングのオーバーヘッドは増加しますが、3D Gaussian の非常に効率的な CUDA 実装とコンパクトな MLP 構造のおかげで、依然としてリアルタイム レンダリングを実現できます。 3090 では、D-NeRF データセットの平均 FPS は 85 (400x400)、68 (800x800) に達します。

さらに、この研究では、前方および後方の深さ伝播を備えた微分可能ガウス ラスタライゼーション パイプラインも初めて適用しました。図 6 に示すように、この深さは、Deformable-GS も堅牢な幾何学的表現を取得できることを証明しています。ディープ バックプロパゲーションは、逆レンダリング (Inverse Rendering)、SLAM、自動運転など、将来的に深い監視を必要とする多くのタスクを促進する可能性があります。 CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法

# 図 6 深度の視覚化。

著者について

##論文の筆頭著者: Yang Ziyi、浙江大学修士課程 2 年生、彼の主な研究方向は 3 つあります。 -次元ガウス、神経放射場、リアルタイムレンダリングなど。

論文の他の著者: Gao Xinyu、浙江大学修士課程 3 年生、彼の主な研究方向は神経放射線場と暗黙的なシーンの組み合わせです。

Zhang Yuqing: 浙江大学修士課程 2 年 私の主な研究方向は 3D 生成とリバース レンダリングです。
この論文の責任著者は、浙江大学コンピューター科学技術学部のJin Xiaogang教授です。

  • メール: jin@cad.zju.edu.cn

  • ##個人ホームページ: http://www.cad.zju.edu.cn /ホーム/ジン/

以上がCVPR 2024 フルスコア論文: 浙江大学が、変形可能な 3 次元ガウス分布に基づく高品質な単眼動的再構成の新しい方法を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍Dec 27, 2023 pm 06:35 PM

Meta的视频合成新框架给我们带来了一些惊喜就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。生成式AI天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール