より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ-AI-php.cn

ホームページ

テクノロジー周辺機器

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 07, 2023 pm 11:21 PM

理論シーンの生成bevcontrol

この記事では、BEV Sketch レイアウトを通じてマルチビューのストリートビュー画像を正確に生成する方法を紹介します

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

自動運転の分野では、画像合成が広く使用されています。下流の知覚を改善するタスクのパフォーマンスを改善する

コンピュータビジョンの分野において、知覚モデルのパフォーマンスを向上させるための長年の研究課題は、画像を合成することによってそれを達成することです。マルチビューカメラを使用するビジョン中心の自動運転システムでは、一部のロングテールシーンが収集できないため、この問題はより顕著になります。図1(a)、既存の生成方法は、セマンティックセグメンテーションスタイルのBEV構造を生成ネットワークに入力し、合理的な多視点画像を出力します。シーンレベルの指標のみで評価すると、既存の方法はフォトリアリスティックなストリートビュー画像を合成できるように見えます。しかし、ズームインすると、正確なオブジェクトレベルの詳細を生成できないことがわかりました。この図では、最先端の生成アルゴリズムによくある間違い、つまり、生成された車両がターゲットの 3D バウンディングボックスと比較して完全に反対方向を向いていることを示しています。さらに、セマンティックセグメンテーション方式の BEV 構造の編集は多くの人手を必要とする困難な作業であるため、図 1(b) に示すように、より洗練された背景と前景の形状を提供する BEVControl と呼ばれる 2 段階の手法を提案します。。 BEVControl はスケッチスタイルの BEV 構造入力をサポートしており、迅速かつ簡単な編集が可能です。さらに、BEVControl は視覚的な一貫性を 2 つのサブ目標に分解します: コントローラーを介したストリートビューと鳥瞰図間の幾何学的一貫性、コーディネーターを介したストリートビュー間の外観の一貫性

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

##Paperリンク:

https://www.php.cn/link/1531beb762df4029513ebf9295e0d34f

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

#メソッドフレームワーク

BEVControl は、一連のモジュールで構成される、UNet 構造の生成されたネットワークです。各モジュールには、コントローラーとコーディネーターという 2 つの要素があります。

入力: BEV スケッチ、マルチビューノイズイメージ、および簡単に編集できるテキストプロンプト; 出力: 生成されたマルチビューイメージ。

BEV スケッチをカメラの状態に投影するプロセス。入力は BEV スケッチです。出力は、マルチビューの前景条件と背景条件です。

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

コントローラー: カメラビュースケッチの前景と背景の情報を自発的に受信し、BEV スケッチ Streetscape との幾何学的一貫性を出力します。特徴。

コーディネーター: 新しいクロスビューおよびクロスエレメントアテンションメカニズムを利用して、ビュー間のコンテキストインタラクションを実現し、外観の一貫性を保ったストリートビュー機能を出力します。

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ提案された評価指標

最近のストリートビュー画像生成作業では、シーンレベルの指標 (FID、道路 MIoU、など）品質。
以下の図に示すように、これらの指標のみを使用して生成ネットワークの真の生成能力を評価することは不可能であることがわかりました。報告された定性的および定量的結果は、両方のグループが同様の FID スコアを持つストリートビュー画像を生成するものの、前景と背景をきめ細かく制御する機能が大きく異なることを示しています。

そこで、生成されたネットワークの制御能力を細かく測定するための評価指標セットを提案します。

定量的結果

BEVControl と提案された最先端の手法の比較評価指標。

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

データ拡張に BEVControl を適用して、ターゲット検出タスクを改善します。

定性的結果

BEVControl と NuScenes 検証セットでの最先端のメソッドの比較。

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

デモ効果

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ

より詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチ ##書き換える必要がある内容は次のとおりです。参照

書き換える必要がある内容は次のとおりです。 [1] Swerdlow A、Xu R、Zhou B。鳥瞰図レイアウト[ J]. arXiv プレプリント arXiv:2301.04634, 2023.

以上がより詳細な背景と前景の制御、より高速な編集: BEVControl の 2 段階のアプローチの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ