未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。-AI-php.cn

ホームページ

テクノロジー周辺機器

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 11:31 AM

識別する分割移民

これまでに見たことのない新しいオブジェクトをセグメント化することもできます。

これは DeepMind によって開発された新しい学習フレームワークです: オブジェクト発見および表現ネットワーク (略して Odin)

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

前へ自己教師あり学習 (SSL)この方法では、大きなシーン全体をうまく表現できますが、個々のオブジェクトを区別することは困難です。

Odin メソッドはそれを実行し、監視なしで実行します。

画像内の単一のオブジェクトを区別するのは簡単ではありません。それはどのように行われるのでしょうか?

方法原理

主に Odin 学習フレームワークの「自己循環」により、画像内のさまざまなオブジェクトを適切に区別できます。

Odin は、連携して動作する 2 つのネットワークセット、つまりターゲット検出ネットワークとターゲット表現ネットワークを学習しました。

Target Discovery Network は、画像のトリミングされた部分を入力として受け取ります。トリミングされた部分には画像領域の大部分が含まれている必要があり、画像のこの部分は他の側面では強化されていません。

次に、入力画像から生成された特徴マップに対してクラスター分析を実行し、さまざまな特徴に従って画像内の各オブジェクトをセグメント化します。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

ターゲット表現ネットワーク の入力ビューは、ターゲット検出ネットワークで生成されたセグメント化された画像です。

ビューが入力された後、反転、ぼかし、ポイントレベルのカラー変換など、個別にランダムに前処理されます。

このようにして 2 組のマスクが得られますが、トリミングの違いを除けば、その他の情報は元の画像内容と同じです。

その後、2 つのマスクは、コントラスト損失を通じて画像内のオブジェクトをより適切に表現できる特徴を学習します。

具体的には、コントラスト検出を通じて、ネットワークはさまざまなターゲットオブジェクトの特性を識別するようにトレーニングされますが、他の無関係なオブジェクトからの多くの「ネガティブな」特性も存在します。

次に、異なるマスクにおける同じターゲットオブジェクトの類似性を最大化し、異なるターゲットオブジェクト間の類似性を最小化してから、より適切なセグメンテーションを実行して、異なるターゲットオブジェクトを区別します。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

#同時に、ターゲット検出ネットワークは、ターゲット表現ネットワークのパラメーターに基づいて定期的に更新されます。

最終的な目標は、これらのオブジェクトレベルの特性が異なるビューでもほぼ変わらないことを保証すること、言い換えれば、画像内のオブジェクトを分離することです。

それでは、Odin 学習フレームワークの効果は何でしょうか?

未知のオブジェクトを非常によく区別できます

事前知識がなくてもシーン分割における Odin メソッドの転移学習のパフォーマンスも非常に強力です。

まず、Odin メソッドを使用して ImageNet データセットで事前トレーニングし、COCO データセットおよび PASCAL および Cityscapes セマンティックセグメンテーションに対するその効果を評価します。

対象オブジェクトをすでに知っている、つまり事前知識を取得する方法は、シーン分割を実行するときに事前知識を取得しない他の方法よりも大幅に優れています。

Odin 法は事前知識を取得しなくても、事前知識を取得する DetCon や ReLICv2 よりも効果が高くなります。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

さらに、Odin メソッドは ResNet モデルだけでなく、Swim Transformer などのより複雑なモデルにも適用できます。。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

データの観点から見ると、Odin フレームワーク学習の利点は明らかですが、Odin の利点は視覚的なイメージのどこに反映されているのでしょうか?

Odin を使用して生成されたセグメント化された画像を、ランダムに初期化されたネットワーク (列 3)、ImageNet 監視ネットワーク (列 4) から取得した画像と比較します。

列 3 と列 4 はオブジェクトの境界を明確に描写できていないか、現実世界のオブジェクトの一貫性や局所性が欠けており、Odin によって生成された画像効果は明らかに優れています。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

参考リンク:

[1] https://twitter.com/DeepMind/status/1554467389290561541

[2] https://arxiv.org/abs/2203.08777

以上が未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング！その日はどのようなコーディング関連のタスクを計画していますか？このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。終わり？ - ＆＃8217を見てみましょう

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。