ホームページ > 記事 > テクノロジー周辺機器 > DynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現します
高精度の領域レベルのマルチモーダル理解を達成するために、この論文は人間の視覚認知システムをシミュレートする動的解像度スキームを提案します。
この記事の著者は、中国科学院LAMP研究室の出身です。筆頭著者のZhao Yuzhongは、2023年に中国科学院の博士課程の学生であり、共著者のLiuは、フェンは、2020 年に中国科学院大学の博士課程の直接の学生です。彼らの主な研究方向は、視覚言語モデルと視覚物体知覚です。
ここで、は i 番目のビューの補間係数を表し、 は i 番目のビューを表し、pHASH (・) は知覚画像ハッシュ関数を表し、 は XOR を表します手術。視点の情報を大局的に比較するため、「pHASH(・)」関数を用いて視点を空間領域から周波数領域に変換し、ハッシュコードに符号化します。この項目 では、冗長な情報が多すぎることを避けるために、コンテキスト豊富なビューの重みを減らします。
以上がDynRefer は CVPR 2024 メソッドを超え、地域レベルのマルチモーダル認識タスクで複数の SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。