찾다
기술 주변기기일체 포함교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

Introduction

Referring VOS(RVOS)는 참조 텍스트를 기반으로 비디오 시퀀스에서 텍스트가 참조하는 개체를 분할하는 것을 목표로 하는 새로 등장한 작업입니다. 준지도 비디오 객체 분할과 비교하여 RVOS는 픽셀 수준 참조 마스크 대신 추상적인 언어 설명에만 의존하여 인간과 컴퓨터의 상호 작용에 보다 편리한 옵션을 제공하므로 광범위한 관심을 받았습니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

논문 링크: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

본 연구의 주요 목적은 기존 RVOS가 직면한 문제를 해결하는 것입니다. 작업 두 가지 주요 과제:

  • 두 양식 간의 규모 일관성을 유지하고 텍스트에서 제공하는 유용한 기능 참조를 이미지 기능에 완전히 통합하기 위해 여러 양식에 걸쳐 텍스트 정보와 그림 정보를 융합하는 방법
  • 기존 방법의 2단계 전략을 버리는 방법(즉, 먼저 이미지 수준에서 프레임별로 대략적인 결과를 얻은 다음 그 결과를 참조로 사용하고 강화된 시간 정보로 구조적 정제를 통해 최종 예측을 얻는 방법) ), 전체 RVOS 작업을 단일 단계 프레임워크로 통합합니다.

이와 관련하여 이 연구는 크로스 모달 요소 마이그레이션을 위한 엔드 투 엔드 RVOS 프레임워크인 YOFO를 제안합니다. 주요 기여와 혁신은 다음과 같습니다.

  • 필요합니다. 참조 텍스트 정보를 사용하여 비디오 대상의 분할 결과를 직접 얻기 위한 단일 단계 추론 - Ref-DAVIS2017 및 Ref-Youtube-VOS에서 얻은 결과는 현재의 모든 2단계 방법을 능가합니다. 시간 정보를 향상시켜 보다 목표 중심의 특징 학습을 달성하는 Meta-Transfer 모듈
  • 유용한 특징을 완전히 통합할 수 있는 다중 규모 교차 모달 특징 마이닝(Multi-Scale Cross -Modal Feature Mining) 모듈을 제안합니다. 언어와 그림으로.
  • 구현 전략
YOFO 프레임워크의 주요 프로세스는 다음과 같습니다. 입력 이미지와 텍스트는 먼저 이미지 인코더와 언어 인코더에 의해 추출된 후 다중 규모 교차 모달 특징 마이닝에서 융합됩니다. 기준 치수. 융합된 바이모달 특징은 메모리 라이브러리를 포함하는 메타 전송 모듈에서 단순화되어 언어 특징의 중복 정보를 제거하는 동시에 시간 정보를 보존하여 시간적 상관성을 향상시킬 수 있으며 최종적으로 분할 결과는 디코더.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 1: YOFO 프레임워크의 주요 프로세스.

다중 스케일 교차 모달 특성 마이닝 모듈

: 이 모듈은 서로 다른 스케일의 두 모달 특성을 점진적으로 융합하여 이미지 특성이 전달하는 스케일 정보와 언어 특성 간의 관계를 유지할 수 있습니다. 일관성, 그리고 더 중요하게는 융합 프로세스 중에 언어 정보가 다중 규모 이미지 정보로 인해 희석되거나 압도되지 않도록 보장합니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 2: 다중 규모 교차 모달 기능 마이닝 모듈.

Meta-migration 모듈

: 학습-학습 전략을 채택했으며, 그 과정은 간단히 다음 매핑 기능으로 설명할 수 있습니다. 마이그레이션 함수 가 컨볼루션인 경우 교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.는 컨볼루션 커널 매개변수 입니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

최적화 과정은 다음과 같은 목적함수로 표현할 수 있습니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

이 중 M은 과거 정보를 저장할 수 있는 메모리 뱅크를 나타내고, W는 다양한 위치의 가중치를 나타냅니다. 다양한 위치와 다양한 특징 주의 정도 Y는 메모리 뱅크에 저장된 각 비디오 프레임의 이중 모드 특징을 나타냅니다. 이 최적화 프로세스는 바이모달 특징을 재구성하는 메타 전송 기능의 능력을 최대화하고 전체 프레임워크를 엔드투엔드 학습할 수 있도록 합니다.

Training and Testing: 훈련에 사용된 손실 함수는 lovasz 손실이며, 훈련 세트는 Ref-DAVIS2017과 Ref-Youtube-VOS 두 개의 비디오 데이터 세트이며 정적 데이터 세트 Ref를 통해 수행됩니다. -COCO 무작위 아핀 변환은 비디오 데이터를 보조 훈련으로 시뮬레이션합니다. 메타 마이그레이션 프로세스는 훈련 및 예측 중에 수행되며 전체 네트워크는 1080ti에서 10FPS의 속도로 실행됩니다.

실험 결과

연구에 사용된 방법은 두 개의 주류 RVOS 데이터 세트(Ref-DAVIS2017 및 Ref-Youtube-VOS)에서 우수한 결과를 얻었습니다. 정량적 지표와 일부 시각화 렌더링은 다음과 같습니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 3: 두 가지 주류 데이터 세트에 대한 정량적 지표.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 4: VOS 데이터 세트의 시각화.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 5: YOFO의 기타 시각화 효과.

이 연구에서는 기능 마이닝 모듈(FM)과 메타 전송 모듈(MT)의 효율성을 설명하기 위해 일련의 절제 실험도 수행했습니다.

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 6: 기능 마이닝 모듈(FM) 및 메타 전송 모듈(MT)의 효율성.

또한, MT 모듈을 사용하지 않고 MT 모듈을 사용하여 디코더의 출력 특성을 시각화한 결과, MT 모듈이 언어가 설명하는 내용을 올바르게 캡처하고 간섭 노이즈를 수행할 수 있음을 명확하게 알 수 있습니다. .

교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.

그림 7: MT 모듈 사용 전후의 디코더 출력 기능 비교. 팀 소개

본 논문은 메이투 이미징 연구소(MT Lab) 연구원과 다롄 공과대학교 루후추안 팀이 공동으로 제안한 것입니다. Meitu Imaging Research Institute(MT Lab)는 컴퓨터 비전, 기계 학습, 증강 현실, 클라우드 컴퓨팅 및 기타 분야의 알고리즘 연구, 엔지니어링 개발 및 제품화에 전념하는 Meitu 팀입니다. Meitu의 기존 제품과 미래 제품의 기반을 제공합니다. 핵심 알고리즘 지원을 제공하고 최첨단 기술을 통해 Meitu 제품 개발을 촉진합니다. "Meitu의 기술 센터"로 알려져 있으며 CVPR, ICCV, ECCV 등 최고의 국제 컴퓨터 비전 컨퍼런스에 참가하여 우승했습니다. 10번 이상의 우승과 준우승.

위 내용은 교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
解读CRISP-ML(Q):机器学习生命周期流程解读CRISP-ML(Q):机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

thinkphp是不是国产框架thinkphp是不是国产框架Sep 26, 2022 pm 05:11 PM

thinkphp是国产框架。ThinkPHP是一个快速、兼容而且简单的轻量级国产PHP开发框架,是为了简化企业级应用开发和敏捷WEB应用开发而诞生的。ThinkPHP从诞生以来一直秉承简洁实用的设计原则,在保持出色的性能和至简的代码的同时,也注重易用性。

Python 强大的任务调度框架 Celery!Python 强大的任务调度框架 Celery!Apr 12, 2023 pm 09:55 PM

什么是 celery这次我们来介绍一下 Python 的一个第三方模块 celery,那么 celery 是什么呢? celery 是一个灵活且可靠的,处理大量消息的分布式系统,可以在多个节点之间处理某个任务; celery 是一个专注于实时处理的任务队列,支持任务调度; celery 是开源的,有很多的使用者; celery 完全基于 Python 语言编写;所以 celery 本质上就是一个任务调度框架,类似于 Apache 的 airflow,当然 airflow 也是基于 Python

6个推荐的Python框架,用于构建可解释的人工智能系统(XAI)6个推荐的Python框架,用于构建可解释的人工智能系统(XAI)Apr 26, 2023 am 10:49 AM

AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。建立一个AI模型,输入数据,然后再输出结果,但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没有上下文或解释的情况下输出的结果。可解释性旨在帮助人们理解:如何学习的?学到了什么?针对一个特定输入为什么会做出如此决策?决策是否可靠?在本文中,我将介绍6个用于可解释性的Python框架。SHAPSHapleyAdditiveexplanation(SHapleyAdditi

如何在PHP中使用AOP框架如何在PHP中使用AOP框架May 19, 2023 pm 01:21 PM

AOP(面向切面编程)是一种编程思想,用于解耦业务逻辑和横切关注点(如日志、权限等)。在PHP中,使用AOP框架可以简化编码,提高代码可维护性和可扩展性。本文将介绍在PHP中使用AOP框架的基本原理和实现方法。一、AOP的概念和原理面向切面编程,指的是将程序的业务逻辑和横切关注点分离开来,通过AOP框架来实现统一管理。横切关注点指的是在程序中需要重复出现并且

Microsoft .NET Framework 4.5.2、4.6 和 4.6.1 将于 2022 年 4 月终止支持Microsoft .NET Framework 4.5.2、4.6 和 4.6.1 将于 2022 年 4 月终止支持Apr 17, 2023 pm 02:25 PM

已安装Microsoft.NET版本4.5.2、4.6或4.6.1的MicrosoftWindows用户如果希望Microsoft将来通过产品更新支持该框架,则必须安装较新版本的Microsoft框架。据微软称,这三个框架都将在2022年4月26日停止支持。支持日期结束后,产品将不会收到“安全修复或技术支持”。大多数家庭设备通过Windows更新保持最新。这些设备已经安装了较新版本的框架,例如.NETFramework4.8。未自动更新的设备可能

KB5013943 2022 年 5 月更新使 Windows 11 上的应用程序崩溃KB5013943 2022 年 5 月更新使 Windows 11 上的应用程序崩溃Apr 16, 2023 pm 10:52 PM

如果你在Windows11上安装了2022年5月累积更新,你可能已经注意到你一直使用的许多应用程序都不像以前那样工作了。强制性安全更新KB5013943正在使某些使用.NET框架的应用程序崩溃。在某些情况下,用户会收到错误代码:0xc0000135。可选更新中报告了类似的问题,但并不普遍。随着2022年5月的更新,该错误似乎已进入生产渠道,这次有更多用户受到影响。崩溃在使用.NETFramework的应用程序中很常见,Discord或MicrosoftTeams等

多模态再次统一!Meta发布自监督算法data2vec 2.0:训练效率最高提升16倍!多模态再次统一!Meta发布自监督算法data2vec 2.0:训练效率最高提升16倍!Apr 14, 2023 pm 04:10 PM

近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM(MaskedLanguageModel),通过将文本中的部分单词遮盖后重新预测,使得海量无标记文本数据也能用来训练模型,自此开启了大规模预训练模型的新时代。但自监督学习算法也有明显的局限性,通常只适用于单一模态(如图像、文本、语音等)的数据,并且需要大量的算力从海量数据中进行学习。相比之下,人类的学习效率要显著高于当前的AI模型,并且可以从不同类型的数据中进行学习。2022年1月,MetaAI发布了自监督学习框架data2

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는