이를 바탕으로 NetEase Fuxi는 이미지 및 텍스트 이해의 대형 모델을 기반으로 더욱 혁신을 이루었으며, 다중 환경에 대한 특정 분야의 이미지 텍스트를 해결하기 위해 주요 지역 정보의 선택 및 재구성을 기반으로 하는 교차 모드 검색 방법을 제안했습니다. 모달 에이전트. 상호작용 문제가 기술적 기반을 마련합니다.
다음은 선정된 논문의 요약입니다.
"주요 지역의 선택 및 재구성: 새로운 특정 도메인 이미지-텍스트 검색 방법"
주요 지역 정보의 선택 및 재구성: 새로운 특정 도메인 이미지 및 텍스트 검색 방법
키워드: 핵심 지역 정보, 세분화, 해석 가능
관련 분야: 시각 언어 사전 훈련(VLP), 교차 모달 이미지 및 텍스트 검색(CMITR)
최근에는 시각적 언어 사전 훈련을 통해 훈련(비전- VLP(언어 사전 훈련) 모델의 등장으로 CMITR(Cross-Modal Image-Text Retrieval) 분야에서 상당한 진전이 이루어졌습니다. CLIP과 같은 VLP 모델은 도메인 일반 CMITR 작업에서는 우수한 성능을 발휘하지만 SDITR(특정 도메인 이미지-텍스트 검색)에서는 성능이 부족한 경우가 많습니다. 이는 특정 도메인이 일반 도메인과 구별되는 고유한 데이터 특성을 갖는 경우가 많기 때문입니다.
특정 영역에서 이미지는 이미지 간에 높은 수준의 시각적 유사성을 나타낼 수 있는 반면, 의미론적 차이는 이미지의 특정 개체 영역이나 텍스트의 의미 있는 단어와 같은 주요 로컬 세부 정보에 초점을 맞추는 경향이 있습니다. 이러한 로컬 세그먼트의 작은 변경이라도 전체 콘텐츠에 큰 영향을 미칠 수 있으며, 이는 중요한 로컬 정보의 중요성을 강조합니다. 따라서 SDITR은 공유 표현 공간에서 이미지 및 텍스트 특징의 표현을 향상시키기 위해 주요 지역 정보 조각에 초점을 맞춘 모델을 요구하며 이를 통해 이미지와 텍스트 간의 정렬 정확도를 향상시킵니다.
이 주제에서는 특정 분야의 이미지-텍스트 검색 작업에서 시각적 언어 사전 훈련 모델의 적용을 탐색하고 특정 분야의 이미지-텍스트 검색 작업에서 로컬 기능 활용 문제를 연구합니다. 주요 기여는 공유된 표현 공간에서 이미지와 텍스트의 정렬을 최적화하기 위해 차별적이고 세분화된 지역 정보를 활용하는 방법을 제안하는 것입니다.
이를 위해 우리는 명시적인 핵심 지역 정보 선택 및 재구성 프레임워크와 다중 모달 상호 작용을 기반으로 하는 핵심 지역 세그먼트 재구성 전략을 설계합니다. 이러한 방법은 차별적이고 세분화된 지역 정보를 효과적으로 활용하여 이미지와 광범위하고 공유 공간의 텍스트 정렬 품질에 대한 충분한 실험은 제안된 전략의 발전과 효율성을 입증합니다.
본 논문에 대한 강력한 지원과 중요한 연구 기여에 대해 시안 전자 과학 기술 대학교 IPIU 연구소에 특별히 감사드립니다.
이 연구 결과는 다중 모드 연구 분야에서 NetEase Fuxi의 또 다른 중요한 돌파구일 뿐만 아니라 특정 분야의 교차 모드 이해를 위한 새로운 관점과 기술 지원을 제공합니다. 특정 시나리오에서 이미지와 텍스트 간 상호 작용의 정확성을 최적화하는 이 작업은 실제 적용 시나리오에서 교차 모달 이해 기술을 향상시키기 위한 견고한 기반을 마련합니다.위 내용은 ACM MM2024 | NetEase Fuxi의 다중 모드 연구는 다시 국제적인 인정을 받아 특정 분야의 교차 모드 이해에 새로운 돌파구를 마련했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!