알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 11:31 AM

식별하다분할이주자

한 번도 본 적이 없는 새로운 물체를 분할할 수도 있습니다.

DeepMind에서 개발한 새로운 학습 프레임워크입니다. 객체 검색 및 표현 네트워크(줄여서 Odin)

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

이전의 SSL(자기 지도 학습) 방법은 전체 장면을 잘 설명할 수 있지만 개별 개체를 구별합니다.

이제는 오딘 방식으로, 감독 없이도 해냅니다.

이미지에서 단일 개체를 구별하는 것은 쉽지 않습니다.

방법 원리

오딘 학습 프레임워크의 "자기 순환" 덕분에 이미지 속 다양한 개체를 잘 구분할 수 있습니다.

Odin은 함께 작동하는 두 가지 네트워크 세트, 즉 대상 검색 네트워크와 대상 표현 네트워크를 배웠습니다.

Object Discovery Network는 이미지의 잘린 부분을 입력으로 사용합니다. 잘린 부분은 이미지 영역의 대부분을 포함해야 하며, 이미지의 이 부분은 다른 측면에서 향상되지 않았습니다.

그런 다음 입력 이미지에서 생성된 특징 맵에 대해 클러스터 분석을 수행하고 다양한 특징에 따라 이미지의 각 개체를 분할합니다.

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

객체 표현 네트워크에 대한 입력 뷰는 객체 검색 네트워크에서 생성된 분할 이미지입니다.

뷰가 입력된 후 뒤집기, 흐리게 처리, 포인트 수준 색상 변환 등을 포함하여 별도로 무작위로 전처리됩니다.

이런 방법으로 두 세트의 마스크를 얻을 수 있습니다. 자르기의 차이점을 제외하고 다른 정보는 기본 이미지 내용과 동일합니다.

그런 다음 두 마스크는 대비 손실을 통해 이미지 속 물체를 더 잘 표현할 수 있는 기능을 학습합니다.

구체적으로, 대비 감지를 통해 네트워크는 다양한 대상 개체의 특성을 식별하도록 훈련되며, 관련 없는 다른 개체의 "부정적인" 특성도 많이 있습니다.

그런 다음 서로 다른 마스크에서 동일한 대상 개체의 유사성을 최대화하고 서로 다른 대상 개체 간의 유사성을 최소화한 다음 더 나은 분할을 수행하여 서로 다른 대상 개체를 구별합니다.

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

동시에 타겟 표현 네트워크의 매개변수를 기반으로 타겟 발견 네트워크가 정기적으로 업데이트됩니다.

궁극적인 목표는 이러한 객체 수준 속성이 다양한 뷰에서 대략 일정하게 유지되도록 하는 것입니다. 즉, 이미지에서 객체를 분리하는 것입니다.

그렇다면 Odin 학습 프레임워크는 얼마나 효과적인가요?

알 수 없는 객체를 매우 잘 구별할 수 있습니다.

Odin 방법은 장면 분할 시 사전 지식 없이도 전이 학습 성능이 매우 강력합니다.

먼저 Odin 방법을 사용하여 ImageNet 데이터세트를 사전 훈련한 다음 COCO 데이터세트와 PASCAL 및 Cityscapes 의미론적 분할에 미치는 영향을 평가합니다.

대상 객체는 이미 알려져 있습니다. 즉, 장면 분할을 수행할 때 사전 지식을 획득하는 방법이 사전 지식을 획득하지 않는 다른 방법보다 훨씬 좋습니다.

오딘 방식은 사전 지식을 얻지 못하더라도 사전 지식을 얻는 DetCon이나 ReLICv2보다 효과가 좋습니다.

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

또한 Odin 방법은 ResNet 모델뿐만 아니라 Swim Transformer와 같은 보다 복잡한 모델에도 적용할 수 있습니다.

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

데이터 측면에서 Odin 프레임워크 학습의 장점은 명백합니다. 그렇다면 시각적 이미지에서 Odin의 장점은 어디에 반영됩니까?

Odin을 사용하여 생성된 분할 이미지를 ImageNet 감독 네트워크(4번째 열)인 무작위로 초기화된 네트워크(3번째 열)에서 얻은 이미지와 비교합니다.

3열과 4열 모두 물체의 경계를 명확하게 묘사하지 못하거나 실제 물체의 일관성과 지역성이 부족한 반면 Odin에서 생성된 이미지 효과는 확실히 더 좋습니다.

알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.

참조 링크:

[1] https://twitter.com/DeepMind/status/1554467389290561541

[2] https://arxiv.org/abs/2203.08777

위 내용은 알려지지 않은 물체도 쉽게 식별하고 분할할 수 있으며 효과를 전달할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다