표적 탐지 분야에서 YOLOv9는 새로운 아키텍처와 방법을 채택하여 기존 컨볼루션의 매개변수 활용을 효과적으로 개선하여 이전 세대 제품보다 성능이 훨씬 뛰어납니다.
2023년 1월 YOLOv8 공식 출시에 이어 1년여가 지난 뒤 드디어 YOLOv9이 출시되었습니다!
Joseph Redmon, Ali Farhadi 등이 2015년에 1세대 YOLO 모델을 제안한 이후 표적 탐지 분야의 연구자들은 이를 여러 번 업데이트하고 반복했습니다. YOLO는 이미지의 전역 정보를 기반으로 한 예측 시스템으로, 모델 성능이 지속적으로 향상됩니다. 알고리즘과 기술을 지속적으로 개선함으로써 연구원들은 놀라운 결과를 얻었으며 YOLO는 표적 탐지 작업에서 더욱 강력해졌습니다. 이러한 지속적인 개선과 최적화는 표적 탐지 기술 개발에 새로운 기회와 도전을 가져오는 동시에 이 분야의 발전과 혁신을 촉진했습니다. YOLO의 성공은 연구자들의 지속적인 노력에도 영감을 주었습니다.
이번 YOLOv9은 대만의 Academia Sinica와 타이페이 공과대학 및 기타 기관이 공동으로 개발한 "Learning What You Want to Learn Using Programmable Gradient Information"입니다. " 출시되었습니다.
논문 주소: https://arxiv.org/pdf/2402.13616.pdf
GitHub 주소: https://github.com/WongKinYiu/yolov9
오늘날의 딥 러닝 방법은 가장 많은 것을 디자인하는 방법에 중점을 둡니다. 모델의 예측 결과가 실제 상황에 가장 근접할 수 있도록 적절한 목적 함수를 사용합니다. 동시에 예측을 위한 충분한 정보를 얻는 데 도움이 될 수 있는 적절한 아키텍처를 설계해야 합니다. 그러나 기존 방법들은 입력 데이터가 레이어별 특징 추출과 공간 변환을 거치게 되면 많은 양의 정보가 손실된다는 사실을 무시하고 있습니다.
따라서 YOLOv9은 딥 네트워크를 통해 데이터가 전송될 때 데이터 손실의 중요한 문제, 즉 정보 병목 현상과 가역 기능을 깊이 연구합니다.
연구원들은 다중 목표를 달성하기 위해 심층 네트워크에 필요한 다양한 변화에 대처하기 위해 프로그래머블 그래디언트 정보(PGI)라는 개념을 제안했습니다. PGI는 목표 함수를 계산하기 위해 대상 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다.
또한 연구원들은 경사 경로 계획을 기반으로 하는 새로운 경량 네트워크 아키텍처, 즉 GELAN(Generalized Efficient Layer Aggregation Network)을 설계했습니다. 이 아키텍처는 PGI가 경량 모델에서 탁월한 결과를 얻을 수 있음을 확인합니다.
연구원들은 MS COCO 데이터 세트를 기반으로 표적 탐지 작업에 대해 제안된 GELAN과 PGI를 검증했습니다. 결과는 GELAN이 deep convolution을 기반으로 개발된 SOTA 방법에 비해 전통적인 convolution 연산자만을 사용하여 더 나은 매개변수 활용을 달성한다는 것을 보여줍니다.
PGI의 경우 적응성이 매우 뛰어나 경량부터 대형까지 다양한 모델에 사용할 수 있습니다. 이를 사용하여 완전한 정보를 얻을 수 있으므로 처음부터 훈련된 모델이 대규모 데이터세트를 사용하여 사전 훈련된 SOTA 모델보다 더 나은 결과를 얻을 수 있습니다 . 아래 그림 1은 몇 가지 비교 결과를 보여줍니다.
새롭게 출시된 YOLOv9에 대해서는 YOLOv7, YOLOv4, Scaled-YOLOv4, DPT 개발에 참여한 Alexey Bochkovskiy가 YOLOv9가 그 어떤 컨볼루션이나 변환기 기반 객체 감지기보다 우수하다고 극찬했습니다. . ㅋㅋㅋ 자체 맞춤형 교육 튜토리얼을 갖춘 새로운 SOTA 실시간 객체 감지기가 되기 위해 방법도. ㅋㅋㅋ 열심히 일하는” 네티즌들은 YOLOv9 모델에 pip 지원을 추가했습니다.
P 출처: https://twitter.com/kadirnar_ai/status/1760716187896283635YOLOV9 자세히 보기. 문제 설명
보통 사람들은 심층
신경망의 수렴 어려움 문제를 그라데이션 소멸 또는 그라데이션 포화와 같은 요인에 기인하며 이러한 현상은 전통적인 심층 신경망에 존재합니다. 그러나 현대의 심층
신경망은 다양한 정규화 및 활성화 함수를 설계하여 위의 문제를 근본적으로 해결했습니다. 그러나 그럼에도 불구하고 깊은 신경망에서는 수렴 속도가 느리거나 수렴 효과가 좋지 않은 문제가 여전히 존재합니다. 그렇다면 이 문제의 본질은 무엇인가? 연구원들은 정보 병목 현상에 대한 심층 분석을 통해 문제의 근본 원인을 추론했습니다. 매우 깊은 네트워크에서 그라디언트가 처음 전달된 직후 목표를 달성하는 데 필요한 많은 정보가 손실됩니다. 이 추론을 검증하기 위해 연구원들은 초기 가중치를 사용하여 다양한 아키텍처의 심층 네트워크에서 피드포워드 처리를 수행했습니다. 그림 2는 이를 시각적으로 보여줍니다. 분명히 PlainNet은 심층 계층의 객체 감지에 필요한 많은 중요한 정보를 잃습니다. ResNet, CSPNet 및 GELAN이 보유할 수 있는 중요한 정보의 비율은 실제로 훈련 후 얻을 수 있는 정확도와 긍정적인 관련이 있습니다. 연구진은 위 문제의 원인을 해결하기 위해 가역 네트워크 기반 방법을 추가로 설계했습니다. 방법 소개
PGI(Programmable Gradient Information)이 연구는 그림 3(d)에 표시된 대로 PGI(Programmable Gradient Information)라는 새로운 보조 감독 프레임워크를 제안합니다.
PGI는 주로 (1) 기본 분기, (2) 보조 가역 분기, (3) 다단계 보조 정보의 세 부분으로 구성됩니다.
PGI의 추론 프로세스는 기본 분기만 사용하므로 추가 추론 비용이 없습니다.
실험 결과
이 연구에는 ImageNet 사전 학습 모델도 비교에 포함되었으며 결과는 아래 그림 5에 나와 있습니다. 전통적인 컨볼루션을 사용하는 YOLOv9가 매개변수 활용에 있어 딥 컨볼루션을 사용하는 YOLO MS보다 훨씬 낫다는 점은 주목할 가치가 있습니다.
절제 실험
이 연구는 먼저 GELAN의 컴퓨팅 블록에 대한 절제 실험을 수행했습니다. 아래 표 2에서 볼 수 있듯이 연구에서는 ELAN의 컨볼루션 레이어를 다른 계산 블록으로 대체함으로써 시스템이 좋은 성능을 유지한다는 것을 발견했습니다.
이후 연구에서는 ELAN 블록 깊이와 CSP 블록 깊이에 대해 다양한 크기의 GELAN에 대한 절제 실험을 수행했으며 결과는 아래 표 3에 나와 있습니다.
PGI 측면에서 연구원들은 보조 가역 가지에 대한 절제 연구를, 백본 네트워크와 목에 대한 다단계 보조 정보를 각각 수행했습니다. 표 4는 모든 실험의 결과를 나열합니다. 표 4에서 볼 수 있듯이 PFH는 심층 모델에만 효과적인 반면, 본 논문에서 제안하는 PGI는 다양한 조합에서 정확도를 향상시킬 수 있습니다.
연구원들은 다양한 크기의 모델에 대해 PGI 및 깊이 모니터링을 추가로 구현하고 결과를 비교했습니다. 표 5.
그림 6은 기본 YOLOv7에서 YOLOv9-E까지 구성 요소를 점진적으로 추가한 결과를 보여줍니다.
Visualization
연구원들은 정보 병목 현상 문제를 조사하고 이를 시각화했습니다. 그림 6은 다양한 아키텍처에서 피드포워드로 무작위 초기 가중치를 사용하여 얻은 특징 맵의 시각화 결과를 보여줍니다.
그림 7은 업데이트에 사용되는 매개변수가 입력 데이터와 목표 간의 관계를 효과적으로 캡처할 수 있도록 PGI가 훈련 중에 보다 안정적인 기울기를 제공할 수 있는지 여부를 보여줍니다.
자세한 기술적인 내용은 원본 기사를 읽어보세요.
위 내용은 표적 탐지를 위한 새로운 SOTA: YOLOv9가 출시되고 새로운 아키텍처가 기존 컨볼루션을 다시 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!