>  기사  >  백엔드 개발  >  YOLOv 문서 레이아웃 분석의 새로운 혁신

YOLOv 문서 레이아웃 분석의 새로운 혁신

Barbara Streisand
Barbara Streisand원래의
2024-10-30 23:19:29498검색

소개

이전 블로그 게시물에서 언급했듯이 YOLOv8은 문서 레이아웃 분석에서 탁월한 성능을 발휘합니다. DocLayNet 데이터 세트를 통해 YOLOv8 시리즈의 모든 모델을 훈련한 결과 가장 작은 모델이라도 전체 mAP50-95인 71.8을 달성한 반면 가장 큰 모델은 인상적인 78.7에 도달한 것으로 나타났습니다.

최근 Ultralytics는 실시간 물체 감지기 YOLO 시리즈의 최신 버전인 YOLOv11을 출시했습니다. 이 새 버전은 아키텍처와 교육 방법 모두에 상당한 개선을 가져왔습니다.

YOLOv A New Breakthrough in Document Layout Analysis

? 결과는 유망해 보입니다! DocLayNet 데이터 세트에서 모든 YOLOv11 모델을 다시 훈련하고 이전 YOLOv8 시리즈와 비교하기로 결정했습니다.

훈련 방법

이 실험에서는 계속해서 내 저장소 https://github.com/ppaanngggg/yolo-doclaynet을 사용하여 데이터를 준비하고 사용자 정의 스크립트를 사용하여 모델을 훈련했습니다. 이 접근 방식은 데이터 준비 및 학습 프로세스의 일관성을 보장하여 YOLOv8과 YOLOv11 모델을 공정하게 비교할 수 있게 해줍니다.

YOLOv11 모델의 학습 및 평가 프로세스는 간단하며 간단한 명령줄 지침으로 실행할 수 있습니다.

# To train the model
python train.py {base-model}

# To evaluate the model
python eval.py {path-to-your-trained-model}

결과 비교

YOLOv8 모델과 YOLOv11을 비교한 자세한 평가표는 다음과 같습니다.

label boxes yolov8n yolov11n yolov8s yolov11s yolov8m yolov11m yolov8l yolov11l yolov8x yolov11x
Params (M) 3.2 2.6 11.2 9.4 25.9 20.1 43.7 25.3 68.2 56.9
Caption 1542 0.682 0.717 0.721 0.744 0.746 0.746 0.75 0.772 0.753 0.765
Footnote 387 0.614 0.634 0.669 0.683 0.696 0.701 0.702 0.715 0.717 0.71
Formula 1966 0.655 0.673 0.695 0.705 0.723 0.729 0.75 0.75 0.747 0.765
List-item 10521 0.789 0.81 0.818 0.836 0.836 0.843 0.841 0.847 0.841 0.845
Page-footer 3987 0.588 0.591 0.61 0.621 0.64 0.653 0.641 0.678 0.655 0.684
Page-header 3365 0.707 0.704 0.754 0.76 0.769 0.778 0.776 0.788 0.784 0.795
Picture 3497 0.723 0.758 0.762 0.783 0.789 0.8 0.796 0.805 0.805 0.802
Section-header 8544 0.709 0.713 0.727 0.745 0.742 0.753 0.75 0.75 0.748 0.751
Table 2394 0.82 0.846 0.854 0.874 0.88 0.88 0.885 0.891 0.886 0.89
Text 29917 0.845 0.851 0.86 0.869 0.876 0.878 0.878 0.88 0.877 0.883
Title 334 0.762 0.793 0.806 0.817 0.83 0.832 0.846 0.844 0.84 0.848
All 66454 0.718 0.735 0.752 0.767 0.775 0.781 0.783 0.793 0.787 0.794

또한 이 두 시리즈에 대한 모델 크기와 점수 간의 관계를 설명하기 위한 플롯을 만들었습니다.

YOLOv A New Breakthrough in Document Layout Analysis

결론

위의 표와 플롯을 바탕으로 결론을 내릴 수 있습니다

위의 표와 도표를 바탕으로 YOLOv11 모델이 모든 규모에서 YOLOv8 모델보다 지속적으로 성능이 뛰어나다는 결론을 내릴 수 있습니다. 개선 사항은 소형 모델에서 특히 두드러지며 YOLOv11n은 YOLOv8n에 비해 mAP50-95가 1.7% 증가했습니다. 또한 YOLOv11 모델은 일반적으로 해당하는 YOLOv8 모델보다 매개변수가 적으며 이는 더 나은 성능과 함께 향상된 효율성을 나타냅니다.

제가 가장 좋아하는 모델은 YOLOv11l입니다. 크기는 YOLOv8m과 거의 같지만 성능은 YOLOv8x보다 뛰어납니다!

그러나 YOLOv11x는 모델 크기가 두 배임에도 불구하고 YOLOv11l에 비해 약간의 개선만을 보여줍니다.

YOLOv11 결과에 대해 어떻게 생각하시나요? 문서 레이아웃 분석을 위해 YOLO 모델을 사용한 경험이 있습니까? 아래 댓글을 통해 여러분의 통찰력과 경험을 듣고 싶습니다!

참고자료

  1. YOLOv11 문서: https://docs.ultralytics.com/models/yolo11/
  2. DocLayNet GitHub 저장소: https://github.com/DS4SD/DocLayNet
  3. 내 YOLO-DocLayNet GitHub 프로젝트: https://github.com/ppaanngggg/yolo-doclaynet

위 내용은 YOLOv 문서 레이아웃 분석의 새로운 혁신의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.