Maison >développement back-end >Tutoriel Python >YOLOv Une nouvelle avancée dans l'analyse de la mise en page des documents

YOLOv Une nouvelle avancée dans l'analyse de la mise en page des documents

Barbara Streisand
Barbara Streisandoriginal
2024-10-30 23:19:29626parcourir

Introduction

Comme mentionné dans le billet de blog précédent, YOLOv8 fonctionne exceptionnellement bien dans l'analyse de la mise en page des documents. J'ai formé tous les modèles de la série YOLOv8 par l'ensemble de données DocLayNet et j'ai découvert que même le plus petit modèle atteint un mAP50-95 global de 71,8, tandis que le plus grand modèle atteint un impressionnant 78,7.

Récemment, Ultralytics a publié YOLOv11, la dernière itération de sa série YOLO de détecteurs d'objets en temps réel. Cette nouvelle version apporte des améliorations significatives tant au niveau de l'architecture que des méthodes de formation.

YOLOv A New Breakthrough in Document Layout Analysis

? Les résultats semblent prometteurs ! J'ai décidé de former à nouveau tous les modèles YOLOv11 sur l'ensemble de données DocLayNet et de les comparer avec la série YOLOv8 précédente.

Méthode de formation

Pour cette expérience, j'ai continué à utiliser mon référentiel https://github.com/ppaanngggg/yolo-doclaynet pour préparer les données et entraîner les modèles à l'aide de mes scripts personnalisés. Cette approche garantit la cohérence dans le processus de préparation des données et de formation, permettant une comparaison équitable entre les modèles YOLOv8 et YOLOv11.

Le processus de formation et d'évaluation des modèles YOLOv11 est simple et peut être exécuté avec de simples instructions de ligne de commande :

# To train the model
python train.py {base-model}

# To evaluate the model
python eval.py {path-to-your-trained-model}

Comparaison des résultats

Voici le tableau d'évaluation détaillé comparant les modèles YOLOv8 avec YOLOv11 :

label boxes yolov8n yolov11n yolov8s yolov11s yolov8m yolov11m yolov8l yolov11l yolov8x yolov11x
Params (M) 3.2 2.6 11.2 9.4 25.9 20.1 43.7 25.3 68.2 56.9
Caption 1542 0.682 0.717 0.721 0.744 0.746 0.746 0.75 0.772 0.753 0.765
Footnote 387 0.614 0.634 0.669 0.683 0.696 0.701 0.702 0.715 0.717 0.71
Formula 1966 0.655 0.673 0.695 0.705 0.723 0.729 0.75 0.75 0.747 0.765
List-item 10521 0.789 0.81 0.818 0.836 0.836 0.843 0.841 0.847 0.841 0.845
Page-footer 3987 0.588 0.591 0.61 0.621 0.64 0.653 0.641 0.678 0.655 0.684
Page-header 3365 0.707 0.704 0.754 0.76 0.769 0.778 0.776 0.788 0.784 0.795
Picture 3497 0.723 0.758 0.762 0.783 0.789 0.8 0.796 0.805 0.805 0.802
Section-header 8544 0.709 0.713 0.727 0.745 0.742 0.753 0.75 0.75 0.748 0.751
Table 2394 0.82 0.846 0.854 0.874 0.88 0.88 0.885 0.891 0.886 0.89
Text 29917 0.845 0.851 0.86 0.869 0.876 0.878 0.878 0.88 0.877 0.883
Title 334 0.762 0.793 0.806 0.817 0.83 0.832 0.846 0.844 0.84 0.848
All 66454 0.718 0.735 0.752 0.767 0.775 0.781 0.783 0.793 0.787 0.794

J'ai également créé un graphique pour illustrer la relation entre la taille du modèle et le score pour ces deux séries :

YOLOv A New Breakthrough in Document Layout Analysis

Conclusion

Sur la base du tableau et du graphique ci-dessus, nous pouvons conclure

Sur la base du tableau et du graphique ci-dessus, nous pouvons conclure que les modèles YOLOv11 surpassent systématiquement leurs homologues YOLOv8 dans toutes les tailles. Les améliorations sont particulièrement visibles dans les modèles plus petits, YOLOv11n atteignant une augmentation de 1,7 % du mAP50-95 par rapport à YOLOv8n. De plus, les modèles YOLOv11 ont généralement moins de paramètres que leurs équivalents YOLOv8, ce qui indique une efficacité améliorée en plus de meilleures performances.

Mon modèle préféré est YOLOv11l. Il a à peu près la même taille que YOLOv8m, mais il surpasse même YOLOv8x !

Cependant, YOLOv11x ne montre qu'une légère amélioration par rapport à YOLOv11l malgré une taille de modèle deux fois supérieure.

Plus

Que pensez-vous des résultats de YOLOv11 ? Avez-vous déjà utilisé les modèles YOLO pour l'analyse de la mise en page de documents ? J'aimerais entendre vos idées et vos expériences dans les commentaires ci-dessous !

Références

  1. Documentation YOLOv11 : https://docs.ultralytics.com/models/yolo11/
  2. Dépôt DocLayNet GitHub : https://github.com/DS4SD/DocLayNet
  3. Mon projet YOLO-DocLayNet GitHub : https://github.com/ppaanngggg/yolo-doclaynet

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn