Maison > Article > développement back-end > YOLOv Une nouvelle avancée dans l'analyse de la mise en page des documents
Comme mentionné dans le billet de blog précédent, YOLOv8 fonctionne exceptionnellement bien dans l'analyse de la mise en page des documents. J'ai formé tous les modèles de la série YOLOv8 par l'ensemble de données DocLayNet et j'ai découvert que même le plus petit modèle atteint un mAP50-95 global de 71,8, tandis que le plus grand modèle atteint un impressionnant 78,7.
Récemment, Ultralytics a publié YOLOv11, la dernière itération de sa série YOLO de détecteurs d'objets en temps réel. Cette nouvelle version apporte des améliorations significatives tant au niveau de l'architecture que des méthodes de formation.
? Les résultats semblent prometteurs ! J'ai décidé de former à nouveau tous les modèles YOLOv11 sur l'ensemble de données DocLayNet et de les comparer avec la série YOLOv8 précédente.
Pour cette expérience, j'ai continué à utiliser mon référentiel https://github.com/ppaanngggg/yolo-doclaynet pour préparer les données et entraîner les modèles à l'aide de mes scripts personnalisés. Cette approche garantit la cohérence dans le processus de préparation des données et de formation, permettant une comparaison équitable entre les modèles YOLOv8 et YOLOv11.
Le processus de formation et d'évaluation des modèles YOLOv11 est simple et peut être exécuté avec de simples instructions de ligne de commande :
# To train the model python train.py {base-model} # To evaluate the model python eval.py {path-to-your-trained-model}
Voici le tableau d'évaluation détaillé comparant les modèles YOLOv8 avec YOLOv11 :
label | boxes | yolov8n | yolov11n | yolov8s | yolov11s | yolov8m | yolov11m | yolov8l | yolov11l | yolov8x | yolov11x |
---|---|---|---|---|---|---|---|---|---|---|---|
Params (M) | 3.2 | 2.6 | 11.2 | 9.4 | 25.9 | 20.1 | 43.7 | 25.3 | 68.2 | 56.9 | |
Caption | 1542 | 0.682 | 0.717 | 0.721 | 0.744 | 0.746 | 0.746 | 0.75 | 0.772 | 0.753 | 0.765 |
Footnote | 387 | 0.614 | 0.634 | 0.669 | 0.683 | 0.696 | 0.701 | 0.702 | 0.715 | 0.717 | 0.71 |
Formula | 1966 | 0.655 | 0.673 | 0.695 | 0.705 | 0.723 | 0.729 | 0.75 | 0.75 | 0.747 | 0.765 |
List-item | 10521 | 0.789 | 0.81 | 0.818 | 0.836 | 0.836 | 0.843 | 0.841 | 0.847 | 0.841 | 0.845 |
Page-footer | 3987 | 0.588 | 0.591 | 0.61 | 0.621 | 0.64 | 0.653 | 0.641 | 0.678 | 0.655 | 0.684 |
Page-header | 3365 | 0.707 | 0.704 | 0.754 | 0.76 | 0.769 | 0.778 | 0.776 | 0.788 | 0.784 | 0.795 |
Picture | 3497 | 0.723 | 0.758 | 0.762 | 0.783 | 0.789 | 0.8 | 0.796 | 0.805 | 0.805 | 0.802 |
Section-header | 8544 | 0.709 | 0.713 | 0.727 | 0.745 | 0.742 | 0.753 | 0.75 | 0.75 | 0.748 | 0.751 |
Table | 2394 | 0.82 | 0.846 | 0.854 | 0.874 | 0.88 | 0.88 | 0.885 | 0.891 | 0.886 | 0.89 |
Text | 29917 | 0.845 | 0.851 | 0.86 | 0.869 | 0.876 | 0.878 | 0.878 | 0.88 | 0.877 | 0.883 |
Title | 334 | 0.762 | 0.793 | 0.806 | 0.817 | 0.83 | 0.832 | 0.846 | 0.844 | 0.84 | 0.848 |
All | 66454 | 0.718 | 0.735 | 0.752 | 0.767 | 0.775 | 0.781 | 0.783 | 0.793 | 0.787 | 0.794 |
J'ai également créé un graphique pour illustrer la relation entre la taille du modèle et le score pour ces deux séries :
Sur la base du tableau et du graphique ci-dessus, nous pouvons conclure
Sur la base du tableau et du graphique ci-dessus, nous pouvons conclure que les modèles YOLOv11 surpassent systématiquement leurs homologues YOLOv8 dans toutes les tailles. Les améliorations sont particulièrement visibles dans les modèles plus petits, YOLOv11n atteignant une augmentation de 1,7 % du mAP50-95 par rapport à YOLOv8n. De plus, les modèles YOLOv11 ont généralement moins de paramètres que leurs équivalents YOLOv8, ce qui indique une efficacité améliorée en plus de meilleures performances.
Mon modèle préféré est YOLOv11l. Il a à peu près la même taille que YOLOv8m, mais il surpasse même YOLOv8x !
Cependant, YOLOv11x ne montre qu'une légère amélioration par rapport à YOLOv11l malgré une taille de modèle deux fois supérieure.
Que pensez-vous des résultats de YOLOv11 ? Avez-vous déjà utilisé les modèles YOLO pour l'analyse de la mise en page de documents ? J'aimerais entendre vos idées et vos expériences dans les commentaires ci-dessous !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!