Heim > Artikel > Backend-Entwicklung > YOlov Ein neuer Durchbruch in der Dokumentlayoutanalyse
Wie im vorherigen Blogbeitrag erwähnt, schneidet YOLOv8 bei der Dokumentlayoutanalyse außergewöhnlich gut ab. Ich habe alle Modelle aus der YOLOv8-Serie mithilfe des DocLayNet-Datensatzes trainiert und festgestellt, dass selbst das kleinste Modell einen mAP50-95-Gesamtwert von 71,8 erreicht, während das größte Modell beeindruckende 78,7 erreicht.
Vor kurzem hat Ultralytics YOLOv11 veröffentlicht, die neueste Version ihrer YOLO-Serie von Echtzeit-Objektdetektoren. Diese neue Version bringt erhebliche Verbesserungen sowohl an der Architektur als auch an den Trainingsmethoden.
? Die Ergebnisse sehen vielversprechend aus! Ich habe beschlossen, alle YOLOv11-Modelle erneut auf dem DocLayNet-Datensatz zu trainieren und sie mit der vorherigen YOLOv8-Serie zu vergleichen.
Für dieses Experiment habe ich weiterhin mein Repository https://github.com/ppaanngggg/yolo-doclaynet verwendet, um die Daten vorzubereiten und die Modelle mithilfe meiner benutzerdefinierten Skripte zu trainieren. Dieser Ansatz gewährleistet Konsistenz im Datenvorbereitungs- und Trainingsprozess und ermöglicht einen fairen Vergleich zwischen YOLOv8- und YOLOv11-Modellen.
Der Trainings- und Evaluierungsprozess für YOLOv11-Modelle ist unkompliziert und kann mit einfachen Befehlszeilenanweisungen ausgeführt werden:
# To train the model python train.py {base-model} # To evaluate the model python eval.py {path-to-your-trained-model}
Hier ist die detaillierte Bewertungstabelle zum Vergleich von YOLOv8-Modellen mit YOLOv11:
label | boxes | yolov8n | yolov11n | yolov8s | yolov11s | yolov8m | yolov11m | yolov8l | yolov11l | yolov8x | yolov11x |
---|---|---|---|---|---|---|---|---|---|---|---|
Params (M) | 3.2 | 2.6 | 11.2 | 9.4 | 25.9 | 20.1 | 43.7 | 25.3 | 68.2 | 56.9 | |
Caption | 1542 | 0.682 | 0.717 | 0.721 | 0.744 | 0.746 | 0.746 | 0.75 | 0.772 | 0.753 | 0.765 |
Footnote | 387 | 0.614 | 0.634 | 0.669 | 0.683 | 0.696 | 0.701 | 0.702 | 0.715 | 0.717 | 0.71 |
Formula | 1966 | 0.655 | 0.673 | 0.695 | 0.705 | 0.723 | 0.729 | 0.75 | 0.75 | 0.747 | 0.765 |
List-item | 10521 | 0.789 | 0.81 | 0.818 | 0.836 | 0.836 | 0.843 | 0.841 | 0.847 | 0.841 | 0.845 |
Page-footer | 3987 | 0.588 | 0.591 | 0.61 | 0.621 | 0.64 | 0.653 | 0.641 | 0.678 | 0.655 | 0.684 |
Page-header | 3365 | 0.707 | 0.704 | 0.754 | 0.76 | 0.769 | 0.778 | 0.776 | 0.788 | 0.784 | 0.795 |
Picture | 3497 | 0.723 | 0.758 | 0.762 | 0.783 | 0.789 | 0.8 | 0.796 | 0.805 | 0.805 | 0.802 |
Section-header | 8544 | 0.709 | 0.713 | 0.727 | 0.745 | 0.742 | 0.753 | 0.75 | 0.75 | 0.748 | 0.751 |
Table | 2394 | 0.82 | 0.846 | 0.854 | 0.874 | 0.88 | 0.88 | 0.885 | 0.891 | 0.886 | 0.89 |
Text | 29917 | 0.845 | 0.851 | 0.86 | 0.869 | 0.876 | 0.878 | 0.878 | 0.88 | 0.877 | 0.883 |
Title | 334 | 0.762 | 0.793 | 0.806 | 0.817 | 0.83 | 0.832 | 0.846 | 0.844 | 0.84 | 0.848 |
All | 66454 | 0.718 | 0.735 | 0.752 | 0.767 | 0.775 | 0.781 | 0.783 | 0.793 | 0.787 | 0.794 |
Ich habe außerdem eine Darstellung erstellt, um die Beziehung zwischen Modellgröße und Punktzahl für diese beiden Serien zu veranschaulichen:
Basierend auf der Tabelle und dem Diagramm oben können wir schlussfolgern
Basierend auf der Tabelle und dem Diagramm oben können wir den Schluss ziehen, dass YOLOv11-Modelle ihre YOLOv8-Pendants in allen Größen durchweg übertreffen. Die Verbesserungen machen sich insbesondere bei den kleineren Modellen bemerkbar, wobei YOLOv11n im Vergleich zu YOLOv8n eine Steigerung von 1,7 % bei mAP50-95 erzielte. Darüber hinaus haben YOLOv11-Modelle im Allgemeinen weniger Parameter als ihre YOLOv8-Äquivalente, was neben einer besseren Leistung auch auf eine verbesserte Effizienz hinweist.
Mein Lieblingsmodell ist YOLOv11l. Es ist nur etwa so groß wie YOLOv8m, übertrifft aber sogar YOLOv8x!
YOLOv11x zeigt jedoch nur eine leichte Verbesserung gegenüber YOLOv11l, obwohl es die doppelte Modellgröße hat.
Was denken Sie über die YOLOv11-Ergebnisse? Haben Sie Erfahrung mit YOLO-Modellen für die Dokumentlayoutanalyse? Ich würde gerne Ihre Erkenntnisse und Erfahrungen in den Kommentaren unten hören!
Das obige ist der detaillierte Inhalt vonYOlov Ein neuer Durchbruch in der Dokumentlayoutanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!