Heim  >  Artikel  >  Backend-Entwicklung  >  YOlov Ein neuer Durchbruch in der Dokumentlayoutanalyse

YOlov Ein neuer Durchbruch in der Dokumentlayoutanalyse

Barbara Streisand
Barbara StreisandOriginal
2024-10-30 23:19:29498Durchsuche

Einführung

Wie im vorherigen Blogbeitrag erwähnt, schneidet YOLOv8 bei der Dokumentlayoutanalyse außergewöhnlich gut ab. Ich habe alle Modelle aus der YOLOv8-Serie mithilfe des DocLayNet-Datensatzes trainiert und festgestellt, dass selbst das kleinste Modell einen mAP50-95-Gesamtwert von 71,8 erreicht, während das größte Modell beeindruckende 78,7 erreicht.

Vor kurzem hat Ultralytics YOLOv11 veröffentlicht, die neueste Version ihrer YOLO-Serie von Echtzeit-Objektdetektoren. Diese neue Version bringt erhebliche Verbesserungen sowohl an der Architektur als auch an den Trainingsmethoden.

YOLOv A New Breakthrough in Document Layout Analysis

? Die Ergebnisse sehen vielversprechend aus! Ich habe beschlossen, alle YOLOv11-Modelle erneut auf dem DocLayNet-Datensatz zu trainieren und sie mit der vorherigen YOLOv8-Serie zu vergleichen.

Trainingsmethode

Für dieses Experiment habe ich weiterhin mein Repository https://github.com/ppaanngggg/yolo-doclaynet verwendet, um die Daten vorzubereiten und die Modelle mithilfe meiner benutzerdefinierten Skripte zu trainieren. Dieser Ansatz gewährleistet Konsistenz im Datenvorbereitungs- und Trainingsprozess und ermöglicht einen fairen Vergleich zwischen YOLOv8- und YOLOv11-Modellen.

Der Trainings- und Evaluierungsprozess für YOLOv11-Modelle ist unkompliziert und kann mit einfachen Befehlszeilenanweisungen ausgeführt werden:

# To train the model
python train.py {base-model}

# To evaluate the model
python eval.py {path-to-your-trained-model}

Vergleich der Ergebnisse

Hier ist die detaillierte Bewertungstabelle zum Vergleich von YOLOv8-Modellen mit YOLOv11:

label boxes yolov8n yolov11n yolov8s yolov11s yolov8m yolov11m yolov8l yolov11l yolov8x yolov11x
Params (M) 3.2 2.6 11.2 9.4 25.9 20.1 43.7 25.3 68.2 56.9
Caption 1542 0.682 0.717 0.721 0.744 0.746 0.746 0.75 0.772 0.753 0.765
Footnote 387 0.614 0.634 0.669 0.683 0.696 0.701 0.702 0.715 0.717 0.71
Formula 1966 0.655 0.673 0.695 0.705 0.723 0.729 0.75 0.75 0.747 0.765
List-item 10521 0.789 0.81 0.818 0.836 0.836 0.843 0.841 0.847 0.841 0.845
Page-footer 3987 0.588 0.591 0.61 0.621 0.64 0.653 0.641 0.678 0.655 0.684
Page-header 3365 0.707 0.704 0.754 0.76 0.769 0.778 0.776 0.788 0.784 0.795
Picture 3497 0.723 0.758 0.762 0.783 0.789 0.8 0.796 0.805 0.805 0.802
Section-header 8544 0.709 0.713 0.727 0.745 0.742 0.753 0.75 0.75 0.748 0.751
Table 2394 0.82 0.846 0.854 0.874 0.88 0.88 0.885 0.891 0.886 0.89
Text 29917 0.845 0.851 0.86 0.869 0.876 0.878 0.878 0.88 0.877 0.883
Title 334 0.762 0.793 0.806 0.817 0.83 0.832 0.846 0.844 0.84 0.848
All 66454 0.718 0.735 0.752 0.767 0.775 0.781 0.783 0.793 0.787 0.794

Ich habe außerdem eine Darstellung erstellt, um die Beziehung zwischen Modellgröße und Punktzahl für diese beiden Serien zu veranschaulichen:

YOLOv A New Breakthrough in Document Layout Analysis

Abschluss

Basierend auf der Tabelle und dem Diagramm oben können wir schlussfolgern

Basierend auf der Tabelle und dem Diagramm oben können wir den Schluss ziehen, dass YOLOv11-Modelle ihre YOLOv8-Pendants in allen Größen durchweg übertreffen. Die Verbesserungen machen sich insbesondere bei den kleineren Modellen bemerkbar, wobei YOLOv11n im Vergleich zu YOLOv8n eine Steigerung von 1,7 % bei mAP50-95 erzielte. Darüber hinaus haben YOLOv11-Modelle im Allgemeinen weniger Parameter als ihre YOLOv8-Äquivalente, was neben einer besseren Leistung auch auf eine verbesserte Effizienz hinweist.

Mein Lieblingsmodell ist YOLOv11l. Es ist nur etwa so groß wie YOLOv8m, übertrifft aber sogar YOLOv8x!

YOLOv11x zeigt jedoch nur eine leichte Verbesserung gegenüber YOLOv11l, obwohl es die doppelte Modellgröße hat.

Mehr

Was denken Sie über die YOLOv11-Ergebnisse? Haben Sie Erfahrung mit YOLO-Modellen für die Dokumentlayoutanalyse? Ich würde gerne Ihre Erkenntnisse und Erfahrungen in den Kommentaren unten hören!

Referenzen

  1. YOLOv11-Dokumentation: https://docs.ultralytics.com/models/yolo11/
  2. DocLayNet GitHub-Repository: https://github.com/DS4SD/DocLayNet
  3. Mein YOLO-DocLayNet GitHub-Projekt: https://github.com/ppaanngggg/yolo-doclaynet

Das obige ist der detaillierte Inhalt vonYOlov Ein neuer Durchbruch in der Dokumentlayoutanalyse. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn