ホームページ >バックエンド開発 >Python チュートリアル >YOLOv ドキュメント レイアウト分析の新たなブレークスルー

YOLOv ドキュメント レイアウト分析の新たなブレークスルー

Barbara Streisand
Barbara Streisandオリジナル
2024-10-30 23:19:29626ブラウズ

導入

前のブログ投稿で述べたように、YOLOv8 はドキュメント レイアウト分析で非常に優れたパフォーマンスを発揮します。 YOLOv8 シリーズのすべてのモデルを DocLayNet データセットでトレーニングしたところ、最小のモデルでも全体の mAP50-95 が 71.8 に達し、最大のモデルでは驚異的な 78.7 に達していることがわかりました。

最近、Ultralytics は、リアルタイム物体検出器 YOLO シリーズの最新バージョンである YOLOv11 をリリースしました。この新しいバージョンでは、アーキテクチャとトレーニング方法の両方に大幅な改善が加えられています。

YOLOv A New Breakthrough in Document Layout Analysis

?結果は期待できそうです!すべての YOLOv11 モデルを DocLayNet データセットで再度トレーニングし、以前の YOLOv8 シリーズと比較することにしました。

トレーニング方法

この実験では、引き続きリポジトリ https://github.com/ppaanngggg/yolo-doclaynet を使用してデータを準備し、カスタム スクリプトを使用してモデルをトレーニングしました。このアプローチにより、データの準備とトレーニングのプロセスの一貫性が保証され、YOLOv8 モデルと YOLOv11 モデル間の公平な比較が可能になります。

YOLOv11 モデルのトレーニングと評価のプロセスは簡単で、簡単なコマンドライン命令で実行できます。

# To train the model
python train.py {base-model}

# To evaluate the model
python eval.py {path-to-your-trained-model}

結果の比較

YOLOv8 モデルと YOLOv11 を比較した詳細な評価表は次のとおりです。

label boxes yolov8n yolov11n yolov8s yolov11s yolov8m yolov11m yolov8l yolov11l yolov8x yolov11x
Params (M) 3.2 2.6 11.2 9.4 25.9 20.1 43.7 25.3 68.2 56.9
Caption 1542 0.682 0.717 0.721 0.744 0.746 0.746 0.75 0.772 0.753 0.765
Footnote 387 0.614 0.634 0.669 0.683 0.696 0.701 0.702 0.715 0.717 0.71
Formula 1966 0.655 0.673 0.695 0.705 0.723 0.729 0.75 0.75 0.747 0.765
List-item 10521 0.789 0.81 0.818 0.836 0.836 0.843 0.841 0.847 0.841 0.845
Page-footer 3987 0.588 0.591 0.61 0.621 0.64 0.653 0.641 0.678 0.655 0.684
Page-header 3365 0.707 0.704 0.754 0.76 0.769 0.778 0.776 0.788 0.784 0.795
Picture 3497 0.723 0.758 0.762 0.783 0.789 0.8 0.796 0.805 0.805 0.802
Section-header 8544 0.709 0.713 0.727 0.745 0.742 0.753 0.75 0.75 0.748 0.751
Table 2394 0.82 0.846 0.854 0.874 0.88 0.88 0.885 0.891 0.886 0.89
Text 29917 0.845 0.851 0.86 0.869 0.876 0.878 0.878 0.88 0.877 0.883
Title 334 0.762 0.793 0.806 0.817 0.83 0.832 0.846 0.844 0.84 0.848
All 66454 0.718 0.735 0.752 0.767 0.775 0.781 0.783 0.793 0.787 0.794

これら 2 つのシリーズのモデル サイズとスコアの関係を示すプロットも作成しました。

YOLOv A New Breakthrough in Document Layout Analysis

結論

上記の表とプロットに基づいて、次のように結論付けることができます

上記の表とプロットに基づいて、YOLOv11 モデルはすべてのサイズにおいて一貫して YOLOv8 モデルより優れていると結論付けることができます。この改善は特に小型モデルで顕著であり、YOLOv11n では YOLOv8n と比較して mAP50-95 が 1.7% 増加しました。さらに、YOLOv11 モデルは通常、YOLOv8 モデルよりもパラメーターが少なく、パフォーマンスが向上しているだけでなく効率も向上していることを示しています。

私のお気に入りのモデルは YOLOv11l です。サイズは YOLOv8m とほぼ同じですが、パフォーマンスは YOLOv8x を上回ります!

ただし、YOLOv11x は、モデル サイズが 2 倍であるにもかかわらず、YOLOv11l に比べてわずかな改善しか示していません。

もっと

YOLOv11 の結果についてどう思いますか?文書レイアウト分析に YOLO モデルを使用した経験はありますか?以下のコメント欄であなたの洞察や経験をぜひお聞かせください!

参考文献

  1. YOLOv11 ドキュメント: https://docs.ultralytics.com/models/yolo11/
  2. DocLayNet GitHub リポジトリ: https://github.com/DS4SD/DocLayNet
  3. 私の YOLO-DocLayNet GitHub プロジェクト: https://github.com/ppaanngggg/yolo-doclaynet

以上がYOLOv ドキュメント レイアウト分析の新たなブレークスルーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。