首页  >  文章  >  后端开发  >  YOLOv 文档布局分析的新突破

YOLOv 文档布局分析的新突破

Barbara Streisand
Barbara Streisand原创
2024-10-30 23:19:29503浏览

介绍

正如上一篇博文中提到的,YOLOv8 在文档布局分析中表现非常出色。我通过 DocLayNet 数据集训练了 YOLOv8 系列的所有模型,发现即使是最小的模型,整体 mAP50-95 也达到了 71.8,而最大的模型达到了令人印象深刻的 78.7。

最近,Ultralytics 发布了 YOLOv11,这是其 YOLO 系列实时物体检测器的最新版本。这个新版本对架构和训练方法都带来了重大改进。

YOLOv A New Breakthrough in Document Layout Analysis

?结果看起来很有希望!我决定再次在 DocLayNet 数据集上训练所有 YOLOv11 模型,并与之前的 YOLOv8 系列进行比较。

训练方法

对于这个实验,我继续使用我的存储库 https://github.com/ppaangggg/yolo-doclaynet 来准备数据并使用我的自定义脚本训练模型。这种方法确保了数据准备和训练过程的一致性,从而可以公平比较 YOLOv8 和 YOLOv11 模型。

YOLOv11 模型的训练和评估过程非常简单,可以使用简单的命令行指令执行:

# To train the model
python train.py {base-model}

# To evaluate the model
python eval.py {path-to-your-trained-model}

比较结果

这是YOLOv8模型与YOLOv11比较的详细评估表:

label boxes yolov8n yolov11n yolov8s yolov11s yolov8m yolov11m yolov8l yolov11l yolov8x yolov11x
Params (M) 3.2 2.6 11.2 9.4 25.9 20.1 43.7 25.3 68.2 56.9
Caption 1542 0.682 0.717 0.721 0.744 0.746 0.746 0.75 0.772 0.753 0.765
Footnote 387 0.614 0.634 0.669 0.683 0.696 0.701 0.702 0.715 0.717 0.71
Formula 1966 0.655 0.673 0.695 0.705 0.723 0.729 0.75 0.75 0.747 0.765
List-item 10521 0.789 0.81 0.818 0.836 0.836 0.843 0.841 0.847 0.841 0.845
Page-footer 3987 0.588 0.591 0.61 0.621 0.64 0.653 0.641 0.678 0.655 0.684
Page-header 3365 0.707 0.704 0.754 0.76 0.769 0.778 0.776 0.788 0.784 0.795
Picture 3497 0.723 0.758 0.762 0.783 0.789 0.8 0.796 0.805 0.805 0.802
Section-header 8544 0.709 0.713 0.727 0.745 0.742 0.753 0.75 0.75 0.748 0.751
Table 2394 0.82 0.846 0.854 0.874 0.88 0.88 0.885 0.891 0.886 0.89
Text 29917 0.845 0.851 0.86 0.869 0.876 0.878 0.878 0.88 0.877 0.883
Title 334 0.762 0.793 0.806 0.817 0.83 0.832 0.846 0.844 0.84 0.848
All 66454 0.718 0.735 0.752 0.767 0.775 0.781 0.783 0.793 0.787 0.794

我还创建了一个图来说明这两个系列的模型大小和分数之间的关系:

YOLOv A New Breakthrough in Document Layout Analysis

结论

根据上面的表格和图,我们可以得出结论

根据上面的表格和图表,我们可以得出结论,YOLOv11 模型在所有尺寸上始终优于 YOLOv8 模型。这些改进在较小的模型中尤其明显,与 YOLOv8n 相比,YOLOv11n 的 mAP50-95 提高了 1.7%。此外,YOLOv11 模型通常比 YOLOv8 模型具有更少的参数,这表明除了更好的性能之外,效率也得到了提高。

我最喜欢的模型是 YOLOv11l。它的大小与 YOLOv8m 差不多,但它的性能甚至超过了 YOLOv8x!

然而,尽管模型大小是 YOLOv11l 的两倍,YOLOv11x 仅比 YOLOv11l 略有改进。

更多的

您对 YOLOv11 的结果有何看法?您有使用 YOLO 模型进行文档布局分析的经验吗?我很想在下面的评论中听到您的见解和经验!

参考

  1. YOLOv11 文档:https://docs.ultralytics.com/models/yolo11/
  2. DocLayNet GitHub 存储库:https://github.com/DS4SD/DocLayNet
  3. 我的 YOLO-DocLayNet GitHub 项目:https://github.com/ppaanngggg/yolo-doclaynet

以上是YOLOv 文档布局分析的新突破的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn