远见:革新计算机视觉应用程序开发
计算机视觉正在改变医疗保健,制造和零售等行业。 但是,基于构建视觉的解决方案通常是复杂且耗时的。 由Andrew Ng领导的Landingai介绍了VisionAgent,这是一种生成的Visual AI应用程序构建器,旨在简化整个过程 - 从创建和迭代到部署。
>
>关键功能包括:
>>基于文本提示的检测:- 无需数据标签或模型培训。
高级推理:- 确保准确,高质量的输出。
多功能识别:- 有效地处理复杂的对象和方案。>
> VisionAgent超过简单的代码生成;它充当AI驱动的助手,通过规划,选择,代码生成和部署指导开发人员。 这种AI援助使开发人员可以在几分钟而不是几周内迭代。
>
目录的>
>视觉生态系统
>基准评估-
>视觉的动作-
-
>提示:“检测篮子内外的蔬菜”- >
-
提示:“在视频中识别红色汽车” -
-
结论
- >视觉生态系统
视觉构成的三个核心组成部分用于简化的开发经验:>
> VisionAgent Web应用
> VisionAgent Library
- > VisionAgent工具库
-
了解它们的相互作用对于最大化VisionAgent的潜力至关重要。
- 1。 VisionAgent Web应用
> VisionAgent Web应用程序是一个用户友好的,托管的平台,用于制作,完善和部署视觉应用程序,而无需进行广泛的设置。 其直观的Web界面允许用户:
>轻松上传和处理数据。
生成和测试计算机视觉代码。
可视化和调整结果。-
>部署解决方案作为云端点或简化应用程序。
-
这种低代码方法非常适合在没有复杂的本地开发环境的情况下实验AI驱动的视力应用。2。 VisionAgent Librargle
视觉库形成了框架的核心,提供了以编程方式创建和部署AI驱动的视觉应用程序的基本功能。 关键功能包括:
基于代理的计划:-
生成多个解决方案并自动选择最佳的解决方案。
- 工具选择和执行:动态选择适合各种视觉任务的工具。
- 代码生成和评估:产生有效的基于Python的实现。
- >内置视觉模型支持:利用各种计算机视觉模型进行对象检测,图像分类和细分。
>- 本地和云集成:启用本地执行或利用Landingai的云托管模型来扩展性。>
>简化供电的聊天应用程序为偏爱聊天接口的用户提供了更直观的交互。
3。 VisionAgent工具库
> VisionAgent工具库提供了用于特定计算机视觉任务的基于Python的预先构建的工具:>
对象检测:在图像或视频中识别并找到对象。-
>图像分类:
>根据训练有素的AI模型对图像进行分类。-
QR代码读取:
从QR码中提取信息。-
项目计数:
计数库存或跟踪的对象。- >
这些工具通过动态模型注册表与各种视觉模型进行交互,从而允许无缝模型切换。 开发人员还可以注册自定义工具。 请注意,部署服务不包含在工具库中。
>基准评估
1。模型和方法
着陆ai(代理对象检测):代理类别。-
Microsoft Florence-2:
打开设置对象检测。-
Google OWLV2:
打开设置对象检测。-
大型多模型模型(LMM)。
2。评估指标-
使用以下方式评估>模型
-
回忆:衡量模型识别所有相关对象的能力。
-
>精确:测量检测的准确性(较少的假阳性)。
- > f1分数:平衡的精度和回忆。
3。性能比较
模型 | 召回 | precision | f1得分 |
着陆ai | 77.0% | 82.6% | |
|
|
79.7%(最高)
|
Microsoft Florence-2 | 43.4% | 36.6% | |
39.7% |
Google OWLV2 | 81.0% | 29.5% | |
43.2% |
alibaba qwen2.5-vl-7b-instruct | 26.0% | |
54.0% | |
35.1% |
4。关键发现
着陆AI的代理对象检测达到了最高的F1分数,表明精度和召回的最佳平衡。 其他型号显示了召回和精确之间的权衡。
>视觉的动作
> VisionAgent使用结构化的工作流程:>
- 上传图像或视频。
- 提供一个文本提示(例如,“戴眼镜的人”)。
>
- 视觉分析输入。
>
- 接收检测结果。
- >提示:“检测篮子内外的蔬菜”
>
>步骤1:交互
>用户使用自然语言启动请求。 VisionAgent确认了理解。
>输入图像
互动示例
“我将使用对象检测生成代码来检测篮子内外的蔬菜。”
步骤2:计划
Xivisagent确定最佳方法:
使用视觉询问回答(VQA)理解图像内容。
>
- 生成有关检测方法的建议。
>
- 选择适当的工具(对象检测,基于颜色的分类)。
>
-
步骤3:执行
该计划是使用VisionAgent库和工具库执行的。
观察和输出
visionagent提供结构化的结果:
检测到按位置分类的蔬菜(内部/外部篮子)。
每种蔬菜的边界盒坐标。
>可部署的AI模型。
提示:“在视频中识别红色汽车”
>此示例遵循类似的过程,使用视频帧,VQA和建议来识别和跟踪红色汽车。 输出将在整个视频中显示履带的汽车。 (省略了简洁的输出图像示例,但样式与蔬菜检测输出相似)。
- 结论
VisionAgent简化AI驱动的视觉应用程序开发,自动化繁琐的任务并提供现成的工具。 它的速度,灵活性和可扩展性使AI研究人员,开发人员和企业受益。 未来的进步可能会结合更强大的模型和更广泛的应用程序支持。
以上是Andrew Ng的VisionAgent:精简视觉AI解决方案的详细内容。更多信息请关注PHP中文网其他相关文章!