Andrew Ng的VisionAgent：精簡視覺AI解決方案-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Andrew Ng的VisionAgent：精簡視覺AI解決方案

Joseph Gordon-Levitt

Mar 06, 2025 am 11:46 AM

遠見：革新計算機視覺應用程序開發

計算機視覺正在改變醫療保健，製造和零售等行業。但是，基於構建視覺的解決方案通常是複雜且耗時的。由Andrew Ng領導的Landingai介紹了VisionAgent，這是一種生成的Visual AI應用程序構建器，旨在簡化整個過程 - 從創建和迭代到部署。 >

>關鍵功能包括：

無需數據標籤或模型培訓。
確保准確，高質量的輸出。
有效地處理複雜的對象和方案。 >

> 目錄的

>視覺生態系統

>
>視覺生態系統

視覺構成的三個核心組成部分用於簡化的開發經驗：> Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

> VisionAgent Web應用

> VisionAgent Library

> VisionAgent工具庫
1。 VisionAgent Web應用

> VisionAgent Web應用程序是一個用戶友好的，託管的平台，用於製作，完善和部署視覺應用程序，而無需進行廣泛的設置。其直觀的Web界面允許用戶：

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions >輕鬆上傳和處理數據。

生成和測試計算機視覺代碼。

2。 VisionAgent Librargle

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

視覺庫形成了框架的核心，提供了以編程方式創建和部署AI驅動的視覺應用程序的基本功能。關鍵功能包括：

生成多個解決方案並自動選擇最佳的解決方案。
工具選擇和執行：動態選擇適合各種視覺任務的工具。
代碼生成和評估：產生有效的基於Python的實現。
>內置視覺模型支持：利用各種計算機視覺模型進行對象檢測，圖像分類和細分。
本地和雲集成：啟用本地執行或利用Landingai的雲託管模型來擴展性。 >

3。 VisionAgent工具庫

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions > VisionAgent工具庫提供了用於特定計算機視覺任務的基於Python的預先構建的工具：>

>圖像分類：
QR代碼讀取：
項目計數：
> 這些工具通過動態模型註冊表與各種視覺模型進行交互，從而允許無縫模型切換。開發人員還可以註冊自定義工具。請注意，部署服務不包含在工具庫中。

1。模型和方法 Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

Microsoft Florence-2：
Google OWLV2：
大型多模型模型（LMM）。

使用以下方式評估>模型

回憶：衡量模型識別所有相關對象的能力。

>精確：測量檢測的準確性（較少的假陽性）。

> f1分數：平衡的精度和回憶。 3。性能比較

模型召回 precision f1得分

著陸ai 77.0％ 82.6％ 79.7％
（最高）

Microsoft Florence-2 43.4％ 36.6％ 39.7％

Google OWLV2 81.0％ 29.5％ 43.2％

alibaba qwen2.5-vl-7b-instruct 26.0％ 54.0％ 35.1％

模型	召回	precision	f1得分
著陸ai	77.0％	82.6％				79.7％（最高）
Microsoft Florence-2	43.4％	36.6％		39.7％
Google OWLV2	81.0％	29.5％		43.2％
alibaba qwen2.5-vl-7b-instruct	26.0％		54.0％		35.1％

4。關鍵發現

著陸AI的代理對象檢測達到了最高的F1分數，表明精度和召回的最佳平衡。其他型號顯示了召回和精確之間的權衡。

>視覺的動作

> VisionAgent使用結構化的工作流程：>

上傳圖像或視頻。
提供一個文本提示（例如，“戴眼鏡的人”）。
>
視覺分析輸入。
>
接收檢測結果。
>提示：“檢測籃子內外的蔬菜”
>

>步驟1：交互

>用戶使用自然語言啟動請求。 VisionAgent確認了理解。

>輸入圖像

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions

互動示例

“我將使用對象檢測生成代碼來檢測籃子內外的蔬菜。”

步驟2：計劃

Xivisagent確定最佳方法：

使用視覺詢問回答（VQA）理解圖像內容。

生成有關檢測方法的建議。
選擇適當的工具（對象檢測，基於顏色的分類）。

該計劃是使用VisionAgent庫和工具庫執行的。

觀察和輸出

visionagent提供結構化的結果：

檢測到按位置分類的蔬菜（內部/外部籃子）。每種蔬菜的邊界盒坐標。

>可部署的AI模型。

Andrew Ng’s VisionAgent: Streamlining Vision AI Solutions 提示：“在視頻中識別紅色汽車”

結論
VisionAgent簡化AI驅動的視覺應用程序開發，自動化繁瑣的任務並提供現成的工具。它的速度，靈活性和可擴展性使AI研究人員，開發人員和企業受益。未來的進步可能會結合更強大的模型和更廣泛的應用程序支持。

以上是Andrew Ng的VisionAgent：精簡視覺AI解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使用代理抹布構建智能常見問題聊天機器人May 07, 2025 am 11:28 AM

人工智能代理人現在是企業大小的一部分。從醫院的填寫表格到檢查法律文件到分析錄像帶和處理客戶支持 - 我們擁有各種任務的AI代理。伴侶

從恐慌到權力：領導者在AI時代必須學會什麼May 07, 2025 am 11:26 AM

生活是美好的。也可以預見的是，您的分析思維更喜歡它的方式。您今天只開會進入辦公室，完成一些最後一刻的文書工作。之後，您要帶您的伴侶和孩子們度過當之無愧的假期去陽光

為什麼預測AGI將超過AI專家的科學共識的原因為什麼May 07, 2025 am 11:24 AM

但是，科學共識具有打ic和陷阱，也許是通過使用融合的證據，也稱為合奏，也許是一種更加謹慎的方法。讓我們來談談。對創新AI突破的這種分析是我的一部分

吉卜力工作室的困境 - 生成AI時代的版權May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都沒有回應此故事的評論請求。但是他們的沉默反映了創造性經濟中更廣泛，更複雜的緊張局勢：版權在生成AI時代應該如何運作？使用類似的工具

mulesoft為鍍鋅代理AI連接製定混合May 07, 2025 am 11:18 AM

混凝土和軟件都可以在需要的情況下鍍鋅以良好的性能。兩者都可以接受壓力測試，兩者都會隨著時間的流逝而遭受裂縫和裂縫，兩者都可以分解並重構為“新建”，兩種功能的產生

據報導，Openai達成了30億美元的交易來購買WindsurfMay 07, 2025 am 11:16 AM

但是，許多報告都在非常表面的水平上停止。如果您想弄清楚帆衝浪的全部內容，您可能會或可能不會從顯示在Google搜索引擎頂部出現的聯合內容中得到想要的東西

對所有美國孩子的強制性AI教育？ 250多個首席執行官說是May 07, 2025 am 11:15 AM

關鍵事實簽署公開信的領導者包括Adobe，Accenture，AMD，American Airlines，Blue Origin，Cognizant，Dell，Dellbox，IBM，LinkedIn，Lyftin，Lyft，Microsoft，Microsoft，Salesforce，Uber，Uber，Yahoo和Zoom）等高調公司的首席執行官。