遠見:革新計算機視覺應用程序開發
計算機視覺正在改變醫療保健,製造和零售等行業。 但是,基於構建視覺的解決方案通常是複雜且耗時的。 由Andrew Ng領導的Landingai介紹了VisionAgent,這是一種生成的Visual AI應用程序構建器,旨在簡化整個過程 - 從創建和迭代到部署。
>
>關鍵功能包括:
>>基於文本提示的檢測:- 無需數據標籤或模型培訓。
高級推理:- 確保准確,高質量的輸出。
多功能識別:- 有效地處理複雜的對象和方案。 >
> VisionAgent超過簡單的代碼生成;它充當AI驅動的助手,通過規劃,選擇,代碼生成和部署指導開發人員。 這種AI援助使開發人員可以在幾分鐘而不是幾週內迭代。
>
目錄的>
>視覺生態系統
>基準評估-
>視覺的動作-
-
>提示:“檢測籃子內外的蔬菜”- >
-
提示:“在視頻中識別紅色汽車” -
-
結論
- >視覺生態系統
視覺構成的三個核心組成部分用於簡化的開發經驗:>
> VisionAgent Web應用
> VisionAgent Library
- > VisionAgent工具庫
-
了解它們的相互作用對於最大化VisionAgent的潛力至關重要。
- 1。 VisionAgent Web應用
> VisionAgent Web應用程序是一個用戶友好的,託管的平台,用於製作,完善和部署視覺應用程序,而無需進行廣泛的設置。 其直觀的Web界面允許用戶:
>輕鬆上傳和處理數據。
生成和測試計算機視覺代碼。
可視化和調整結果。 -
>部署解決方案作為雲端點或簡化應用程序。
-
這種低代碼方法非常適合在沒有復雜的本地開發環境的情況下實驗AI驅動的視力應用。2。 VisionAgent Librargle
視覺庫形成了框架的核心,提供了以編程方式創建和部署AI驅動的視覺應用程序的基本功能。 關鍵功能包括:
基於代理的計劃:-
生成多個解決方案並自動選擇最佳的解決方案。
- 工具選擇和執行:動態選擇適合各種視覺任務的工具。
- 代碼生成和評估:產生有效的基於Python的實現。
- >內置視覺模型支持:利用各種計算機視覺模型進行對象檢測,圖像分類和細分。
>- 本地和雲集成:啟用本地執行或利用Landingai的雲託管模型來擴展性。 >
>簡化供電的聊天應用程序為偏愛聊天接口的用戶提供了更直觀的交互。
3。 VisionAgent工具庫
> VisionAgent工具庫提供了用於特定計算機視覺任務的基於Python的預先構建的工具:>
對象檢測:在圖像或視頻中識別並找到對象。 -
>圖像分類:
>根據訓練有素的AI模型對圖像進行分類。 -
QR代碼讀取:
從QR碼中提取信息。 -
項目計數:
計數庫存或跟踪的對象。 - >
這些工具通過動態模型註冊表與各種視覺模型進行交互,從而允許無縫模型切換。 開發人員還可以註冊自定義工具。 請注意,部署服務不包含在工具庫中。
>基準評估
1。模型和方法
著陸ai(代理對象檢測):代理類別。 -
Microsoft Florence-2:
打開設置對象檢測。 -
Google OWLV2:
打開設置對象檢測。 -
大型多模型模型(LMM)。
2。評估指標-
使用以下方式評估>模型
-
回憶:衡量模型識別所有相關對象的能力。
-
>精確:測量檢測的準確性(較少的假陽性)。
- > f1分數:平衡的精度和回憶。
3。性能比較
模型 | 召回 | precision | f1得分 |
著陸ai | 77.0% | 82.6% | |
|
|
79.7%(最高)
|
Microsoft Florence-2 | 43.4% | 36.6% | |
39.7% |
Google OWLV2 | 81.0% | 29.5% | |
43.2% |
alibaba qwen2.5-vl-7b-instruct | 26.0% | |
54.0% | |
35.1% |
4。關鍵發現
著陸AI的代理對象檢測達到了最高的F1分數,表明精度和召回的最佳平衡。 其他型號顯示了召回和精確之間的權衡。
>視覺的動作
> VisionAgent使用結構化的工作流程:>
- 上傳圖像或視頻。
- 提供一個文本提示(例如,“戴眼鏡的人”)。
>
- 視覺分析輸入。
>
- 接收檢測結果。
- >提示:“檢測籃子內外的蔬菜”
>
>步驟1:交互
>用戶使用自然語言啟動請求。 VisionAgent確認了理解。
>輸入圖像
互動示例
“我將使用對象檢測生成代碼來檢測籃子內外的蔬菜。”
步驟2:計劃
Xivisagent確定最佳方法:
使用視覺詢問回答(VQA)理解圖像內容。
>
- 生成有關檢測方法的建議。
>
- 選擇適當的工具(對象檢測,基於顏色的分類)。
>
-
步驟3:執行
該計劃是使用VisionAgent庫和工具庫執行的。
觀察和輸出
visionagent提供結構化的結果:
檢測到按位置分類的蔬菜(內部/外部籃子)。
每種蔬菜的邊界盒坐標。
>可部署的AI模型。
提示:“在視頻中識別紅色汽車”
>此示例遵循類似的過程,使用視頻幀,VQA和建議來識別和跟踪紅色汽車。 輸出將在整個視頻中顯示履帶的汽車。 (省略了簡潔的輸出圖像示例,但樣式與蔬菜檢測輸出相似)。
- 結論
VisionAgent簡化AI驅動的視覺應用程序開發,自動化繁瑣的任務並提供現成的工具。 它的速度,靈活性和可擴展性使AI研究人員,開發人員和企業受益。 未來的進步可能會結合更強大的模型和更廣泛的應用程序支持。
以上是Andrew Ng的VisionAgent:精簡視覺AI解決方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!