Llama 3.2-Vision 是多模態大語言模型,提供 11B 和 90B 尺寸,能夠處理文字和圖像輸入以產生文字輸出。該模型在視覺識別、圖像推理、圖像描述和回答圖像相關問題方面表現出色,在多個行業基準上優於現有的開源和閉源多模態模型。
Llama 3.2-視覺範例
手寫
光學字元辨識 (OCR)
在本文中,我將介紹如何呼叫 Ollama 運行的 Llama 3.2-Vision 11B 建模服務,並使用 Ollama-OCR 實現圖像文字辨識 (OCR) 功能。
Ollama-OCR 的特點
?使用 Llama 3.2-Vision 模型進行高精準度文字辨識
?保留原始文字格式和結構
?️支援多種圖片格式:JPG、JPEG、PNG
⚡️可自訂的識別提示和模型
? Markdown 輸出格式選項
?強大的錯誤處理
安裝奧拉瑪
在開始使用 Llama 3.2-Vision 之前,您需要安裝 Ollama,一個支援本地運行多模態模型的平台。請依照以下步驟安裝:
- 下載Ollama:造訪Ollama官方網站下載適合您作業系統的安裝包。
- 安裝Ollama:依照下載的安裝包依照指示完成安裝。
安裝 Llama 3.2-Vision 11B
安裝 Ollama 後,您可以使用以下指令安裝 Llama 3.2-Vision 11B 模型:
ollama run llama3.2-vision
如何使用 Ollama-OCR
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
光學字元辨識
代碼
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
輸入影像:
輸出:
Llama 3.2-Vision 多模態大語言模型 (LLM) 集合是一個經過指令調整的圖像推理生成模型集合,具有 118 和 908 尺寸(文字圖像輸入/文字輸出)。 Llama 3.2-Vision 指令調整模型針對視覺辨識、影像推理、字幕和回答有關影像的一般問題進行了最佳化。這些模型在常見行業基準上優於許多可用的開源和封閉多模式模型。
2. Markdown 輸出
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
輸入圖片:
輸出:
ollama-ocr 使用本地視覺模型,如果您想使用線上 Llama 3.2-Vision 模型,請嘗試 llama-ocr 庫。
以上是Ollama-OCR 使用 Ollama 進行高精度 OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

我使用您的日常技術工具構建了功能性的多租戶SaaS應用程序(一個Edtech應用程序),您可以做同樣的事情。 首先,什麼是多租戶SaaS應用程序? 多租戶SaaS應用程序可讓您從唱歌中為多個客戶提供服務

本文展示了與許可證確保的後端的前端集成,並使用Next.js構建功能性Edtech SaaS應用程序。 前端獲取用戶權限以控制UI的可見性並確保API要求遵守角色庫

JavaScript是現代Web開發的核心語言,因其多樣性和靈活性而廣泛應用。 1)前端開發:通過DOM操作和現代框架(如React、Vue.js、Angular)構建動態網頁和單頁面應用。 2)服務器端開發:Node.js利用非阻塞I/O模型處理高並發和實時應用。 3)移動和桌面應用開發:通過ReactNative和Electron實現跨平台開發,提高開發效率。

JavaScript的最新趨勢包括TypeScript的崛起、現代框架和庫的流行以及WebAssembly的應用。未來前景涵蓋更強大的類型系統、服務器端JavaScript的發展、人工智能和機器學習的擴展以及物聯網和邊緣計算的潛力。

JavaScript是現代Web開發的基石,它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發,極大地提升了用戶體驗和跨平台開發的靈活性。

Python更适合数据科学和机器学习,JavaScript更适合前端和全栈开发。1.Python以简洁语法和丰富库生态著称,适用于数据分析和Web开发。2.JavaScript是前端开发核心,Node.js支持服务器端编程,适用于全栈开发。

JavaScript不需要安裝,因為它已內置於現代瀏覽器中。你只需文本編輯器和瀏覽器即可開始使用。 1)在瀏覽器環境中,通過標籤嵌入HTML文件中運行。 2)在Node.js環境中,下載並安裝Node.js後,通過命令行運行JavaScript文件。

如何在Quartz中提前發送任務通知在使用Quartz定時器進行任務調度時,任務的執行時間是由cron表達式設定的。現�...


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器