Llama 3.2-Vision 是多模態大語言模型,提供 11B 和 90B 尺寸,能夠處理文字和圖像輸入以產生文字輸出。該模型在視覺識別、圖像推理、圖像描述和回答圖像相關問題方面表現出色,在多個行業基準上優於現有的開源和閉源多模態模型。
Llama 3.2-視覺範例
手寫
光學字元辨識 (OCR)
在本文中,我將介紹如何呼叫 Ollama 運行的 Llama 3.2-Vision 11B 建模服務,並使用 Ollama-OCR 實現圖像文字辨識 (OCR) 功能。
Ollama-OCR 的特點
?使用 Llama 3.2-Vision 模型進行高精準度文字辨識
?保留原始文字格式和結構
?️支援多種圖片格式:JPG、JPEG、PNG
⚡️可自訂的識別提示和模型
? Markdown 輸出格式選項
?強大的錯誤處理
安裝奧拉瑪
在開始使用 Llama 3.2-Vision 之前,您需要安裝 Ollama,一個支援本地運行多模態模型的平台。請依照以下步驟安裝:
- 下載Ollama:造訪Ollama官方網站下載適合您作業系統的安裝包。
- 安裝Ollama:依照下載的安裝包依照指示完成安裝。
安裝 Llama 3.2-Vision 11B
安裝 Ollama 後,您可以使用以下指令安裝 Llama 3.2-Vision 11B 模型:
ollama run llama3.2-vision
如何使用 Ollama-OCR
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
光學字元辨識
代碼
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
輸入影像:
輸出:
Llama 3.2-Vision 多模態大語言模型 (LLM) 集合是一個經過指令調整的圖像推理生成模型集合,具有 118 和 908 尺寸(文字圖像輸入/文字輸出)。 Llama 3.2-Vision 指令調整模型針對視覺辨識、影像推理、字幕和回答有關影像的一般問題進行了最佳化。這些模型在常見行業基準上優於許多可用的開源和封閉多模式模型。
2. Markdown 輸出
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
輸入圖片:
輸出:
ollama-ocr 使用本地視覺模型,如果您想使用線上 Llama 3.2-Vision 模型,請嘗試 llama-ocr 庫。
以上是Ollama-OCR 使用 Ollama 進行高精度 OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

JavaScript框架的強大之處在於簡化開發、提升用戶體驗和應用性能。選擇框架時應考慮:1.項目規模和復雜度,2.團隊經驗,3.生態系統和社區支持。

引言我知道你可能會覺得奇怪,JavaScript、C 和瀏覽器之間到底有什麼關係?它們之間看似毫無關聯,但實際上,它們在現代網絡開發中扮演著非常重要的角色。今天我們就來深入探討一下這三者之間的緊密聯繫。通過這篇文章,你將了解到JavaScript如何在瀏覽器中運行,C 在瀏覽器引擎中的作用,以及它們如何共同推動網頁的渲染和交互。 JavaScript與瀏覽器的關係我們都知道,JavaScript是前端開發的核心語言,它直接在瀏覽器中運行,讓網頁變得生動有趣。你是否曾經想過,為什麼JavaScr

Node.js擅長於高效I/O,這在很大程度上要歸功於流。 流媒體匯總處理數據,避免內存過載 - 大型文件,網絡任務和實時應用程序的理想。將流與打字稿的類型安全結合起來創建POWE

Python和JavaScript在性能和效率方面的差異主要體現在:1)Python作為解釋型語言,運行速度較慢,但開發效率高,適合快速原型開發;2)JavaScript在瀏覽器中受限於單線程,但在Node.js中可利用多線程和異步I/O提升性能,兩者在實際項目中各有優勢。

JavaScript起源於1995年,由布蘭登·艾克創造,實現語言為C語言。 1.C語言為JavaScript提供了高性能和系統級編程能力。 2.JavaScript的內存管理和性能優化依賴於C語言。 3.C語言的跨平台特性幫助JavaScript在不同操作系統上高效運行。

JavaScript在瀏覽器和Node.js環境中運行,依賴JavaScript引擎解析和執行代碼。 1)解析階段生成抽象語法樹(AST);2)編譯階段將AST轉換為字節碼或機器碼;3)執行階段執行編譯後的代碼。

Python和JavaScript的未來趨勢包括:1.Python將鞏固在科學計算和AI領域的地位,2.JavaScript將推動Web技術發展,3.跨平台開發將成為熱門,4.性能優化將是重點。兩者都將繼續在各自領域擴展應用場景,並在性能上有更多突破。

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda,適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack,適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver CS6
視覺化網頁開發工具

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 Linux新版
SublimeText3 Linux最新版