Ollama-OCR 使用 Ollama 進行高精度 OCR-js教程-PHP中文網

首頁

web前端

js教程

Ollama-OCR 使用 Ollama 進行高精度 OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision 是多模態大語言模型，提供 11B 和 90B 尺寸，能夠處理文字和圖像輸入以產生文字輸出。該模型在視覺識別、圖像推理、圖像描述和回答圖像相關問題方面表現出色，在多個行業基準上優於現有的開源和閉源多模態模型。

Llama 3.2-視覺範例

手寫

Ollama-OCR for High-Precision OCR with Ollama

光學字元辨識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

在本文中，我將介紹如何呼叫 Ollama 運行的 Llama 3.2-Vision 11B 建模服務，並使用 Ollama-OCR 實現圖像文字辨識 (OCR) 功能。

Ollama-OCR 的特點

？使用 Llama 3.2-Vision 模型進行高精準度文字辨識
？保留原始文字格式和結構
?️支援多種圖片格式：JPG、JPEG、PNG
⚡️可自訂的識別提示和模型
？ Markdown 輸出格式選項
？強大的錯誤處理

安裝奧拉瑪

在開始使用 Llama 3.2-Vision 之前，您需要安裝 Ollama，一個支援本地運行多模態模型的平台。請依照以下步驟安裝：

下載Ollama：造訪Ollama官方網站下載適合您作業系統的安裝包。
安裝Ollama：依照下載的安裝包依照指示完成安裝。

安裝 Llama 3.2-Vision 11B

安裝 Ollama 後，您可以使用以下指令安裝 Llama 3.2-Vision 11B 模型：

ollama run llama3.2-vision

如何使用 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

光學字元辨識

代碼

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

輸入影像：

Ollama-OCR for High-Precision OCR with Ollama

輸出：
Llama 3.2-Vision 多模態大語言模型 (LLM) 集合是一個經過指令調整的圖像推理生成模型集合，具有 118 和 908 尺寸（文字圖像輸入/文字輸出）。 Llama 3.2-Vision 指令調整模型針對視覺辨識、影像推理、字幕和回答有關影像的一般問題進行了最佳化。這些模型在常見行業基準上優於許多可用的開源和封閉多模式模型。

2. Markdown 輸出

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

輸入圖片：

Ollama-OCR for High-Precision OCR with Ollama

輸出：

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr 使用本地視覺模型，如果您想使用線上 Llama 3.2-Vision 模型，請嘗試 llama-ocr 庫。

以上是Ollama-OCR 使用 Ollama 進行高精度 OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

JavaScript框架：為現代網絡開發提供動力May 02, 2025 am 12:04 AM

JavaScript框架的強大之處在於簡化開發、提升用戶體驗和應用性能。選擇框架時應考慮：1.項目規模和復雜度，2.團隊經驗，3.生態系統和社區支持。

JavaScript，C和瀏覽器之間的關係May 01, 2025 am 12:06 AM

引言我知道你可能會覺得奇怪，JavaScript、C 和瀏覽器之間到底有什麼關係？它們之間看似毫無關聯，但實際上，它們在現代網絡開發中扮演著非常重要的角色。今天我們就來深入探討一下這三者之間的緊密聯繫。通過這篇文章，你將了解到JavaScript如何在瀏覽器中運行，C 在瀏覽器引擎中的作用，以及它們如何共同推動網頁的渲染和交互。 JavaScript與瀏覽器的關係我們都知道，JavaScript是前端開發的核心語言，它直接在瀏覽器中運行，讓網頁變得生動有趣。你是否曾經想過，為什麼JavaScr

node.js流帶打字稿Apr 30, 2025 am 08:22 AM

Node.js擅長於高效I/O，這在很大程度上要歸功於流。流媒體匯總處理數據，避免內存過載 - 大型文件，網絡任務和實時應用程序的理想。將流與打字稿的類型安全結合起來創建POWE

Python vs. JavaScript：性能和效率注意事項Apr 30, 2025 am 12:08 AM

Python和JavaScript在性能和效率方面的差異主要體現在：1)Python作為解釋型語言，運行速度較慢，但開發效率高，適合快速原型開發；2)JavaScript在瀏覽器中受限於單線程，但在Node.js中可利用多線程和異步I/O提升性能，兩者在實際項目中各有優勢。

JavaScript的起源：探索其實施語言Apr 29, 2025 am 12:51 AM

JavaScript起源於1995年，由布蘭登·艾克創造，實現語言為C語言。 1.C語言為JavaScript提供了高性能和系統級編程能力。 2.JavaScript的內存管理和性能優化依賴於C語言。 3.C語言的跨平台特性幫助JavaScript在不同操作系統上高效運行。

幕後：什麼語言能力JavaScript？Apr 28, 2025 am 12:01 AM

JavaScript在瀏覽器和Node.js環境中運行，依賴JavaScript引擎解析和執行代碼。 1）解析階段生成抽象語法樹（AST）；2）編譯階段將AST轉換為字節碼或機器碼；3）執行階段執行編譯後的代碼。

Python和JavaScript的未來：趨勢和預測Apr 27, 2025 am 12:21 AM

Python和JavaScript的未來趨勢包括：1.Python將鞏固在科學計算和AI領域的地位，2.JavaScript將推動Web技術發展，3.跨平台開發將成為熱門，4.性能優化將是重點。兩者都將繼續在各自領域擴展應用場景，並在性能上有更多突破。

Python vs. JavaScript：開發環境和工具Apr 26, 2025 am 12:09 AM

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda，適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack，適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。

See all articles