首頁 >web前端 >js教程 >Ollama-OCR 使用 Ollama 進行高精度 OCR

Ollama-OCR 使用 Ollama 進行高精度 OCR

Linda Hamilton
Linda Hamilton原創
2024-11-27 08:16:09377瀏覽

Llama 3.2-Vision 是多模態大語言模型,提供 11B 和 90B 尺寸,能夠處理文字和圖像輸入以產生文字輸出。該模型在視覺識別、圖像推理、圖像描述和回答圖像相關問題方面表現出色,在多個行業基準上優於現有的開源和閉源多模態模型。

Llama 3.2-視覺範例

手寫

Ollama-OCR for High-Precision OCR with Ollama

光學字元辨識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

在本文中,我將介紹如何呼叫 Ollama 運行的 Llama 3.2-Vision 11B 建模服務,並使用 Ollama-OCR 實現圖像文字辨識 (OCR) 功能。

Ollama-OCR 的特點

?使用 Llama 3.2-Vision 模型進行高精準度文字辨識
?保留原始文字格式和結構
?️支援多種圖片格式:JPG、JPEG、PNG
⚡️可自訂的識別提示和模型
? Markdown 輸出格式選項
?強大的錯誤處理

安裝奧拉瑪

在開始使用 Llama 3.2-Vision 之前,您需要安裝 Ollama,一個支援本地運行多模態模型的平台。請依照以下步驟安裝:

  1. 下載Ollama:造訪Ollama官方網站下載適合您作業系統的安裝包。 Ollama-OCR for High-Precision OCR with Ollama
  2. 安裝Ollama:依照下載的安裝包依照指示完成安裝。

安裝 Llama 3.2-Vision 11B

安裝 Ollama 後,您可以使用以下指令安裝 Llama 3.2-Vision 11B 模型:

ollama run llama3.2-vision

如何使用 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

光學字元辨識

代碼

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

輸入影像:

Ollama-OCR for High-Precision OCR with Ollama

輸出:
Llama 3.2-Vision 多模態大語言模型 (LLM) 集合是一個經過指令調整的圖像推理生成模型集合,具有 118 和 908 尺寸(文字圖像輸入/文字輸出)。 Llama 3.2-Vision 指令調整模型針對視覺辨識、影像推理、字幕和回答有關影像的一般問題進行了最佳化。這些模型在常見行業基準上優於許多可用的開源和封閉多模式模型。

2. Markdown 輸出

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

輸入圖片:

Ollama-OCR for High-Precision OCR with Ollama

輸出:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr 使用本地視覺模型,如果您想使用線上 Llama 3.2-Vision 模型,請嘗試 llama-ocr 庫。

以上是Ollama-OCR 使用 Ollama 進行高精度 OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn