Heim >Web-Frontend >js-Tutorial >Ollama-OCR für hochpräzise OCR mit Ollama

Ollama-OCR für hochpräzise OCR mit Ollama

Linda Hamilton
Linda HamiltonOriginal
2024-11-27 08:16:09375Durchsuche

Llama 3.2-Vision ist ein multimodales großes Sprachmodell, das in den Größen 11B und 90B verfügbar ist und sowohl Text- als auch Bildeingaben verarbeiten kann, um Textausgaben zu generieren. Das Modell zeichnet sich durch visuelle Erkennung, Bildbegründung, Bildbeschreibung und Beantwortung bildbezogener Fragen aus und übertrifft bestehende multimodale Open-Source- und Closed-Source-Modelle in mehreren Branchen-Benchmarks.

Beispiele für Lama 3.2-Vision

Handschrift

Ollama-OCR for High-Precision OCR with Ollama

Optische Zeichenerkennung (OCR)

Ollama-OCR for High-Precision OCR with Ollama

In diesem Artikel beschreibe ich, wie man den von Ollama betriebenen Modellierungsdienst Llama 3.2-Vision 11B aufruft und die Bildtexterkennungsfunktion (OCR) mithilfe von Ollama-OCR implementiert.

Funktionen von Ollama-OCR

? Hochpräzise Texterkennung mit dem Llama 3.2-Vision-Modell
? Behält die ursprüngliche Textformatierung und -struktur bei
?️ Unterstützt mehrere Bildformate: JPG, JPEG, PNG
⚡️ Anpassbare Erkennungsaufforderungen und -modelle
? Option für das Markdown-Ausgabeformat
? Robuste Fehlerbehandlung

Ollama installieren

Bevor Sie Llama 3.2-Vision verwenden können, müssen Sie Ollama installieren, eine Plattform, die die lokale Ausführung multimodaler Modelle unterstützt. Befolgen Sie die folgenden Schritte, um es zu installieren:

  1. Ollama herunterladen: Besuchen Sie die offizielle Ollama-Website, um das Installationspaket für Ihr Betriebssystem herunterzuladen. Ollama-OCR for High-Precision OCR with Ollama
  2. Ollama installieren: Befolgen Sie die Anweisungen, um die Installation gemäß dem heruntergeladenen Installationspaket abzuschließen.

Installieren Sie Llama 3.2-Vision 11B

Nach der Installation von Ollama können Sie das Modell Llama 3.2-Vision 11B mit dem folgenden Befehl installieren:

ollama run llama3.2-vision

So verwenden Sie Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

Code

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

Eingabebild:

Ollama-OCR for High-Precision OCR with Ollama

Ausgabe:
Die Llama 3.2-Vision-Sammlung multimodaler großer Sprachmodelle (LLMs) ist eine Sammlung anweisungsabgestimmter generativer Bildbegründungsmodelle in den Größen 118 und 908 (Textbilder rein/Text raus). Die auf Anweisungen abgestimmten Modelle von Llama 3.2-Vision sind für die visuelle Erkennung, Bildbegründung, Bildunterschrift und die Beantwortung allgemeiner Fragen zu einem Bild optimiert. Die Modelle übertreffen viele der verfügbaren Open-Source- und geschlossenen multimodalen Modelle bei gängigen Branchen-Benchmarks.

2. Markdown-Ausgabe

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

Eingabebild:

Ollama-OCR for High-Precision OCR with Ollama

Ausgabe:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr verwendet ein lokales Vision-Modell. Wenn Sie das Online-Llama 3.2-Vision-Modell verwenden möchten, probieren Sie die llama-ocr-Bibliothek aus.

Das obige ist der detaillierte Inhalt vonOllama-OCR für hochpräzise OCR mit Ollama. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn