Maison >interface Web >js tutoriel >Ollama-OCR pour l'OCR de haute précision avec Ollama

Ollama-OCR pour l'OCR de haute précision avec Ollama

Linda Hamilton
Linda Hamiltonoriginal
2024-11-27 08:16:09263parcourir

Llama 3.2-Vision est un grand modèle de langage multimodal disponible en tailles 11B et 90B, capable de traiter à la fois les entrées de texte et d'image pour générer des sorties de texte. Le modèle excelle dans la reconnaissance visuelle, le raisonnement d'image, la description d'image et la réponse aux questions liées à l'image, surpassant les modèles multimodaux open source et fermés existants dans plusieurs références industrielles.

Exemples de vision de Lama 3.2

Écriture

Ollama-OCR for High-Precision OCR with Ollama

Reconnaissance optique de caractères (OCR)

Ollama-OCR for High-Precision OCR with Ollama

Dans cet article, je vais décrire comment appeler le service de modélisation Llama 3.2-Vision 11B géré par Ollama et implémenter la fonctionnalité de reconnaissance de texte d'image (OCR) à l'aide d'Ollama-OCR.

Caractéristiques d'Ollama-OCR

? Reconnaissance de texte de haute précision à l'aide du modèle Llama 3.2-Vision
? Préserve la mise en forme et la structure du texte d'origine
?️ Prend en charge plusieurs formats d'image : JPG, JPEG, PNG
⚡️ Invites et modèles de reconnaissance personnalisables
? Option de format de sortie Markdown
? Gestion robuste des erreurs

Installation d'Ollama

Avant de pouvoir commencer à utiliser Llama 3.2-Vision, vous devez installer Ollama, une plate-forme qui prend en charge l'exécution de modèles multimodaux localement. Suivez les étapes ci-dessous pour l'installer :

  1. Télécharger Ollama : visitez le site Web officiel d'Ollama pour télécharger le package d'installation de votre système d'exploitation. Ollama-OCR for High-Precision OCR with Ollama
  2. Installez Ollama : suivez les instructions pour terminer l'installation selon le package d'installation téléchargé.

Installer Llama 3.2-Vision 11B

Après avoir installé Ollama, vous pouvez installer le modèle Llama 3.2-Vision 11B avec la commande suivante :

ollama run llama3.2-vision

Comment utiliser Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

ROC

Code

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

Image d'entrée :

Ollama-OCR for High-Precision OCR with Ollama

Sortie:
La collection Llama 3.2-Vision de grands modèles de langage multimodaux (LLM) est une collection de modèles génératifs de raisonnement d'images adaptés aux instructions en tailles 118 et 908 (images de texte entrantes/sorties de texte). Les modèles adaptés aux instructions Llama 3.2-Vision sont optimisés pour la reconnaissance visuelle, le raisonnement d'image, le sous-titrage et la réponse à des questions générales sur une image. Les modèles surpassent la plupart des modèles multimodaux open source et fermés disponibles sur les références courantes de l'industrie.

2. Sortie de démarque

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

Image d'entrée:

Ollama-OCR for High-Precision OCR with Ollama

Sortie :

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr utilise un modèle de vision local, si vous souhaitez utiliser le modèle en ligne Llama 3.2-Vision, essayez la bibliothèque lama-ocr.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn