Rumah >hujung hadapan web >tutorial js >Ollama-OCR untuk OCR Ketepatan Tinggi dengan Ollama

Ollama-OCR untuk OCR Ketepatan Tinggi dengan Ollama

Linda Hamilton
Linda Hamiltonasal
2024-11-27 08:16:09377semak imbas

Llama 3.2-Vision ialah model bahasa besar berbilang mod yang tersedia dalam saiz 11B dan 90B, yang mampu memproses kedua-dua input teks dan imej untuk menjana output teks. Model ini cemerlang dalam pengecaman visual, penaakulan imej, penerangan imej dan menjawab soalan berkaitan imej, mengatasi prestasi model multimodal sumber terbuka dan sumber tertutup sedia ada merentas pelbagai penanda aras industri.

Llama 3.2-Contoh Visi

Tulisan tangan

Ollama-OCR for High-Precision OCR with Ollama

Pengecaman Aksara Optik (OCR)

Ollama-OCR for High-Precision OCR with Ollama

Dalam artikel ini saya akan menerangkan cara memanggil perkhidmatan pemodelan Llama 3.2-Vision 11B yang dijalankan oleh Ollama dan melaksanakan fungsi pengecaman teks imej (OCR) menggunakan Ollama-OCR.

Ciri-ciri Ollama-OCR

? Pengecaman teks ketepatan tinggi menggunakan model Llama 3.2-Vision
? Mengekalkan pemformatan dan struktur teks asal
?️ Menyokong berbilang format imej: JPG, JPEG, PNG
⚡️ Gesaan dan model pengecaman boleh disesuaikan
? Pilihan format output markdown
? Pengendalian ralat yang mantap

Memasang Ollama

Sebelum anda boleh mula menggunakan Llama 3.2-Vision, anda perlu memasang Ollama, platform yang menyokong menjalankan model multimodal secara tempatan. Ikuti langkah di bawah untuk memasangnya:

  1. Muat turun Ollama: Lawati tapak web rasmi Ollama untuk memuat turun pakej pemasangan untuk sistem pengendalian anda. Ollama-OCR for High-Precision OCR with Ollama
  2. Pasang Ollama: Ikut gesaan untuk melengkapkan pemasangan mengikut pakej pemasangan yang dimuat turun.

Pasang Llama 3.2-Vision 11B

Selepas memasang Ollama, anda boleh memasang model Llama 3.2-Vision 11B dengan arahan berikut:

ollama run llama3.2-vision

Cara menggunakan Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

Kod

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

Imej Input:

Ollama-OCR for High-Precision OCR with Ollama

Output:
Koleksi Llama 3.2-Vision model bahasa besar berbilang mod (LLM) ialah koleksi model generatif penaakulan imej yang ditala arahan dalam saiz 118 dan 908 (imej teks masuk / keluar teks). Model yang ditala arahan Llama 3.2-Vision dioptimumkan untuk pengecaman visual, penaakulan imej, kapsyen dan menjawab soalan umum tentang imej. Model ini mengatasi kebanyakan model sumber terbuka dan multimodal tertutup yang tersedia pada penanda aras industri biasa.

2. Keluaran Markdown

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

Imej Input:

Ollama-OCR for High-Precision OCR with Ollama

Output:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr menggunakan model penglihatan tempatan, jika anda ingin menggunakan model Llama 3.2-Vision dalam talian, cuba perpustakaan llama-ocr.

Atas ialah kandungan terperinci Ollama-OCR untuk OCR Ketepatan Tinggi dengan Ollama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn