Ollama を使用した高精度 OCR のための Ollama-OCR-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

Ollama を使用した高精度 OCR のための Ollama-OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision は、11B および 90B サイズで利用可能なマルチモーダル大規模言語モデルで、テキストと画像の両方の入力を処理してテキスト出力を生成できます。このモデルは、視覚認識、画像推論、画像説明、画像関連の質問への回答に優れており、複数の業界ベンチマークにわたって既存のオープンソースおよびクローズドソースのマルチモーダルモデルを上回ります。

Llama 3.2-ビジョンの例

手書き

Ollama-OCR for High-Precision OCR with Ollama

光学式文字認識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

この記事では、Ollama によって実行される Llama 3.2-Vision 11B モデリングサービスを呼び出し、Ollama-OCR を使用して画像テキスト認識 (OCR) 機能を実装する方法について説明します。

Ollama-OCRの特徴

? Llama 3.2-Visionモデルを使用した高精度テキスト認識
?元のテキストの書式設定と構造を保持します
?️ 複数の画像形式をサポート: JPG、JPEG、PNG
⚡️ カスタマイズ可能な認識プロンプトとモデル
?マークダウン出力形式オプション
?堅牢なエラー処理

オラマのインストール

Llama 3.2-Vision の使用を開始する前に、ローカルでのマルチモーダルモデルの実行をサポートするプラットフォームである Ollama をインストールする必要があります。以下の手順に従ってインストールしてください:

Ollama をダウンロード: Ollama の公式 Web サイトにアクセスして、オペレーティングシステム用のインストールパッケージをダウンロードします。
Ollama をインストールします。プロンプトに従って、ダウンロードしたインストールパッケージに従ってインストールを完了します。

Llama 3.2-Vision 11B をインストールする

Ollama をインストールした後、次のコマンドを使用して Llama 3.2-Vision 11B モデルをインストールできます。

ollama run llama3.2-vision

Ollama-OCR の使用方法

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

コード

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力：
マルチモーダル大規模言語モデル (LLM) の Llama 3.2-Vision コレクションは、118 および 908 サイズ (テキスト画像入力/テキスト出力) の命令調整された画像推論生成モデルのコレクションです。 Llama 3.2-Vision の命令調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。このモデルは、一般的な業界ベンチマークにおいて、利用可能なオープンソースモデルやクローズドマルチモーダルモデルの多くを上回ります。

2. マークダウン出力

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

入力画像：

Ollama-OCR for High-Precision OCR with Ollama

出力:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr はローカルビジョンモデルを使用しています。オンラインの Llama 3.2-Vision モデルを使用したい場合は、llama-ocr ライブラリを試してください。

以上がOllama を使用した高精度 OCR のための Ollama-OCRの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

JavaScriptフレームワークのパワーは、開発を簡素化し、ユーザーエクスペリエンスとアプリケーションのパフォーマンスを向上させることにあります。フレームワークを選択するときは、次のことを検討してください。1。プロジェクトのサイズと複雑さ、2。チームエクスペリエンス、3。エコシステムとコミュニティサポート。

JavaScript、C、およびブラウザの関係May 01, 2025 am 12:06 AM

はじめに私はあなたがそれを奇妙に思うかもしれないことを知っています、JavaScript、C、およびブラウザは正確に何をしなければなりませんか？彼らは無関係であるように見えますが、実際、彼らは現代のウェブ開発において非常に重要な役割を果たしています。今日は、これら3つの間の密接なつながりについて説明します。この記事を通して、JavaScriptがブラウザでどのように実行されるか、ブラウザエンジンでのCの役割、およびそれらが協力してWebページのレンダリングと相互作用を駆動する方法を学びます。私たちは皆、JavaScriptとブラウザの関係を知っています。 JavaScriptは、フロントエンド開発のコア言語です。ブラウザで直接実行され、Webページが鮮明で興味深いものになります。なぜJavascrを疑問に思ったことがありますか

node.jsは、型を使用してストリーミングしますApr 30, 2025 am 08:22 AM

node.jsは、主にストリームのおかげで、効率的なI/Oで優れています。ストリームはデータを段階的に処理し、メモリの過負荷を回避します。大きなファイル、ネットワークタスク、リアルタイムアプリケーションの場合。ストリームとTypeScriptのタイプの安全性を組み合わせることで、パワーが作成されます

Python vs. JavaScript：パフォーマンスと効率の考慮事項Apr 30, 2025 am 12:08 AM

PythonとJavaScriptのパフォーマンスと効率の違いは、主に以下に反映されています。1）解釈された言語として、Pythonはゆっくりと実行されますが、開発効率が高く、迅速なプロトタイプ開発に適しています。 2）JavaScriptはブラウザ内の単一のスレッドに限定されていますが、マルチスレッドおよび非同期I/Oを使用してnode.jsのパフォーマンスを改善でき、両方とも実際のプロジェクトで利点があります。

JavaScriptの起源：その実装言語の調査Apr 29, 2025 am 12:51 AM

JavaScriptは1995年に発信され、Brandon Ikeによって作成され、言語をCに実現しました。 2。JavaScriptのメモリ管理とパフォーマンスの最適化は、C言語に依存しています。 3. C言語のクロスプラットフォーム機能は、さまざまなオペレーティングシステムでJavaScriptを効率的に実行するのに役立ちます。

舞台裏：JavaScriptをパワーする言語は何ですか？Apr 28, 2025 am 12:01 AM

JavaScriptはブラウザとnode.js環境で実行され、JavaScriptエンジンに依存してコードを解析および実行します。 1）解析段階で抽象的構文ツリー（AST）を生成します。 2）ASTをコンパイル段階のバイトコードまたはマシンコードに変換します。 3）実行段階でコンパイルされたコードを実行します。

PythonとJavaScriptの未来：傾向と予測Apr 27, 2025 am 12:21 AM

PythonとJavaScriptの将来の傾向には、1。Pythonが科学コンピューティングの分野での位置を統合し、AI、2。JavaScriptはWebテクノロジーの開発を促進します。どちらもそれぞれのフィールドでアプリケーションシナリオを拡大し続け、パフォーマンスをより多くのブレークスルーを行います。

Python vs. JavaScript：開発環境とツールApr 26, 2025 am 12:09 AM

開発環境におけるPythonとJavaScriptの両方の選択が重要です。 1）Pythonの開発環境には、Pycharm、Jupyternotebook、Anacondaが含まれます。これらは、データサイエンスと迅速なプロトタイピングに適しています。 2）JavaScriptの開発環境には、フロントエンドおよびバックエンド開発に適したnode.js、vscode、およびwebpackが含まれます。プロジェクトのニーズに応じて適切なツールを選択すると、開発効率とプロジェクトの成功率が向上する可能性があります。

See all articles