検索
ホームページウェブフロントエンドjsチュートリアルOllama を使用した高精度 OCR のための Ollama-OCR

Llama 3.2-Vision は、11B および 90B サイズで利用可能なマルチモーダル大規模言語モデルで、テキストと画像の両方の入力を処理してテキスト出力を生成できます。このモデルは、視覚認識、画像推論、画像説明、画像関連の質問への回答に優れており、複数の業界ベンチマークにわたって既存のオープンソースおよびクローズドソースのマルチモーダル モデルを上回ります。

Llama 3.2-ビジョンの例

手書き

Ollama-OCR for High-Precision OCR with Ollama

光学式文字認識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

この記事では、Ollama によって実行される Llama 3.2-Vision 11B モデリング サービスを呼び出し、Ollama-OCR を使用して画像テキスト認識 (OCR) 機能を実装する方法について説明します。

Ollama-OCRの特徴

? Llama 3.2-Visionモデルを使用した高精度テキスト認識
?元のテキストの書式設定と構造を保持します
?️ 複数の画像形式をサポート: JPG、JPEG、PNG
⚡️ カスタマイズ可能な認識プロンプトとモデル
?マークダウン出力形式オプション
?堅牢なエラー処理

オラマのインストール

Llama 3.2-Vision の使用を開始する前に、ローカルでのマルチモーダル モデルの実行をサポートするプラットフォームである Ollama をインストールする必要があります。以下の手順に従ってインストールしてください:

  1. Ollama をダウンロード: Ollama の公式 Web サイトにアクセスして、オペレーティング システム用のインストール パッケージをダウンロードします。 Ollama-OCR for High-Precision OCR with Ollama
  2. Ollama をインストールします。プロンプトに従って、ダウンロードしたインストール パッケージに従ってインストールを完了します。

Llama 3.2-Vision 11B をインストールする

Ollama をインストールした後、次のコマンドを使用して Llama 3.2-Vision 11B モデルをインストールできます。

ollama run llama3.2-vision

Ollama-OCR の使用方法

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

コード

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力:
マルチモーダル大規模言語モデル (LLM) の Llama 3.2-Vision コレクションは、118 および 908 サイズ (テキスト画像入力/テキスト出力) の命令調整された画像推論生成モデルのコレクションです。 Llama 3.2-Vision の命令調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。このモデルは、一般的な業界ベンチマークにおいて、利用可能なオープンソース モデルやクローズド マルチモーダル モデルの多くを上回ります。

2. マークダウン出力

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr はローカル ビジョン モデルを使用しています。オンラインの Llama 3.2-Vision モデルを使用したい場合は、llama-ocr ライブラリを試してください。

以上がOllama を使用した高精度 OCR のための Ollama-OCRの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
JavaScriptの進化:現在の傾向と将来の見通しJavaScriptの進化:現在の傾向と将来の見通しApr 10, 2025 am 09:33 AM

JavaScriptの最新トレンドには、TypeScriptの台頭、最新のフレームワークとライブラリの人気、WebAssemblyの適用が含まれます。将来の見通しは、より強力なタイプシステム、サーバー側のJavaScriptの開発、人工知能と機械学習の拡大、およびIoTおよびEDGEコンピューティングの可能性をカバーしています。

javascriptの分解:それが何をするのか、なぜそれが重要なのかjavascriptの分解:それが何をするのか、なぜそれが重要なのかApr 09, 2025 am 12:07 AM

JavaScriptは現代のWeb開発の基礎であり、その主な機能には、イベント駆動型のプログラミング、動的コンテンツ生成、非同期プログラミングが含まれます。 1)イベント駆動型プログラミングにより、Webページはユーザー操作に応じて動的に変更できます。 2)動的コンテンツ生成により、条件に応じてページコンテンツを調整できます。 3)非同期プログラミングにより、ユーザーインターフェイスがブロックされないようにします。 JavaScriptは、Webインタラクション、シングルページアプリケーション、サーバー側の開発で広く使用されており、ユーザーエクスペリエンスとクロスプラットフォーム開発の柔軟性を大幅に改善しています。

pythonまたはjavascriptの方がいいですか?pythonまたはjavascriptの方がいいですか?Apr 06, 2025 am 12:14 AM

Pythonはデータサイエンスや機械学習により適していますが、JavaScriptはフロントエンドとフルスタックの開発により適しています。 1. Pythonは、簡潔な構文とリッチライブラリエコシステムで知られており、データ分析とWeb開発に適しています。 2。JavaScriptは、フロントエンド開発の中核です。 node.jsはサーバー側のプログラミングをサポートしており、フルスタック開発に適しています。

JavaScriptをインストールするにはどうすればよいですか?JavaScriptをインストールするにはどうすればよいですか?Apr 05, 2025 am 12:16 AM

JavaScriptは、最新のブラウザにすでに組み込まれているため、インストールを必要としません。開始するには、テキストエディターとブラウザのみが必要です。 1)ブラウザ環境では、タグを介してHTMLファイルを埋め込んで実行します。 2)node.js環境では、node.jsをダウンロードしてインストールした後、コマンドラインを介してJavaScriptファイルを実行します。

クォーツでタスクが開始される前に通知を送信する方法は?クォーツでタスクが開始される前に通知を送信する方法は?Apr 04, 2025 pm 09:24 PM

Quartzタイマーを使用してタスクをスケジュールする場合、Quartzでタスク通知を事前に送信する方法、タスクの実行時間はCron式によって設定されます。今...

JavaScriptでは、コンストラクターのプロトタイプチェーンで関数のパラメーターを取得する方法は?JavaScriptでは、コンストラクターのプロトタイプチェーンで関数のパラメーターを取得する方法は?Apr 04, 2025 pm 09:21 PM

JavaScriptプログラミング、プロトタイプチェーンの関数パラメーターの理解と操作のJavaScriptのプロトタイプチェーンの関数のパラメーターを取得する方法は、一般的で重要なタスクです...

WeChat MiniプログラムWebViewでVUE.JSダイナミックスタイルの変位が失敗した理由は何ですか?WeChat MiniプログラムWebViewでVUE.JSダイナミックスタイルの変位が失敗した理由は何ですか?Apr 04, 2025 pm 09:18 PM

WeChatアプレットWeb-ViewでVue.jsを使用する動的スタイルの変位障害がvue.jsを使用している理由の分析...

TamperMonkeyで複数のリンクの同時GETリクエストを実装し、順番に戻る結果を決定する方法は?TamperMonkeyで複数のリンクの同時GETリクエストを実装し、順番に戻る結果を決定する方法は?Apr 04, 2025 pm 09:15 PM

複数のリンクの同時ゲットリクエストを作成し、結果を返すために順番に判断する方法は? TamperMonkeyスクリプトでは、複数のチェーンを使用する必要があることがよくあります...

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい