首页 >web前端 >js教程 >Ollama-OCR 使用 Ollama 进行高精度 OCR

Ollama-OCR 使用 Ollama 进行高精度 OCR

Linda Hamilton
Linda Hamilton原创
2024-11-27 08:16:09377浏览

Llama 3.2-Vision 是一种多模态大语言模型,提供 11B 和 90B 尺寸,能够处理文本和图像输入以生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色,在多个行业基准上优于现有的开源和闭源多模态模型。

Llama 3.2-视觉示例

手写

Ollama-OCR for High-Precision OCR with Ollama

光学字符识别 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

在本文中,我将介绍如何调用 Ollama 运行的 Llama 3.2-Vision 11B 建模服务,并使用 Ollama-OCR 实现图像文本识别 (OCR) 功能。

Ollama-OCR 的特点

?使用 Llama 3.2-Vision 模型进行高精度文本识别
?保留原始文本格式和结构
?️支持多种图片格式:JPG、JPEG、PNG
⚡️可定制的识别提示和模型
? Markdown 输出格式选项
?强大的错误处理

安装奥拉玛

在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama,一个支持本地运行多模态模型的平台。请按照以下步骤安装:

  1. 下载Ollama:访问Ollama官方网站下载适合您操作系统的安装包。 Ollama-OCR for High-Precision OCR with Ollama
  2. 安装Ollama:根据下载的安装包按照提示完成安装。

安装 Llama 3.2-Vision 11B

安装 Ollama 后,您可以使用以下命令安装 Llama 3.2-Vision 11B 模型:

ollama run llama3.2-vision

如何使用 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

光学字符识别

代码

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

输入图像:

Ollama-OCR for High-Precision OCR with Ollama

输出:
Llama 3.2-Vision 多模态大语言模型 (LLM) 集合是一个经过指令调整的图像推理生成模型集合,具有 118 和 908 尺寸(文本图像输入/文本输出)。 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见行业基准上优于许多可用的开源和封闭多模式模型。

2. Markdown 输出

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

输入图片:

Ollama-OCR for High-Precision OCR with Ollama

输出:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr 使用本地视觉模型,如果您想使用在线 Llama 3.2-Vision 模型,请尝试 llama-ocr 库。

以上是Ollama-OCR 使用 Ollama 进行高精度 OCR的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn