Ollama-OCR 使用 Ollama 进行高精度 OCR-js教程-PHP中文网

首页

web前端

js教程

Ollama-OCR 使用 Ollama 进行高精度 OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision 是一种多模态大语言模型，提供 11B 和 90B 尺寸，能够处理文本和图像输入以生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色，在多个行业基准上优于现有的开源和闭源多模态模型。

Llama 3.2-视觉示例

手写

Ollama-OCR for High-Precision OCR with Ollama

光学字符识别 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

在本文中，我将介绍如何调用 Ollama 运行的 Llama 3.2-Vision 11B 建模服务，并使用 Ollama-OCR 实现图像文本识别 (OCR) 功能。

Ollama-OCR 的特点

？使用 Llama 3.2-Vision 模型进行高精度文本识别
？保留原始文本格式和结构
?️支持多种图片格式：JPG、JPEG、PNG
⚡️可定制的识别提示和模型
？ Markdown 输出格式选项
？强大的错误处理

安装奥拉玛

在开始使用 Llama 3.2-Vision 之前，您需要安装 Ollama，一个支持本地运行多模态模型的平台。请按照以下步骤安装：

下载Ollama：访问Ollama官方网站下载适合您操作系统的安装包。
安装Ollama：根据下载的安装包按照提示完成安装。

安装 Llama 3.2-Vision 11B

安装 Ollama 后，您可以使用以下命令安装 Llama 3.2-Vision 11B 模型：

ollama run llama3.2-vision

如何使用 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

光学字符识别

代码

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

输入图像：

Ollama-OCR for High-Precision OCR with Ollama

输出：
Llama 3.2-Vision 多模态大语言模型 (LLM) 集合是一个经过指令调整的图像推理生成模型集合，具有 118 和 908 尺寸（文本图像输入/文本输出）。 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见行业基准上优于许多可用的开源和封闭多模式模型。

2. Markdown 输出

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

输入图片：

Ollama-OCR for High-Precision OCR with Ollama

输出：

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr 使用本地视觉模型，如果您想使用在线 Llama 3.2-Vision 模型，请尝试 llama-ocr 库。

以上是Ollama-OCR 使用 Ollama 进行高精度 OCR的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

JavaScript，C和浏览器之间的关系May 01, 2025 am 12:06 AM

引言我知道你可能会觉得奇怪，JavaScript、C 和浏览器之间到底有什么关系？它们之间看似毫无关联，但实际上，它们在现代网络开发中扮演着非常重要的角色。今天我们就来深入探讨一下这三者之间的紧密联系。通过这篇文章，你将了解到JavaScript如何在浏览器中运行，C 在浏览器引擎中的作用，以及它们如何共同推动网页的渲染和交互。JavaScript与浏览器的关系我们都知道，JavaScript是前端开发的核心语言，它直接在浏览器中运行，让网页变得生动有趣。你是否曾经想过，为什么JavaScr

node.js流带打字稿Apr 30, 2025 am 08:22 AM

Node.js擅长于高效I/O，这在很大程度上要归功于流。流媒体汇总处理数据，避免内存过载 - 大型文件，网络任务和实时应用程序的理想。将流与打字稿的类型安全结合起来创建POWE

Python vs. JavaScript：性能和效率注意事项Apr 30, 2025 am 12:08 AM

Python和JavaScript在性能和效率方面的差异主要体现在：1)Python作为解释型语言，运行速度较慢，但开发效率高，适合快速原型开发；2)JavaScript在浏览器中受限于单线程，但在Node.js中可利用多线程和异步I/O提升性能，两者在实际项目中各有优势。

JavaScript的起源：探索其实施语言Apr 29, 2025 am 12:51 AM

JavaScript起源于1995年，由布兰登·艾克创造，实现语言为C语言。1.C语言为JavaScript提供了高性能和系统级编程能力。2.JavaScript的内存管理和性能优化依赖于C语言。3.C语言的跨平台特性帮助JavaScript在不同操作系统上高效运行。

幕后：什么语言能力JavaScript？Apr 28, 2025 am 12:01 AM

JavaScript在浏览器和Node.js环境中运行，依赖JavaScript引擎解析和执行代码。1）解析阶段生成抽象语法树（AST）；2）编译阶段将AST转换为字节码或机器码；3）执行阶段执行编译后的代码。

Python和JavaScript的未来：趋势和预测Apr 27, 2025 am 12:21 AM

Python和JavaScript的未来趋势包括：1.Python将巩固在科学计算和AI领域的地位，2.JavaScript将推动Web技术发展，3.跨平台开发将成为热门，4.性能优化将是重点。两者都将继续在各自领域扩展应用场景，并在性能上有更多突破。

Python vs. JavaScript：开发环境和工具Apr 26, 2025 am 12:09 AM

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda，适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack，适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。