Llama 3.2-Vision 是一种多模态大语言模型,提供 11B 和 90B 尺寸,能够处理文本和图像输入以生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色,在多个行业基准上优于现有的开源和闭源多模态模型。
Llama 3.2-视觉示例
手写
光学字符识别 (OCR)
在本文中,我将介绍如何调用 Ollama 运行的 Llama 3.2-Vision 11B 建模服务,并使用 Ollama-OCR 实现图像文本识别 (OCR) 功能。
Ollama-OCR 的特点
?使用 Llama 3.2-Vision 模型进行高精度文本识别
?保留原始文本格式和结构
?️支持多种图片格式:JPG、JPEG、PNG
⚡️可定制的识别提示和模型
? Markdown 输出格式选项
?强大的错误处理
安装奥拉玛
在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama,一个支持本地运行多模态模型的平台。请按照以下步骤安装:
- 下载Ollama:访问Ollama官方网站下载适合您操作系统的安装包。
- 安装Ollama:根据下载的安装包按照提示完成安装。
安装 Llama 3.2-Vision 11B
安装 Ollama 后,您可以使用以下命令安装 Llama 3.2-Vision 11B 模型:
ollama run llama3.2-vision
如何使用 Ollama-OCR
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
光学字符识别
代码
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
输入图像:
输出:
Llama 3.2-Vision 多模态大语言模型 (LLM) 集合是一个经过指令调整的图像推理生成模型集合,具有 118 和 908 尺寸(文本图像输入/文本输出)。 Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见行业基准上优于许多可用的开源和封闭多模式模型。
2. Markdown 输出
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
输入图片:
输出:
ollama-ocr 使用本地视觉模型,如果您想使用在线 Llama 3.2-Vision 模型,请尝试 llama-ocr 库。
以上是Ollama-OCR 使用 Ollama 进行高精度 OCR的详细内容。更多信息请关注PHP中文网其他相关文章!

JavaScript字符串替换方法详解及常见问题解答 本文将探讨两种在JavaScript中替换字符串字符的方法:在JavaScript代码内部替换和在网页HTML内部替换。 在JavaScript代码内部替换字符串 最直接的方法是使用replace()方法: str = str.replace("find","replace"); 该方法仅替换第一个匹配项。要替换所有匹配项,需使用正则表达式并添加全局标志g: str = str.replace(/fi

因此,在这里,您准备好了解所有称为Ajax的东西。但是,到底是什么? AJAX一词是指用于创建动态,交互式Web内容的一系列宽松的技术。 Ajax一词,最初由Jesse J创造

本文讨论了在浏览器中优化JavaScript性能的策略,重点是减少执行时间并最大程度地减少对页面负载速度的影响。

本文讨论了使用浏览器开发人员工具的有效JavaScript调试,专注于设置断点,使用控制台和分析性能。

将矩阵电影特效带入你的网页!这是一个基于著名电影《黑客帝国》的酷炫jQuery插件。该插件模拟了电影中经典的绿色字符特效,只需选择一张图片,插件就会将其转换为充满数字字符的矩阵风格画面。快来试试吧,非常有趣! 工作原理 插件将图片加载到画布上,读取像素和颜色值: data = ctx.getImageData(x, y, settings.grainSize, settings.grainSize).data 插件巧妙地读取图片的矩形区域,并利用jQuery计算每个区域的平均颜色。然后,使用

本文将引导您使用jQuery库创建一个简单的图片轮播。我们将使用bxSlider库,它基于jQuery构建,并提供许多配置选项来设置轮播。 如今,图片轮播已成为网站必备功能——一图胜千言! 决定使用图片轮播后,下一个问题是如何创建它。首先,您需要收集高质量、高分辨率的图片。 接下来,您需要使用HTML和一些JavaScript代码来创建图片轮播。网络上有很多库可以帮助您以不同的方式创建轮播。我们将使用开源的bxSlider库。 bxSlider库支持响应式设计,因此使用此库构建的轮播可以适应任何

数据集对于构建API模型和各种业务流程至关重要。这就是为什么导入和导出CSV是经常需要的功能。在本教程中,您将学习如何在Angular中下载和导入CSV文件


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Atom编辑器mac版下载
最流行的的开源编辑器

Dreamweaver CS6
视觉化网页开发工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器