Ollama를 사용한 고정밀 OCR용 Ollama-OCR-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

Ollama를 사용한 고정밀 OCR용 Ollama-OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision은 11B 및 90B 크기로 제공되는 다중 모드 대형 언어 모델로, 텍스트 및 이미지 입력을 모두 처리하여 텍스트 출력을 생성할 수 있습니다. 이 모델은 시각적 인식, 이미지 추론, 이미지 설명 및 이미지 관련 질문에 대한 답변에 탁월하며 여러 업계 벤치마크에서 기존 오픈 소스 및 폐쇄 소스 다중 모달 모델을 능가합니다.

라마 3.2-시현 예

필적

Ollama-OCR for High-Precision OCR with Ollama

광학 문자 인식(OCR)

Ollama-OCR for High-Precision OCR with Ollama

이 기사에서는 Ollama가 운영하는 Llama 3.2-Vision 11B 모델링 서비스를 호출하고 Ollama-OCR을 사용하여 이미지 텍스트 인식(OCR) 기능을 구현하는 방법을 설명합니다.

Ollama-OCR의 특징

? Llama 3.2-Vision 모델을 사용한 고정밀 텍스트 인식
? 원본 텍스트 형식과 구조를 유지합니다
?️ 다양한 이미지 형식 지원: JPG, JPEG, PNG
⚡️ 맞춤형 인식 프롬프트 및 모델
? 마크다운 출력 형식 옵션
? 강력한 오류 처리

올라마 설치

Llama 3.2-Vision을 사용하기 전에 로컬에서 멀티모달 모델 실행을 지원하는 플랫폼인 Ollama를 설치해야 합니다. 설치하려면 아래 단계를 따르세요.

Ollama 다운로드: Ollama 공식 웹사이트를 방문하여 운영 체제에 맞는 설치 패키지를 다운로드하세요.
Ollama 설치: 다운로드한 설치 패키지에 따라 지시에 따라 설치를 완료합니다.

라마 3.2-Vision 11B 설치

Ollama를 설치한 후 다음 명령을 사용하여 Llama 3.2-Vision 11B 모델을 설치할 수 있습니다.

ollama run llama3.2-vision

Ollama-OCR 사용 방법

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

코드

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력：
다중 모드 대형 언어 모델(LLM)의 Llama 3.2-Vision 컬렉션은 118 및 908 크기(텍스트 이미지 입력/텍스트 출력)의 명령 조정 이미지 추론 생성 모델 컬렉션입니다. Llama 3.2-Vision 지침 조정 모델은 시각적 인식, 이미지 추론, 캡션 작성 및 이미지에 대한 일반적인 질문에 대한 답변에 최적화되어 있습니다. 이 모델은 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈 소스 및 폐쇄형 다중 모드 모델보다 성능이 뛰어납니다.

2. 마크다운 출력

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

입력 이미지：

Ollama-OCR for High-Precision OCR with Ollama

출력:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr은 로컬 비전 모델을 사용하고 있습니다. 온라인 Llama 3.2-Vision 모델을 사용하려면 llama-ocr 라이브러리를 사용해 보세요.

위 내용은 Ollama를 사용한 고정밀 OCR용 Ollama-OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Node.js는 TypeScript가있는 스트림입니다Apr 30, 2025 am 08:22 AM

Node.js는 크림 덕분에 효율적인 I/O에서 탁월합니다. 스트림은 메모리 오버로드를 피하고 큰 파일, 네트워크 작업 및 실시간 애플리케이션을위한 메모리 과부하를 피하기 위해 데이터를 점차적으로 처리합니다. 스트림을 TypeScript의 유형 안전과 결합하면 Powe가 생성됩니다

Python vs. JavaScript : 성능 및 효율성 고려 사항Apr 30, 2025 am 12:08 AM

파이썬과 자바 스크립트 간의 성능과 효율성의 차이는 주로 다음과 같이 반영됩니다. 1) 해석 된 언어로서, 파이썬은 느리게 실행되지만 개발 효율이 높고 빠른 프로토 타입 개발에 적합합니다. 2) JavaScript는 브라우저의 단일 스레드로 제한되지만 멀티 스레딩 및 비동기 I/O는 Node.js의 성능을 향상시키는 데 사용될 수 있으며 실제 프로젝트에서는 이점이 있습니다.

JavaScript의 기원 : 구현 언어 탐색Apr 29, 2025 am 12:51 AM

JavaScript는 1995 년에 시작하여 Brandon Ike에 의해 만들어졌으며 언어를 C로 실현했습니다. 1.C Language는 JavaScript의 고성능 및 시스템 수준 프로그래밍 기능을 제공합니다. 2. JavaScript의 메모리 관리 및 성능 최적화는 C 언어에 의존합니다. 3. C 언어의 크로스 플랫폼 기능은 자바 스크립트가 다른 운영 체제에서 효율적으로 실행하는 데 도움이됩니다.

무대 뒤에서 : 어떤 언어의 힘이 자바 스크립트입니까?Apr 28, 2025 am 12:01 AM

JavaScript는 브라우저 및 Node.js 환경에서 실행되며 JavaScript 엔진을 사용하여 코드를 구문 분석하고 실행합니다. 1) 구문 분석 단계에서 초록 구문 트리 (AST)를 생성합니다. 2) 컴파일 단계에서 AST를 바이트 코드 또는 기계 코드로 변환합니다. 3) 실행 단계에서 컴파일 된 코드를 실행하십시오.

파이썬과 자바 스크립트의 미래 : 트렌드와 예측Apr 27, 2025 am 12:21 AM

Python 및 JavaScript의 미래 추세에는 다음이 포함됩니다. 1. Python은 과학 컴퓨팅 분야에서의 위치를 통합하고 AI, 2. JavaScript는 웹 기술의 개발을 촉진하고, 3. 교차 플랫폼 개발이 핫한 주제가되고 4. 성능 최적화가 중점을 둘 것입니다. 둘 다 해당 분야에서 응용 프로그램 시나리오를 계속 확장하고 성능이 더 많은 혁신을 일으킬 것입니다.

Python vs. JavaScript : 개발 환경 및 도구Apr 26, 2025 am 12:09 AM

개발 환경에서 Python과 JavaScript의 선택이 모두 중요합니다. 1) Python의 개발 환경에는 Pycharm, Jupyternotebook 및 Anaconda가 포함되어 있으며 데이터 과학 및 빠른 프로토 타이핑에 적합합니다. 2) JavaScript의 개발 환경에는 Node.js, VScode 및 Webpack이 포함되어 있으며 프론트 엔드 및 백엔드 개발에 적합합니다. 프로젝트 요구에 따라 올바른 도구를 선택하면 개발 효율성과 프로젝트 성공률이 향상 될 수 있습니다.

JavaScript가 C로 작성 되었습니까? 증거를 검토합니다Apr 25, 2025 am 12:15 AM

예, JavaScript의 엔진 코어는 C로 작성되었습니다. 1) C 언어는 효율적인 성능과 기본 제어를 제공하며, 이는 JavaScript 엔진 개발에 적합합니다. 2) V8 엔진을 예를 들어, 핵심은 C로 작성되며 C의 효율성 및 객체 지향적 특성을 결합하여 C로 작성됩니다.

JavaScript의 역할 : 웹 대화식 및 역동적 인 웹Apr 24, 2025 am 12:12 AM

JavaScript는 웹 페이지의 상호 작용과 역학을 향상시키기 때문에 현대 웹 사이트의 핵심입니다. 1) 페이지를 새로 고치지 않고 콘텐츠를 변경할 수 있습니다. 2) Domapi를 통해 웹 페이지 조작, 3) 애니메이션 및 드래그 앤 드롭과 같은 복잡한 대화식 효과를 지원합니다. 4) 성능 및 모범 사례를 최적화하여 사용자 경험을 향상시킵니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는