찾다
웹 프론트엔드JS 튜토리얼Ollama를 사용한 고정밀 OCR용 Ollama-OCR

Llama 3.2-Vision은 11B 및 90B 크기로 제공되는 다중 모드 대형 언어 모델로, 텍스트 및 이미지 입력을 모두 처리하여 텍스트 출력을 생성할 수 있습니다. 이 모델은 시각적 인식, 이미지 추론, 이미지 설명 및 이미지 관련 질문에 대한 답변에 탁월하며 여러 업계 벤치마크에서 기존 오픈 소스 및 폐쇄 소스 다중 모달 모델을 능가합니다.

라마 3.2-시현 예

필적

Ollama-OCR for High-Precision OCR with Ollama

광학 문자 인식(OCR)

Ollama-OCR for High-Precision OCR with Ollama

이 기사에서는 Ollama가 운영하는 Llama 3.2-Vision 11B 모델링 서비스를 호출하고 Ollama-OCR을 사용하여 이미지 텍스트 인식(OCR) 기능을 구현하는 방법을 설명합니다.

Ollama-OCR의 특징

? Llama 3.2-Vision 모델을 사용한 고정밀 텍스트 인식
? 원본 텍스트 형식과 구조를 유지합니다
?️ 다양한 이미지 형식 지원: JPG, JPEG, PNG
⚡️ 맞춤형 인식 프롬프트 및 모델
? 마크다운 출력 형식 옵션
? 강력한 오류 처리

올라마 설치

Llama 3.2-Vision을 사용하기 전에 로컬에서 멀티모달 모델 실행을 지원하는 플랫폼인 Ollama를 설치해야 합니다. 설치하려면 아래 단계를 따르세요.

  1. Ollama 다운로드: Ollama 공식 웹사이트를 방문하여 운영 체제에 맞는 설치 패키지를 다운로드하세요. Ollama-OCR for High-Precision OCR with Ollama
  2. Ollama 설치: 다운로드한 설치 패키지에 따라 지시에 따라 설치를 완료합니다.

라마 3.2-Vision 11B 설치

Ollama를 설치한 후 다음 명령을 사용하여 Llama 3.2-Vision 11B 모델을 설치할 수 있습니다.

ollama run llama3.2-vision

Ollama-OCR 사용 방법

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

OCR

코드

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력:
다중 모드 대형 언어 모델(LLM)의 Llama 3.2-Vision 컬렉션은 118 및 908 크기(텍스트 이미지 입력/텍스트 출력)의 명령 조정 이미지 추론 생성 모델 컬렉션입니다. Llama 3.2-Vision 지침 조정 모델은 시각적 인식, 이미지 추론, 캡션 작성 및 이미지에 대한 일반적인 질문에 대한 답변에 최적화되어 있습니다. 이 모델은 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈 소스 및 폐쇄형 다중 모드 모델보다 성능이 뛰어납니다.

2. 마크다운 출력

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr은 로컬 비전 모델을 사용하고 있습니다. 온라인 Llama 3.2-Vision 모델을 사용하려면 llama-ocr 라이브러리를 사용해 보세요.

위 내용은 Ollama를 사용한 고정밀 OCR용 Ollama-OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
JavaScript로 문자열 문자를 교체하십시오JavaScript로 문자열 문자를 교체하십시오Mar 11, 2025 am 12:07 AM

JavaScript 문자열 교체 방법 및 FAQ에 대한 자세한 설명 이 기사는 JavaScript에서 문자열 문자를 대체하는 두 가지 방법 인 내부 JavaScript 코드와 웹 페이지의 내부 HTML을 탐색합니다. JavaScript 코드 내부의 문자열을 교체하십시오 가장 직접적인 방법은 대체 () 메소드를 사용하는 것입니다. str = str.replace ( "find", "replace"); 이 메소드는 첫 번째 일치 만 대체합니다. 모든 경기를 교체하려면 정규 표현식을 사용하고 전역 플래그 g를 추가하십시오. str = str.replace (/fi

내 자신의 JavaScript 라이브러리를 어떻게 작성하고 게시합니까?내 자신의 JavaScript 라이브러리를 어떻게 작성하고 게시합니까?Mar 18, 2025 pm 03:12 PM

기사는 JavaScript 라이브러리 작성, 게시 및 유지 관리, 계획, 개발, 테스트, 문서 및 홍보 전략에 중점을 둡니다.

브라우저에서 성능을 위해 JavaScript 코드를 최적화하려면 어떻게해야합니까?브라우저에서 성능을 위해 JavaScript 코드를 최적화하려면 어떻게해야합니까?Mar 18, 2025 pm 03:14 PM

이 기사는 브라우저에서 JavaScript 성능을 최적화하기위한 전략에 대해 설명하고 실행 시간을 줄이고 페이지로드 속도에 미치는 영향을 최소화하는 데 중점을 둡니다.

jQuery 매트릭스 효과jQuery 매트릭스 효과Mar 10, 2025 am 12:52 AM

매트릭스 영화 효과를 페이지에 가져 오십시오! 이것은 유명한 영화 "The Matrix"를 기반으로 한 멋진 jQuery 플러그인입니다. 플러그인은 영화에서 클래식 그린 캐릭터 효과를 시뮬레이션하고 사진을 선택하면 플러그인이 숫자로 채워진 매트릭스 스타일 사진으로 변환합니다. 와서 시도해보세요. 매우 흥미 롭습니다! 작동 방식 플러그인은 이미지를 캔버스에로드하고 픽셀 및 색상 값을 읽습니다. data = ctx.getImageData (x, y, settings.grainsize, settings.grainsize) .data 플러그인은 그림의 직사각형 영역을 영리하게 읽고 jQuery를 사용하여 각 영역의 평균 색상을 계산합니다. 그런 다음 사용하십시오

브라우저 개발자 도구를 사용하여 JavaScript 코드를 효과적으로 디버그하려면 어떻게해야합니까?브라우저 개발자 도구를 사용하여 JavaScript 코드를 효과적으로 디버그하려면 어떻게해야합니까?Mar 18, 2025 pm 03:16 PM

이 기사는 브라우저 개발자 도구를 사용하여 효과적인 JavaScript 디버깅, 중단 점 설정, 콘솔 사용 및 성능 분석에 중점을 둡니다.

간단한 jQuery 슬라이더를 만드는 방법간단한 jQuery 슬라이더를 만드는 방법Mar 11, 2025 am 12:19 AM

이 기사에서는 jQuery 라이브러리를 사용하여 간단한 사진 회전 목마를 만들도록 안내합니다. jQuery를 기반으로 구축 된 BXSLIDER 라이브러리를 사용하고 회전 목마를 설정하기위한 많은 구성 옵션을 제공합니다. 요즘 그림 회전 목마는 웹 사이트에서 필수 기능이되었습니다. 한 사진은 천 단어보다 낫습니다! 그림 회전 목마를 사용하기로 결정한 후 다음 질문은 그것을 만드는 방법입니다. 먼저 고품질 고해상도 사진을 수집해야합니다. 다음으로 HTML과 일부 JavaScript 코드를 사용하여 사진 회전 목마를 만들어야합니다. 웹에는 다양한 방식으로 회전 목마를 만드는 데 도움이되는 라이브러리가 많이 있습니다. 오픈 소스 BXSLIDER 라이브러리를 사용할 것입니다. BXSLIDER 라이브러리는 반응 형 디자인을 지원 하므로이 라이브러리로 제작 된 회전 목마는

Angular로 CSV 파일을 업로드하고 다운로드하는 방법Angular로 CSV 파일을 업로드하고 다운로드하는 방법Mar 10, 2025 am 01:01 AM

데이터 세트는 API 모델 및 다양한 비즈니스 프로세스를 구축하는 데 매우 필수적입니다. 그렇기 때문에 CSV 가져 오기 및 내보내기가 자주 필요한 기능인 이유입니다.이 자습서에서는 각도 내에서 CSV 파일을 다운로드하고 가져 오는 방법을 배웁니다.

JavaScript로 구조 마크 업 향상JavaScript로 구조 마크 업 향상Mar 10, 2025 am 12:18 AM

JavaScript를 사용하여 강화 된 구조적 태그를 향상 시키면 파일 크기를 줄이면 웹 페이지 컨텐츠의 접근성 및 유지 관리 가능성을 크게 향상시킬 수 있습니다. JavaScript는 인용 속성을 사용하여 참조 링크를 블록 참조에 자동으로 삽입하는 등 HTML 요소에 기능을 동적으로 추가하는 데 효과적으로 사용될 수 있습니다. 구조화 된 태그와 JavaScript를 통합하면 페이지 새로 고침이 필요하지 않은 탭 패널과 같은 동적 사용자 인터페이스를 만들 수 있습니다. JavaScript가 웹 페이지의 기본 기능을 방해하지 않도록하는 것이 중요합니다. 고급 JavaScript 기술을 사용할 수 있습니다 (

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기