>백엔드 개발 >파이썬 튜토리얼 >Python을 사용하여 그림의 글꼴을 식별하는 방법

Python을 사용하여 그림의 글꼴을 식별하는 방법

王林
王林원래의
2023-08-26 09:39:314190검색

Python을 사용하여 그림의 글꼴을 식별하는 방법

Python을 사용하여 그림에서 글꼴 인식을 수행하는 방법

글꼴 인식은 그림 안의 텍스트를 편집 가능한 텍스트로 변환하는 기술입니다. 자동화된 문서 처리, 텍스트 추출, OCR 등과 같은 많은 응용 프로그램 시나리오에서 뛰어난 실용성을 제공합니다. 이 기사에서는 Python을 사용하여 이미지의 글꼴을 식별하는 방법을 소개하고 해당 코드 예제를 제공합니다.

  1. 준비
    먼저, 필요한 Python 라이브러리를 설치해야 합니다. 설치하려면 명령줄에 다음 명령을 입력하세요.

    pip install pytesseract
    pip install pillow

    그중 pytesseract는 Tesseract-OCR 엔진을 기반으로 하는 Python 라이브러리로, 이미지의 텍스트를 식별하는 데 사용됩니다. Pillow는 Python에서 일반적으로 사용되는 이미지 처리 라이브러리입니다. 프로세스 이미지.

  2. 이미지 전처리
    글꼴 인식 전에 글꼴 인식의 정확성을 높이기 위해 이미지에 대한 전처리를 수행해야 합니다.

먼저 이미지를 읽고 그레이스케일 처리를 수행합니다.

from PIL import Image

image = Image.open('image.jpg')
gray_image = image.convert('L')

그레이스케일 이미지에서는 텍스트와 배경의 대비가 더 뚜렷하여 인식 정확도를 높이는 데 도움이 되므로 이미지를 그레이스케일로 변환합니다.

그런 다음 이미지를 이진화할 수 있습니다. 즉, 이미지의 텍스트를 검정색으로 처리하고 배경을 흰색으로 처리할 수 있습니다.

threshold = 150
binary_image = gray_image.point(lambda p: p > threshold and 255)

여기서 임계값은 그림의 밝기에 따라 조정되는 임계값입니다.

다음으로 이미지에 노이즈 감소 처리를 수행하여 간섭 노이즈를 제거할 수 있습니다.

from PIL import ImageFilter

denoised_image = binary_image.filter(ImageFilter.MinFilter)

MinFilter는 사진의 노이즈를 부드럽게 할 수 있는 최소값 필터입니다.

마지막으로 전처리된 이미지를 저장하고 표시할 수 있습니다.

denoised_image.save('processed_image.jpg')
denoised_image.show()

위는 이미지 전처리 단계입니다. 텍스트 추출을 위해 전처리된 이미지를 글꼴 인식 엔진으로 보낼 수 있습니다.

  1. 글꼴 인식
    글꼴 인식은 pytesseract 라이브러리를 사용하면 매우 간단합니다. 처리된 이미지를 입력으로 사용하고 해당 함수를 호출하기만 하면 됩니다.

    import pytesseract
    
    text = pytesseract.image_to_string(denoised_image, lang='eng')
    print(text)

    그 중 denoised_image는 전 단계에서 처리된 이미지이고 lang 매개변수는 인식된 텍스트 언어를 나타내며 기본값은 영어입니다.

  2. 전체 코드 예제
    다음은 그림의 글꼴 인식을 위한 완전한 Python 코드 예제입니다.

    from PIL import Image, ImageFilter
    import pytesseract
    
    # 图片预处理
    image = Image.open('image.jpg')
    gray_image = image.convert('L')
    threshold = 150
    binary_image = gray_image.point(lambda p: p > threshold and 255)
    denoised_image = binary_image.filter(ImageFilter.MinFilter)
    denoised_image.save('processed_image.jpg')
    denoised_image.show()
    
    # 字体识别
    text = pytesseract.image_to_string(denoised_image, lang='eng')
    print(text)

요약
이 문서에서는 그림의 글꼴 인식을 위해 Python을 사용하는 방법을 소개하고 해당 코드 예제를 제공합니다. pytesseract 라이브러리를 전처리하고 호출함으로써 이미지에서 텍스트를 쉽고 빠르게 추출하고 후속 텍스트 처리를 수행할 수 있습니다. 글꼴 인식은 실제 응용 분야에서 광범위한 응용 가능성을 가지고 있습니다. 이 기사의 소개가 독자들에게 도움이 되기를 바랍니다.

위 내용은 Python을 사용하여 그림의 글꼴을 식별하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.