집 >백엔드 개발 >파이썬 튜토리얼 >Python 인증 코드 인식 튜토리얼: 프로젝션 방법과 연결된 도메인 방법을 사용하여 이미지 분할

Python 인증 코드 인식 튜토리얼: 프로젝션 방법과 연결된 도메인 방법을 사용하여 이미지 분할

不言원래의: 2018-06-04 16:21:202912검색

이 글은 주로 Python 인증 코드 인식 튜토리얼을 소개하고 프로젝션 방식과 연결된 도메인 방식을 사용하여 이미지를 분할합니다. 이제는 필요한 친구들이 참고할 수 있도록 공유합니다.

오늘 글에서는 주로 인증코드 분할 방법을 다루었습니다. 주로 Linux에서 사용되는 Pillow와 이미지 처리 도구인 GIMP를 사용합니다. 먼저 위치와 너비가 고정되어 있고 접착력이 없으며 간섭이 없는 예를 가정하여 베개를 사용하여 그림을 자르는 방법을 학습합니다.

GIMP로 이미지를 연 후 더하기 기호를 눌러 이미지를 확대한 다음 보기->격자 표시를 클릭하여 격자선을 표시합니다.

그 중 각 정사각형 변의 길이는 10픽셀입니다. 이므로 1번 컷이 됩니다. 좌표는 왼쪽 20, 위쪽 20, 오른쪽 40, 아래쪽 70입니다. 비유하자면 나머지 3개 숫자의 절단 위치를 알 수 있습니다.
코드는 다음과 같습니다:

from PIL import Image
p = Image.open("1.png")
# 注意位置顺序为左、上、右、下
cuts = [(20,20,40,70),(60,20,90,70),(100,10,130,60),(140,20,170,50)]
for i,n in enumerate(cuts,1):
 temp = p.crop(n) # 调用crop函数进行切割
 temp.save("cut%s.png" % i)

자르면 4장의 사진이 나옵니다.

글자 위치가 고정되어 있지 않으면 어떻게 될까요? 이제 임의의 위치 폭, 접착력 및 간섭선이 없는 경우를 가정합니다.

첫 번째 방법이자 가장 간단한 방법을 "투영 방법"이라고 합니다. 원리는 이진화된 영상을 수직 방향으로 투영하고, 투영 후 극값을 기준으로 분할 경계를 결정하는 것입니다. 여기서는 위의 확인 코드 이미지를 사용하여 설명합니다.

def vertical(img):
 """传入二值化后的图片进行垂直投影"""
 pixdata = img.load()
 w,h = img.size
 ver_list = []
 # 开始投影
 for x in range(w):
 black = 0
 for y in range(h):
  if pixdata[x,y] == 0:
  black += 1
 ver_list.append(black)
 # 判断边界
 l,r = 0,0
 flag = False
 cuts = []
 for i,count in enumerate(ver_list):
 # 阈值这里为0
 if flag is False and count > 0:
  l = i
  flag = True
 if flag and count == 0:
  r = i-1
  flag = False
  cuts.append((l,r))
 return cuts

p = Image.open(&#39;1.png&#39;)
b_img = binarizing(p,200)
v = vertical(b_img)

수직 기능을 통해 X축에 투영된 모든 검은색 픽셀의 왼쪽 및 오른쪽 경계를 포함하는 위치를 얻습니다. 보안 문자는 아무 것도 방해하지 않으므로 임계값은 0으로 설정됩니다. 이진화 함수에 대해서는 이전 글을 참고하시면 됩니다

출력은 다음과 같습니다.

[(21, 37), (62, 89), (100, 122), (146, 164)]

보시다시피 투영법에 의해 주어진 왼쪽과 오른쪽 경계는 우리가 할 수 있는 것과 매우 가깝습니다. 수동 검사를 통해 얻을 수 있습니다. 상하 경계는 게으른 경우 그림의 높이를 0으로 직접 사용하거나 가로 방향으로 투영할 수 있습니다. 여기에 관심이 있는 친구들은 스스로 시도해 볼 수 있습니다.

단, 문자 간 유착이 있는 경우 투영 방식으로 인해 분할 오류가 발생합니다. 예를 들어 이전 기사에서

임계값을 5로 수정한 후 왼쪽과 오른쪽 경계는 투영 방법은 다음과 같습니다.

[(5, 27), (33, 53), (59, 108)]

분명히 마지막 6자리와 9자리 숫자는 잘리지 않습니다.

임계값을 7로 수정하면 결과는 다음과 같습니다.

[(5, 27), (33, 53), (60, 79), (83, 108)]

간단한 유착 상황에서는 임계값을 조정하는 것도 해결 가능합니다.

두 번째 방법은 CFS 연결 도메인 분할 방법입니다. 원리는 각 문자가 별도의 연결된 도메인으로 구성되어 있다는 것, 즉 접착이 없다고 가정하고 검은색 픽셀을 찾아 연결된 검은색 픽셀을 모두 횡단하여 표시할 때까지 판단을 시작하여 문자의 분할 위치를 결정하는 것입니다. . 알고리즘은 다음과 같습니다.

이진화된 이미지를 왼쪽에서 오른쪽으로, 위에서 아래로 탐색합니다. 검은색 픽셀이 발견되고 이 픽셀을 방문하지 않은 경우 해당 픽셀을 스택에 푸시하고 이미 방문한 것으로 표시합니다. .

스택이 비어 있지 않으면 주변 8픽셀을 계속 감지하고 2단계를 수행합니다. 스택이 비어 있으면 문자 블록 하나가 감지되었음을 의미합니다.
감지가 종료되어 여러 캐릭터가 확정되었습니다.
코드는 다음과 같습니다.

import queue

def cfs(img):
 """传入二值化后的图片进行连通域分割"""
 pixdata = img.load()
 w,h = img.size
 visited = set()
 q = queue.Queue()
 offset = [(-1,-1),(0,-1),(1,-1),(-1,0),(1,0),(-1,1),(0,1),(1,1)]
 cuts = []
 for x in range(w):
  for y in range(h):
   x_axis = []
   #y_axis = []
   if pixdata[x,y] == 0 and (x,y) not in visited:
    q.put((x,y))
    visited.add((x,y))
   while not q.empty():
    x_p,y_p = q.get()
    for x_offset,y_offset in offset:
     x_c,y_c = x_p+x_offset,y_p+y_offset
     if (x_c,y_c) in visited:
      continue
     visited.add((x_c,y_c))
     try:
      if pixdata[x_c,y_c] == 0:
       q.put((x_c,y_c))
       x_axis.append(x_c)
       #y_axis.append(y_c)
     except:
      pass
   if x_axis:
    min_x,max_x = min(x_axis),max(x_axis)
    if max_x - min_x > 3:
     # 宽度小于3的认为是噪点，根据需要修改
     cuts.append((min_x,max_x))
 return cuts

호출 후 출력 결과는 프로젝션 방식을 사용한 것과 동일합니다. 그리고 인터넷에서 "Flood Fill"이라는 방법이 있다는 것을 보았는데, 이는 연결된 도메인과 동일한 것 같습니다.

Python 인증 코드 인식 튜토리얼: 프로젝션 방법과 연결된 도메인 방법을 사용하여 이미지 분할

관련 기사