글로벌 문자 인식(OCR) 분야 최고 행사인 ICDAR 2023에서 텐센트 OCR팀은 자체 개발 알고리즘을 바탕으로 4회 연속 우승을 차지하며 2017년부터 4회 연속 좋은 성적을 거뒀다. 2019년, 2021년. 총 18개의 공식 인증 챔피언십을 획득하여 Tencent의 OCR 기술의 세계적 수준을 입증했습니다.
ICDAR 컨퍼런스는 글로벌 문서 이미지 분석 및 인식 분야에서 권위를 인정받는 학술 컨퍼런스로, 2년마다 개최되며, 100여 개국에서 약 8,000개 팀이 참가했습니다. ICDAR 대회는 기술적인 난이도가 매우 높고 실용성이 뛰어나다는 점에서 국내외적으로 잘 알려져 있다. ICDAR가 공식 인증한 공식 대회는 경기 후 비공식 순위를 매기는 것과 달리 새로운 데이터 세트와 참가팀의 정보 및 정보를 활용한다. 대회 중에는 결과가 발표되지 않습니다. 결과 제출 시간과 횟수가 제한되어 있지만 "블라인드 타이핑"은 매우 어렵습니다.
올해 Tencent OCR 팀은 Tencent 데이터 플랫폼 부서와 WeChat 기술 아키텍처 부서로 공동으로 구성되었습니다. DSText(Dense Small Text Video Text Recognition)와 SVRD(Structured Information Extraction)라는 두 가지 주요 대회에 참가하는 데 중점을 두었습니다. A트랙 4관왕을 달성했습니다.
DSText(Dense Small Text Video Text Recognition) 대회는 비디오 텍스트 추적과 비디오 텍스트 엔드투엔드 인식이라는 두 가지 작업을 설정했습니다. 텍스트가 매우 조밀하고 매우 작기 때문에 환경 간섭(카메라 흔들림, 모션 블러, 조명 변화 등)과 후편집(멀티 렌즈 화면 자르기, 인공 배경, 게임 인터페이스 전환 등)이 결합되어 있습니다. 비디오 프레임에서 정확하게 감지하고 추적하기가 어렵습니다. 텍스트를 인식하려면 알고리즘의 높은 견고성이 필요하며 매우 어렵습니다. 일부 대회 영상 프레임은 다음과 같습니다.
ICDAR-DSText 대회 개요 프레임
DSText 대회의 두 가지 과제 모두에서 Tencent OCR 팀이 절대적인 선두로 우승을 차지했습니다.
그 중 작업 1은 비디오의 모든 텍스트 스트림을 추적하고 비디오 프레임 간에 동일한 텍스트 인스턴스에 속하는 감지 프레임을 집계하는 것을 목표로 하며, 평가 지표는 MOTA가 12.04%로 2위를 차지합니다.
비디오 텍스트 추적: 챔피언십 인증서
비디오 텍스트 인식의 엔드투엔드 성능을 평가하도록 설계된 작업 2에서 이 작업을 수행하려면 모든 프레임에서 올바른 텍스트 감지, 비디오 프레임의 올바른 추적 및 시퀀스 수준이 올바르게 필요합니다. 확인된 평가지수는 OCR-MOTA로, 텐센트는11.93% 차이로 2위로 선두를 달리며 우승을 차지했습니다.
비디오 텍스트 엔드투엔드 인식: 우승 인증서
SVRD 트랙, Tencent가 절대 우위로 두 번의 우승을 차지했습니다.SVRD(구조적 정보 추출) 대회에는 HUST-CELL과 BAIDU-FEST라는 두 가지 주요 트랙이 포함됩니다. 4가지 작업: 복잡한 문서 개체 관계 추출(E2E Complex Entity Linking), 복잡한 문서 개체 의미 추출(E2E Complex Entity Labeling), 제로샷 구조화된 정보 추출(E2E Zero-shot Structured Text Extraction) 및 소규모 샘플 구조화된 정보 추출( 퓨샷 구조화된 텍스트 추출). 문서 이미지의 복잡한 레이아웃과 다양한 구조, 자연 장면 이미지의 불규칙한 수집, 복잡한 배경, 파손, 휘어짐, 변형 및 기타 문제로 인해 경쟁이 매우 어렵습니다. 일부 대회 사진은 다음과 같습니다.
ICDAR-SVRD 구조화된 정보 추출 대회 샘플 SVRD 대회에서 Tencent OCR 팀은 총 2개의 우승을 차지했습니다. 그 중 작업 2(E2E Complex Entity Labeling)는 제목, 조직 이름, 날짜, 금액, 숫자, 제품 이름, 개인 이름 등과 같은 복잡한 문서 이미지에서 의미 개체를 추출하는 것을 목표로 합니다. Tencent는 이러한 측면에서 큰 장점을 가지고 있습니다. 이 과제가 우승을 차지했습니다 E2E 복합 엔터티 라벨링: 우승 인증서과제 4 (E2E Few-shot 구조화된 텍스트 추출) 경쟁 질문에서는 매우 작은 규모의 엔터티 제공을 전제로 10가지 시나리오에서 이미지를 추출해야 합니다. 은행 카드, 사업자 등록증, 택시 청구서, 쇼핑 영수증, 교통비 청구서, 정액 청구서, 서류 등 주요 정보에 대해서도 Tencent가 우승했습니다. E2E Few-shot 구조화 텍스트 추출: 챔피언 인증서 보도에 따르면 Tencent OCR 팀은 OCR 기술을 연구 및 개발하는 데 전념하는 Tencent 내 전문 팀입니다. 기술은 Tencent 광고, WeChat, QQ, Tencent Cloud, Tencent Video 및 Tencent 정보 흐름 제품과 같은 Tencent 내의 수백 가지 비즈니스 시나리오를 지원합니다.위 내용은 Tencent OCR 팀이 ICDAR 대회에서 4번의 우승을 차지했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!