최근 텍스트 생성 이미지 분야에서 예상치 못한 많은 혁신이 이루어졌으며 많은 모델이 텍스트 지침을 기반으로 고품질의 다양한 이미지를 생성하는 기능을 달성할 수 있습니다. 생성된 이미지는 이미 매우 사실적이지만 현재 모델은 풍경이나 물체와 같은 물리적 물체의 이미지를 생성하는 데 능숙하지만 한자와 같은 복잡한 문자 텍스트가 포함된 이미지와 같이 일관성 있는 세부 수준이 높은 이미지를 생성하는 데 어려움을 겪고 있습니다. .
이 문제를 해결하기 위해 OPPO 및 기타 기관의 연구자들은 모델이 일관된 텍스트가 포함된 이미지를 생성할 수 있도록 설계된 일반 학습 프레임워크인 GlyphDraw를 제안했습니다. 이는 이미지 분야의 첫 번째 작업입니다. 한자 생성 문제를 해결하기 위한 합성.
먼저 생성 효과를 살펴보겠습니다. 예를 들어 전시장에 대한 경고 슬로건 생성:
광고판 생성:
간단한 텍스트 추가 그림, 텍스트에 대한 설명 스타일도 다양할 수 있습니다.
또한 가장 흥미롭고 실용적인 예는 이모티콘을 생성하는 것입니다.
결과에 몇 가지 결함이 있지만 , 전반적인 세대 효과는 매우 좋습니다. 전반적으로 이 연구의 주요 기여는 다음과 같습니다.
본 연구는 먼저 복잡한 이미지-텍스트 데이터 세트 구축 전략을 설계한 후, 오픈 소스 이미지 합성 알고리즘인 Stable Diffusion을 기반으로 하는 일반적인 학습 프레임워크인 GlyphDraw를 제안했습니다. 아래 그림 2.
Stable Diffusion의 전반적인 훈련 목표는 다음 공식으로 표현될 수 있습니다.
GlyphDraw는 원본 입력 잠재 벡터 z_t가 이미지 잠재 벡터 z_t, 텍스트 마스크 l_m 및 글리프 이미지 l_g의 연결로 대체되는 Stable Diffusion의 교차 주의 메커니즘을 기반으로 합니다.
또한 조건 C는 도메인별 융합 모듈을 사용하여 하이브리드 글리프와 텍스트 기능을 갖추고 있습니다. 텍스트 마스크 및 글리프 정보의 도입을 통해 전체 학습 프로세스에서 모델 성능 향상의 핵심 구성 요소인 세분화된 확산 제어를 달성하고 궁극적으로 한자 텍스트가 포함된 이미지를 생성할 수 있습니다.
특히 텍스트 정보, 특히 그림 문자와 같은 복잡한 텍스트 형식의 픽셀 표현은 자연 물체와 크게 다릅니다. 예를 들어, 중국어 단어 "하늘"은 2차원 구조의 여러 획으로 구성되어 있으며 그에 상응하는 자연스러운 이미지는 "흰 구름이 점재하는 푸른 하늘"입니다. 이에 비해 한자는 매우 세밀한 특성을 갖고 있어 작은 움직임이나 변형에도 잘못된 텍스트 렌더링이 발생하여 이미지 생성이 불가능할 수 있습니다.
자연 이미지 배경에 문자를 삽입할 때 고려해야 할 주요 문제도 있습니다. 이는 인접한 자연 이미지 픽셀에 영향을 주지 않으면서 텍스트 픽셀 생성을 정확하게 제어하는 것입니다. 자연스러운 이미지에 완벽한 한자를 렌더링하기 위해 저자는 확산 합성 모델에 통합된 두 가지 핵심 구성 요소, 즉 위치 제어와 글리프 제어를 신중하게 설계했습니다.
다른 모델의 전역 조건부 입력과 달리 문자 생성은 문자 픽셀의 잠재 특징 분포가 자연 이미지 픽셀의 잠재 특징 분포와 매우 다르기 때문에 이미지의 특정 로컬 영역에 더 많은 주의를 기울여야 합니다. 모델 학습이 붕괴되는 것을 방지하기 위해 본 연구에서는 서로 다른 영역 간의 분포를 분리하는 세분화된 위치 영역 제어를 혁신적으로 제안합니다.
위치 제어 외에 또 다른 중요한 이슈는 한자 획 합성의 미세한 제어입니다. 한자의 복잡성과 다양성을 고려할 때, 명시적인 사전 지식 없이 대규모 이미지-텍스트 데이터세트에서 단순히 학습하는 것은 극히 어렵습니다. 한자를 정확하게 생성하기 위해 본 연구에서는 모델 확산 프로세스에 추가 조건 정보로 명시적인 글리프 이미지를 통합합니다.
한자 이미지 생성을 위한 기존 데이터 세트가 없기 때문에 본 연구에서는 먼저 정성적, 정량적 평가를 위해 벤치마크 데이터 세트인 ChineseDrawText를 구축한 후 ChineseDrawText 생성 정확도를 테스트하고 비교했습니다. 여러 가지 방법 중 (OCR 인식 모델로 평가)
본 연구에서 제안한 GlyphDraw 모델은 보조 글리프와 위치 정보를 효과적으로 활용하여 평균 75%의 정확도를 달성하여 모델의 우수한 캐릭터 이미지 생성 능력을 입증했습니다. 여러 방법의 시각적 비교 결과는 아래 그림에 나와 있습니다.
또한 GlyphDraw는 MS-COCO FID-에서 일반 이미지 합성의 FID를 제한하여 개방형 도메인 이미지 합성 성능을 유지할 수도 있습니다. 10k는 2.3만큼만 떨어집니다.
관심 있는 독자는 논문의 원본을 읽고 더 많은 연구 세부 사항을 알아볼 수 있습니다.
위 내용은 확산 모델은 클릭 한 번으로 한자가 포함된 이미지를 생성하고 이모티콘을 출력합니다: OPPO 및 기타 제안 GlyphDraw의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!