말은 얼굴 같고, 말은 사람 같다는 말이 있죠. 단단한 인쇄체에 비해 손글씨는 작가의 개인적인 특성을 더 잘 반영할 수 있습니다. 나는 많은 사람들이 자신만의 손글씨 글꼴 세트를 갖고 이를 소셜 소프트웨어에서 사용하여 자신의 스타일을 더 잘 표현하는 것을 상상해 왔다고 생각합니다.
하지만 영문자와 달리 한자의 개수가 엄청나게 많고, 나만의 전용 글꼴을 만드는 데 비용이 많이 듭니다. 예를 들어, 새로 발표된 국가 표준 GB18030-2022 한자 세트에는 80,000개 이상의 한자가 포함되어 있습니다. 한 비디오 웹사이트의 한 블로거는 그 과정에서 13개의 펜을 사용하여 7,000자가 넘는 한자를 18시간 동안 썼고, 글을 쓰느라 손이 마비되었다는 보고가 있습니다!
위의 질문으로 인해 논문 작성자는 전용 글꼴을 만드는 데 드는 비용이 많이 드는 문제를 해결하는 데 도움이 되는 자동 텍스트 생성 모델을 설계할 수 있을까요? 이 문제를 해결하기 위해 연구진은 손글씨를 모방할 수 있는 AI를 구상했습니다. 손글씨에 포함된 글쓰기 스타일(예: 글자 크기 등)을 추출하려면 사용자만이 소수의 손글씨 샘플(약 12개)을 제공하면 됩니다. 문자, 기울기, 기울기 정도 등)을 편집하고 스타일을 복사하여 더 많은 텍스트를 합성함으로써 사용자를 위한 전체 필기체 글꼴 세트를 효율적으로 합성합니다.
또한, 논문의 저자는 애플리케이션 가치와 사용자 경험이라는 두 가지 관점에서 모델의 입력 및 출력 양식에 대해 다음과 같은 생각을 했습니다. 1. 온라인 글꼴을 고려하여 시퀀스 양식(온라인 필기)은 이미지 모드에서 오프라인 필기보다 풍부한 정보를 포함합니다(아래 그림과 같이 트랙 포인트의 세부 위치 및 쓰기 순서). 모델의 출력 모드를 온라인 텍스트로 설정하면 적용 범위가 더 넓어집니다. 로봇 글쓰기, 서예 교육 등 전망 2. 일상생활에서는 태블릿이나 터치펜과 같은 수집 장치를 통해 온라인 텍스트를 얻는 것보다 휴대폰을 사용하여 사진을 찍어 오프라인 텍스트를 얻는 것이 더 편리합니다. 따라서 생성된 모델의 입력 모드를 오프라인 텍스트로 설정하면 사용자들이 더욱 편리하게 사용할 수 있을 것입니다!
요약하자면, 본 논문의 연구 목표는 양식화된 온라인 필기 생성 방법을 제안하는 것이다. 이 모델은 사용자가 제공한 오프라인 텍스트에 포함된 쓰기 스타일을 복사할 수 있을 뿐만 아니라 사용자의 필요에 따라 온라인에서 내용을 제어할 수 있는 필기체를 생성할 수도 있습니다.
위의 목표를 달성하기 위해 연구자들은 두 가지 핵심 문제를 분석했습니다. 1. 사용자는 소수의 문자 샘플만 제공할 수 있으므로, 이 소수의 참고 샘플에서만 사용자의 독특한 글쓰기 스타일을 배울 수 있습니까? ? 즉, 적은 수의 참고 샘플을 기반으로 사용자의 문체를 복사하는 것이 가능합니까? 2. 이 논문의 연구 목표는 생성된 텍스트 스타일을 제어할 수 있을 뿐만 아니라 내용도 제어할 수 있도록 하는 것입니다. 따라서 사용자의 글쓰기 스타일을 학습한 후 스타일과 텍스트 내용을 효율적으로 결합하여 사용자의 기대에 맞는 필기체를 생성하는 방법은 무엇입니까? 다음으로 이번 CVPR 2023에서 제안한 SDT(Style Disentangled Transformer) 방식이 이 두 가지 문제를 어떻게 해결하는지 살펴보겠습니다.
연구 동기 연구자들은 개인 필기체에는 일반적으로 두 가지 쓰기 스타일이 있음을 발견했습니다. 1. 동일한 작가의 필기체에는 전체적인 스타일 공통성이 있으며 각 문자가 유사하게 나타나는 정도 기울기와 종횡비가 다르며, 작가마다 문체적 공통점이 다릅니다. 이러한 특성은 다양한 작가를 구별하는 데 사용될 수 있기 때문에 연구자들은 이를 작가 스타일이라고 부릅니다. 2. 전반적인 문체적 공통점 외에도, 같은 작가의 다른 인물들 사이에는 세부적인 문체 불일치가 있습니다. 예를 들어, "黑"과 "杰"이라는 두 글자의 경우, 글자 구조상 동일한 4점 수수를 사용하지만, 이 부수를 다른 글자에 쓰는 데는 약간의 차이가 있으며, 이는 다음과 같습니다. 스트로크의 길이, 위치 및 곡률. 연구자들은 이 미묘한 스타일 패턴을 글리프 글리프 스타일이라고 부릅니다. 위의 관찰에서 영감을 받아 SDT는 사용자 필기 스타일을 모방하는 능력을 향상시키기 위해 작가와 글리프 스타일을 개인 필기에서 분리하는 것을 목표로 합니다.
스타일 정보를 학습한 후 단순히 스타일과 콘텐츠 특징을 연결하는 기존의 손글씨 텍스트 생성 방식과 달리 SDT는 콘텐츠 특징을 쿼리 벡터로 사용하여 적응적으로 스타일 정보를 캡처함으로써 스타일과 콘텐츠를 효율적으로 통합하여 생성합니다. 사용자의 기대에 부응하는 손글씨.
Method Framework SDT의 전체 프레임워크는 아래 그림에 표시되며, 이는 듀얼 브랜치 스타일 인코더, 콘텐츠 인코더 및 변환기 디코더의 세 부분으로 구성됩니다. 첫째, 본 논문에서는 스타일 인코더의 Writer Branch와 Glyph Branch가 각각 해당 스타일 추출을 학습하도록 안내하는 두 가지 보완적인 대조 학습 목표를 제안합니다. 그런 다음 SDT는 변환기의 어텐션 메커니즘(다중 헤드 어텐션)을 사용하여 스타일 특징과 콘텐츠 인코더에서 추출한 콘텐츠 특징을 동적으로 융합하여 온라인 필기 텍스트를 점진적으로 합성합니다.
(a) 작가 스타일 대조 학습 SDT는 동일한 작가에 속한 문자 샘플을 집계하는 작가 스타일 추출을 위한 지도 대조 학습 목표(WriterNCE)를 제안합니다. 서로 다른 작가에게 속한 앞으로의 필기 샘플은 작가가 개별 필기의 문체적 공통점에 집중하고 집중하도록 유도합니다.
(b) 글리프 스타일 대조 학습 SDT는 더 자세한 글리프 스타일을 학습하기 위해 비지도 대조 학습 목표(GlyphNCE)를 제안합니다. 이는 동일한 뷰 간의 상호 정보를 최대화하는 데 사용됩니다. 캐릭터 및 격려 글리프 브랜치는 캐릭터의 세부적인 패턴을 학습하는 데 중점을 둡니다. 구체적으로 아래 그림과 같이 먼저 동일한 손글씨 문자에 대해 두 개의 독립적인 샘플을 수행하여 획 세부 정보가 포함된 한 쌍의 양성 샘플
및
을 얻은 다음 다음 중에서 선택합니다. 다른 문자 샘플링 결과는 부정적인 샘플
입니다. 샘플을 채취할 때마다 원본 샘플의 세부 정보가 포함된 새로운 관점으로 소수의 샘플 블록이 무작위로 선택됩니다. 샘플 블록의 샘플링은 문자의 특정 영역이 과도하게 샘플링되는 것을 방지하기 위해 균일한 분포를 따릅니다. 글리프 분기를 더 잘 안내하기 위해 샘플링 프로세스는 글리프 분기에 의해 출력되는 기능 시퀀스에 직접적으로 작용합니다.
(c) 스타일과 콘텐츠 정보의 융합 전략 두 가지 스타일 특징을 얻은 후 이를 콘텐츠 인코더에서 학습한 콘텐츠 인코딩과 효율적으로 통합하는 방법은 무엇입니까? 이 문제를 해결하기 위해 SDT는 디코딩 시점 t에서 콘텐츠 특징을 초기 지점으로 간주한 다음 시간 q와 t 이전에 출력된 궤적 지점을 결합하여 새로운 콘텐츠 컨텍스트
를 형성합니다. 다음으로 콘텐츠 컨텍스트는 쿼리 벡터로 처리되고 스타일 정보는 키 및 값 벡터로 처리됩니다. Cross-Attention 메커니즘의 통합으로 콘텐츠 컨텍스트와 두 가지 스타일 정보가 차례로 동적으로 집계됩니다.
Experiments
정량적 평가
SDT는 중국어, 일본어, 인도어, 영어 데이터 세트, 특히 스타일 점수 지수에서 이전 SOTA 방식과 비교하여 최고의 성능을 달성했습니다. 큰 발전을 이루었습니다.
정성적 평가
기존 방식에 비해 문자 축소 복사도 가능합니다 사용자의 글쓰기 스타일이 아주 좋습니다. 글리프 스타일 학습 덕분에 SDT는 문자의 획 세부 정보를 생성하는 데에도 효과적입니다.
SDT는 다른 언어에서도 잘 작동합니다. 특히 인도어 텍스트 생성 측면에서 기존의 주류 방식은 접힌 문자를 쉽게 생성할 수 있지만, 우리 SDT는 여전히 문자 내용의 정확성을 유지할 수 있습니다.
다양한 모듈이 알고리즘 성능에 미치는 영향
아래 표에서 볼 수 있듯이, 본 글에서 제안하는 각 모듈은 시너지 효과를 가지며 사용자 필기 복사 성능을 효과적으로 향상시킵니다. 특히, 작가 스타일을 추가하면 문자의 기울기 및 종횡비와 같은 전체 문자 스타일에 대한 SDT의 모방이 향상되고, 글리프 스타일을 추가하면 생성된 문자의 획 세부 사항이 향상됩니다. 기존 방법의 단순 융합 전략에 비해 SDT의 적응형 동적 융합 전략은 다양한 지표에서 캐릭터 생성 성능을 종합적으로 향상시킵니다.
두 가지 스타일의 시각적 분석
두 가지 스타일 특징에 대해 푸리에 변환을 수행하면 다음과 같은 스펙트로그램을 얻을 수 있습니다. 더 많은 저주파 구성 요소를 포함하는 반면 글리프 스타일은 주로 고주파 구성 요소에 중점을 둡니다. 실제로 저주파 성분은 대상의 전체적인 윤곽을 담고 있는 반면, 고주파 성분은 대상의 세부 사항에 더 많은 주의를 기울입니다. 이 발견은 분리된 글쓰기 스타일의 효과를 더욱 검증하고 설명합니다.누구나 필기 AI를 통해 자신만의 고유한 글꼴을 만들고 소셜 플랫폼에서 자신을 더 잘 표현할 수 있습니다! 앞으로
위 내용은 손글씨를 모방하고 나만의 전용 글꼴을 만들어주는 AI의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!