지난해 DALL-E 2, Stable Diffusion 및 기타 이미지 생성 모델이 출시되면서 텍스트-이미지 모델로 생성된 이미지는 해상도, 품질, 텍스트 충실도 등의 측면에서 크게 향상되었습니다. . 다운스트림 애플리케이션 시나리오 개발을 크게 촉진했으며 모두가 AI 페인터가 되었습니다.
그러나 관련 연구에 따르면 현재의 생성 모델 기술에는 여전히 큰 결함이 있습니다. 즉, 이미지에 신뢰할 수 있는 시각적 텍스트를 표현할 방법이 없다는 것입니다.
연구 결과에 따르면 DALL-E 2는 그림에서 일관된 텍스트 문자를 생성하는 데 매우 불안정하며 새로 출시된 Stable Diffusion 모델은 "읽을 수 있는 텍스트를 렌더링할 수 없음"을 알려진 한계로 직접 나열합니다.
문자 오류: (1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It's Our Nature, (4) St. Louis: All Within Reach.
최근 Google Research에서는 고품질 시각적 텍스트를 렌더링하는 이미지 생성 모델의 기능을 이해하고 개선하려는 새로운 논문을 발표했습니다.
논문 링크: https://arxiv.org/abs/2212.10562
연구원들은 현재 텍스트-이미지 생성 모델에서 텍스트 렌더링 결함이 발생하는 주된 이유는 캐릭터 레벨 입력 기능.모델 생성에서 이 입력 기능의 영향을 정량화하기 위해 이 기사에서는 텍스트 입력 기능이 있거나 없는 텍스트 인코더(문자 인식 및 문자 블라인드)를 비교하는 일련의 제어된 실험을 설계했습니다.
연구원들은 일반 텍스트 분야에서 문자 인식 모델이 새로운 철자 작업(WikiSpell)에서 큰 성능 향상을 달성했다는 사실을 발견했습니다.
이 경험을 시각적 영역으로 전환한 후 연구원들은 일련의 이미지 생성 모델을 훈련했습니다. 실험 결과에 따르면 일련의 새로운 텍스트 렌더링 작업(DrawText 벤치마크)에서 문자 인식 모델이 문자 인식 모델보다 성능이 뛰어난 것으로 나타났습니다.
그리고 문자 인식 모델은 시각적 철자법에서 더 높은 수준에 도달하며, 흔하지 않은 단어에 대한 정확도는 훨씬 적은 수의 예제 백분율 포인트에 대한 교육에도 불구하고 여전히 경쟁 모델보다 30% 이상 높습니다.
문자 인식 모델
언어 모델은 텍스트 입력을 구성하는 문자에 직접 액세스할 수 있는 문자 인식 모델과 액세스할 수 없는 문자 인식 모델로 나눌 수 있습니다.많은 초기 신경 언어 모델은 다중 문자 토큰을 마커로 사용하지 않고 문자에서 직접 작동했습니다.
최신 모델은 점차 어휘 기반 토큰화로 전환되었으며, ELMo와 같은 일부 모델은 여전히 문자 인식을 유지하지만 BERT와 같은 다른 모델은 보다 효과적인 사전 훈련을 위해 문자 기능을 포기했습니다.
현재 가장 널리 사용되는 언어 모델은 BPE(바이트 쌍 인코딩)와 같은 데이터 기반 하위 단어 분할 알고리즘을 사용하여 하위 단어 조각을 어휘로 생성하는 문자 맹목적 언어 모델입니다.
이러한 방법은 일반적이지 않은 시퀀스에 대해 문자 수준 표현으로 돌아갈 수 있지만 여전히 공통 문자 시퀀스를 분할할 수 없는 단위로 압축하도록 설계되었습니다.
이 문서의 주요 목적은 고품질 시각적 텍스트를 렌더링하는 이미지 생성 모델의 기능을 이해하고 개선하는 것입니다.
이를 위해 연구자들은 먼저 현재 텍스트 인코더의 맞춤법 기능을 별도로 연구했습니다. 실험 결과에서 문자 블라인드 텍스트 인코더가 인기가 있음에도 불구하고 문자 수준의 정보를 받지 못한다는 것을 알 수 있습니다. 입력은 직접적인 신호를 구성하므로 철자 능력이 제한됩니다.
연구원들은 또한 다양한 크기, 아키텍처, 입력 표현, 언어 및 조정 방법의 텍스트 인코더의 철자 기능을 테스트했습니다. 이 논문에서는 네트워크 사전 훈련을 통해 강력한 철자 지식(정확도 >99%)을 유도하는 문자 맹인 모델의 기적적인 능력을 처음으로 기록했지만, 실험 결과에 따르면 이 능력은 언어에서는 사용할 수 없는 것으로 나타났습니다. 영어 이외의 언어는 잘 일반화되지 않으며 100B 매개변수를 초과하는 규모에서만 달성 가능하므로 대부분의 애플리케이션 시나리오에서는 실현 가능하지 않습니다. 반면에 문자 인식 텍스트 인코더는 더 작은 규모에서도 강력한 맞춤법 기능을 지원합니다. 이러한 결과를 이미지 생성 시나리오에 적용하면서 연구원들은 일련의 문자 인식 텍스트-이미지 모델을 훈련했으며 기존 및 새로운 텍스트 렌더링 평가에서 문자보다 훨씬 뛰어난 성능을 보여주었습니다. 그러나 순수 문자 수준 모델의 경우 텍스트 렌더링 성능이 향상되었지만 시각적 텍스트가 포함되지 않은 프롬프트의 경우 이미지-텍스트 정렬이 감소합니다. 이 문제를 완화하기 위해 연구원들은 최고의 성능을 얻을 수 있도록 문자 수준 및 토큰 수준 입력 표현을 결합할 것을 제안합니다. 텍스트-이미지 생성 모델은 텍스트 인코더를 사용하여 디코딩용 표현을 생성하므로 연구원들은 먼저 Wiktionary에서 일부 단어를 샘플링하여 WikiSpell 벤치마크를 만든 다음 순수 A의 이 데이터 세트를 기반으로 했습니다. 텍스트 인코더의 기능을 탐색하기 위한 텍스트 철자 평가 작업입니다. WikiSpell의 각 예에서 모델에 대한 입력은 단어이고 예상되는 출력은 특정 철자입니다(각 유니코드 문자 사이에 공백을 삽입하여 생성됨). 기사는 단어의 빈도와 모델의 철자 능력 사이의 관계를 연구하는 데만 관심이 있기 때문에 연구원들은 Wiktionary에 나오는 단어의 빈도를 기준으로 Wiktionary의 단어를 5개로 나누었습니다. mC4 코퍼스 비중복 버킷: 가장 자주 사용되는 단어의 상위 1%, 가장 자주 사용되는 단어의 상위 1~10%, 단어의 10~20%, 단어의 20~30%, 단어의 하위 50%( )에는 절대 등장하지 않는 말뭉치 단어. 그런 다음 각 버킷에서 균등하게 1000개의 단어를 샘플링하여 테스트 세트(및 유사한 개발 세트)를 만듭니다. ㅋㅋㅋ 훈련 세트의 절반을 자주 사용되는 단어로 편향합니다. 연구원들은 개발 세트나 테스트 세트로 선택한 단어를 훈련 세트에서 제외하므로 평가 결과는 항상 제외된 단어에 대한 것입니다. 연구원들은 모델의 철자 학습 능력에 영향을 미치는 다양한 기능을 다루기 위해 선택된 6개의 다른 언어(아랍어, 중국어, 핀란드어, 한국어, 러시아어, 태국어)도 평가했습니다. 위에서 설명한 내용을 각 언어 평가마다 반복했습니다. 텍스트 생성 실험 순수 영어와 다국어 실험 결과, 상위 1%의 가장 빈번한 단어가 포함된 버킷에서 문자맹인 모델인 T5와 mT5의 성능이 훨씬 나쁜 것을 확인할 수 있습니다. 모델은 일반적으로 데이터에서 자주 발생하는 예에서 가장 잘 수행되기 때문에 이 결과는 반직관적으로 보일 수 있지만 하위 단어 어휘가 훈련되는 방식으로 인해 자주 발생하는 단어는 일반적으로 단일 원자 토큰(또는 A 적은 수의 토큰), 실제로 이는 사실입니다. 영어 상위 1% 버킷에 있는 단어의 87%가 하위 단어 토큰으로 T5의 어휘로 표시됩니다. 따라서 낮은 철자 정확도 점수는 T5의 인코더가 어휘의 하위 단어에 대한 충분한 철자 정보를 유지하지 않음을 나타냅니다. 둘째, 문자맹인 모델의 경우 규모는 철자 능력에 영향을 미치는 중요한 요소입니다. T5와 mT5 모두 규모가 커질수록 점차 좋아지지만, XXL 규모에서도 이들 모델은 특별히 강력한 철자 능력을 보여주지는 않습니다. 문자맹인 모델이 PaLM 규모에 도달한 경우에만 거의 완벽한 철자 기능을 볼 수 있습니다. 540B 매개변수 PaLM 모델은 영어의 모든 빈도 빈에서 99% 이상의 정확도를 달성합니다. 단 20개의 예만 볼 수 있지만 프롬프트에서(T5는 1000개의 미세 조정된 예를 표시함) 그러나 PaLM은 다른 언어에서는 성능이 더 나빴습니다. 아마도 해당 언어에 대한 사전 훈련 데이터가 훨씬 적기 때문일 것입니다. ByT5의 실험에서는 문자 인식 모델이 더욱 강력한 철자 능력을 발휘하는 것으로 나타났습니다. 기본 및 대형 크기에서 ByT5의 성능은 XL 및 XXL보다 약간 뒤처졌지만(여전히 90% 범위 내에 있지만) 단어의 빈도는 ByT5의 철자 능력에 큰 영향을 미치지 않는 것으로 보입니다. ByT5의 철자 성능은 (m)T5의 결과를 훨씬 능가하고, 심지어 100배 더 많은 매개변수를 갖춘 PaLM의 영어 성능과 비교할 수 있으며, 다른 언어에서의 PaLM 성능을 능가합니다. ByT5 인코더는 상당한 문자 수준 정보를 보유하고 있으며 이 정보는 디코딩 작업의 필요에 따라 고정된 매개변수에서 검색할 수 있음을 알 수 있습니다. 2014년 공개된 COCO 데이터 세트부터 2022년 DrawBench 벤치마크, FID, CLIP 점수, 인간 선호도 및 기타 지표에 이르기까지 Text-to-Image 모델을 평가하는 방법은 중요한 연구 주제였습니다. 하지만 텍스트 렌더링 및 맞춤법 평가에 대한 관련 작업이 부족했습니다. 이를 위해 연구원들은 텍스트-이미지 모델의 텍스트 렌더링 품질을 종합적으로 측정하는 것을 목표로 하는 새로운 벤치마크인 DrawText를 제안합니다. DrawText 벤치마크는 모델 기능의 다양한 차원을 측정하는 두 부분으로 구성됩니다. 1) DrawText Spell은 대규모 영어 단어 모음에 대한 일반 단어 렌더링으로 평가됩니다. 연구원들이 시작했습니다. 영어 WikiSpell 빈도 버킷에서 각각 100개의 단어를 가져와 표준 템플릿에 삽입하여 총 500개의 프롬프트가 구성되었습니다. 각 프롬프트마다 후보 모델로부터 4개의 이미지가 추출되고 인간 평가 및 OCR(광학 문자 인식) 기반 메트릭을 사용하여 평가됩니다. 2) DrawText Creative, 시각 효과의 텍스트 렌더링을 통해 평가됩니다. 시각적 텍스트는 거리 표지판과 같은 일반적인 장면에만 국한되지 않고 낙서, 그림, 조각, 조각 등 다양한 형태로 나타날 수 있습니다. 이미지 생성 모델이 유연하고 정확한 텍스트 렌더링을 지원한다면 디자이너는 이러한 모델을 사용하여 창의적인 글꼴, 로고, 레이아웃 등을 개발할 수 있습니다. 이러한 사용 사례를 지원하는 이미지 생성 모델의 기능을 테스트하기 위해 연구원들은 전문 그래픽 디자이너와 협력하여 텍스트를 다양한 창의적인 스타일과 설정으로 렌더링해야 하는 175개의 다양한 프롬프트를 구축했습니다. 최첨단 모델에서는 철자가 틀리거나 단어가 누락되거나 반복되는 등 많은 단서가 현재 모델의 기능을 뛰어넘습니다. 실험 결과 DrawText Spell 벤치마크의 정확도 측면에서 비교에 사용된 9개의 이미지 생성 모델 중 문자 인식 모델(ByT5 및 Concat)이 성능에 상관없이 다른 모델보다 우수한 것으로 나타났습니다. 모델 크기, 특히 흔하지 않은 단어의 경우. Imagen-AR은 자르기 방지의 이점을 보여주며, 훈련 시간이 6.6배 더 오래 걸리더라도 여전히 문자 인식 모델보다 성능이 떨어집니다. 모델 간의 또 다른 분명한 차이점은 여러 샘플에서 특정 단어의 철자를 일관되게 틀리는지 여부입니다. 실험 결과에서 볼 수 있듯이, 얼마나 많은 샘플을 추출하더라도 T5 모델에는 철자가 틀린 단어가 많이 있으며, 이는 연구원들이 텍스트 인코더의 문자 지식이 부족함을 나타냅니다. 이에 비해 ByT5 모델은 기본적으로 산발적인 오류만 발생합니다. 이 관찰은 모델이 4개의 이미지 샘플 모두에서 일관되게 정확하거나(4/4) 일관적으로 부정확한(0/4) 비율을 측정하여 정량화할 수 있습니다. 특히 일반적인 단어(상위 1%)에서 뚜렷한 대조를 볼 수 있습니다. 즉, ByT5 모델은 일관되게 틀린 적이 없는 반면 T5 모델은 10% 이상의 단어에서 계속 틀린 것을 볼 수 있습니다. . WikiSpell Benchmark
DrawText Benchmark
이미지 생성 실험
위 내용은 무식한 화가가 되지 마세요! Google은 마술처럼 '텍스트 인코더'를 수정했습니다. 작은 작업으로 이미지 생성 모델이 '철자법'을 학습할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!