새로운 GTA 게임 예고편을 보셨나요? 이 예고편은 기네스 세계 기록 3개를 깨고 조회수 1억 회 이상을 기록했다고 합니다.
"Grand Theft Auto" 게임에서도 세 명의 거대 AI가 역할을 맡을 수 있다고 했는데도 이들을 구분할 수 있나요?
AI의 빅 3: Yann LeCun, Geoffrey Hinton 및 Yoshua Bengio.
이 사진은 Tencent의 FaceStudio AI 모델을 사용하여 합성하여 GTA 스타일의 효과를 보여줍니다. 이 AI 모델의 독창성은 널리 사용되는 "AI 사진"기술을 더 높은 수준으로 끌어 올린 뛰어난 문자 인식에 있습니다
오늘날 인공 지능 기술의 급속한 발전 속에서 AI 사진 촬영은 AI 기술의 인기 방향이 되었습니다. 응용 프로그램. AI+이미지 애플리케이션 분야에서는 Miaoya Camera와 같은 AI 사진 제품이 큰 잠재력과 인기를 입증했습니다. Miaoya 카메라는 출시 후 불과 몇 주 만에 소셜 미디어에서 많은 관심을 끌었으며, 빠른 성장은 이 시장의 엄청난 잠재력을 부각시킵니다. 그럼에도 불구하고 많은 AI 사진 촬영 제품에는 여전히 기술적 한계가 있습니다. 예를 들어 사용자는 차이가 큰 여러 장의 사진을 업로드해야 하고 합성 효과를 얻으려면 오랜 시간을 기다려야 하며 이는 의심할 여지 없이 사용자 경험에 영향을 미칩니다.
인공지능이 주도하는 이미지 혁신의 물결 속에서 Tencent의 최신 연구 결과인 FaceStudio는 한층 더 발전된 기술적 혁신을 보여줍니다. 본 연구는 초상화를 신속하게 합성하는 데 중점을 둘 뿐만 아니라, 인물의 고유성과 인지도를 유지하면서 미학적 요구를 충족시키기 위해 초상화의 정체성 정보를 유지하는 데 더 중점을 두었습니다. 오픈 소스 알고리즘 StableDiffusion의 핵심 장점을 계승할 뿐만 아니라 여러 핵심 기능을 혁신적으로 개선합니다. 가장 눈길을 끄는 점은 특히 여러 사람이 함께 찍은 사진과 양식화된 이미지를 처리할 때 하이브리드 안내를 사용하는 능력입니다. 캐릭터 이미지 합성이 이루어집니다. 기존 AI 영상합성 기술은 시각적 아름다움을 추구하면서 캐릭터의 독창성과 인지도를 희생하는 경우가 많았다. 그러나 FaceStudio는 고급 하이브리드 안내 메커니즘을 통해 이미지 생성 시 텍스트 단서, 스타일 이미지, 아이덴티티 이미지를 동시에 고려할 수 있으므로 개인의 특성을 유지하면서 다양한 스타일 전환이 가능합니다. 이는 기술의 획기적인 발전일 뿐만 아니라 사용자에게 더욱 풍부하고 개인화된 이미지 합성 옵션을 제공합니다.
또한 FaceStudio의 고유한 다중 ID 교차 주의 메커니즘은 여러 사람이 포함된 이미지를 처리하는 데 특히 효과적입니다. 전통적인 방법은 이러한 이미지를 처리할 때 각 사람의 특성을 정확하게 구별하고 유지해야 하는 문제에 자주 직면합니다. 하지만 FaceStudio의 이러한 메커니즘은 서로 다른 아이덴티티의 특징 정보를 이미지의 해당 부분에 정확하게 매핑할 수 있어 각 캐릭터의 고유성과 전체적인 스타일의 조화를 유지하는 데 탁월합니다.
FaceStudio는 다양하고 흥미로운 얼굴 관련 애플리케이션을 지원합니다.
문서 주소: https://arxiv.org/abs/2312.02663
FaceStudio의 핵심 기능 중 하나는 하이브리드 부트스트랩 디자인입니다. 팀은 모델이 이미지와 텍스트 단서를 동시에 수신하여 특정 아이덴티티 특성을 가진 이미지를 생성할 수 있는 독특한 접근 방식을 사용했습니다. 이미지 프롬프트 기반 안내 모듈에는 두 개의 하위 모듈이 포함되어 있습니다:
스타일화된 이미지의 시각적 특징과 얼굴 이미지의 아이덴티티 특징을 추출한 후 이 두 가지 특징을 융합합니다. 이 단계는 두 기능을 결합하여 포괄적인 안내 기능을 생성하는 선형 레이어를 통해 수행됩니다. 이 방식의 장점은 캐릭터의 아이덴티티를 유지할 뿐만 아니라 특정 스타일과 콘텐츠를 이미지 생성 과정에 반영한다는 것입니다
FaceStudio에는 이미지 안내 기능뿐만 아니라 텍스트 안내 기능도 통합되어 있습니다. 이 기능은 사전 훈련된 PriorTransformer 모델을 사용하여 달성됩니다. 모델은 CLIP 텍스트 기능을 해당 CLIP 시각적 기능에 매핑할 수 있습니다. 그런 다음 이미지 프롬프트 안내 모듈과 유사하게 이러한 시각적 기능이 신원 인식 모듈의 기능과 결합되어 텍스트 프롬프트에 응답할 수 있는 포괄적인 안내 기능을 형성합니다. 마지막으로 두 가지 프롬프트 기능에 가중치를 부여하고 융합하여 하이브리드 안내를 구현합니다
다시 작성해야 할 콘텐츠는 Facebook Studio의 아키텍처 다이어그램
다인원 이미지 합성
Tencent 팀이 개발한 FaceStudio 프레임워크에는 '여러 사람 이미지 처리' 부분이라는 핵심 혁신이 있습니다. 이 섹션에서는 각 사람이 최종 이미지에서 고유한 정체성을 유지할 수 있도록 단일 이미지에 여러 사람의 인물 사진을 합성하는 데 중점을 둡니다. 여러 사람이 포함된 이미지에 직면하면 FaceStudio는 특별한 주의 메커니즘을 사용합니다. 이 메커니즘은 이미지 합성 과정에서 각 문자 영역의 특징이 해당 신원 정보에만 액세스하도록 보장합니다. 이는 모델이 각 캐릭터의 신원을 정밀하게 제어하여 최종 이미지에 올바르게 나타나도록 보장할 수 있음을 의미합니다. 이러한 정밀한 제어를 달성하기 위해 Tencent 팀은 캐릭터 인스턴스 분할 모델을 사용했습니다. 이 모델은 이미지에서 다양한 사람을 식별하고 각 사람의 지역을 해당 신원 특징과 연관시킬 수 있습니다. 이러한 방식으로 모델은 이미지를 합성할 때 각 캐릭터의 신원 정보가 올바르게 안내되도록 할 수 있습니다
여러 사람 이미지 생성에 대한 FaceStudio와 기본 알고리즘의 효과 비교
훈련 전략
Tencent 팀은 인간 이미지 재구성을 목표로 하는 FaceStudio의 교육 전략을 설계했습니다. 이 접근 방식을 사용하면 마스크된 얼굴 영역이 있는 원본 이미지를 양식화된 인간 이미지에 대한 입력으로 사용하고 동시에 동일한 이미지에서 잘린 얼굴을 신원에 대한 입력으로 사용합니다. 이러한 방식으로 모델은 안내 이미지 생성 시 인물의 신원을 보다 정확하게 보존할 수 있습니다. 기존 생성 모델 학습 방법과 달리 이 방법은 인물 사진에만 학습 데이터를 의존하고 텍스트 주석이 필요하지 않아 주석 데이터에 대한 의존도가 크게 줄어듭니다. 다양한 스타일의 인물 사진에 더 잘 적응할 수 있습니다
FaceStudio는 얼굴 유사성과 인물 생성 시간을 평가하여 고유한 장점을 보여줍니다. 실험 결과에 따르면 FaceStudio는 단일 인물 사진을 생성하는 데 4초 미만이 소요되는 반면, 최적화 기반의 널리 사용되는 알고리즘인 DreamBooth는 최대 6분이 소요되는 것으로 나타났습니다. 동시에 FaceStudio는 인물 사진 기능을 더 잘 유지하고 얼굴 유사성이 더 좋습니다. 실험 결과는 다음과 같이 비교됩니다.
연구원들은 샘플과 동일한 이미지를 사용하여 FaceStudio를 현재 최고의 인물 생성 모델 알고리즘과 비교했습니다. 비교 결과에 따르면 FaceStudio는 거의 모든 샘플에서 더 좋거나 동일한 수준의 결과를 얻었습니다. 이는 FaceStudio가 강력한 견고성과 일반화 성능을 갖추고 있음을 더욱 입증합니다. 구체적인 비교 결과는 다음과 같습니다.
또한 FaceStudo의 실험에서는 ID 블렌딩 및 텍스트 이미지 블렌딩 가이드 생성을 포함하여 다양한 고유한 얼굴 이미지 생성 애플리케이션이 시연되었습니다.
텍스트와 이미지 혼합 안내 이미지 생성 실험
FaceStudio에서 생성된 인물 샘플은 다양한 스타일을 가지고 있습니다
요약
요약하자면 FaceStudio 로고의 등장은 개인화 이미지 생성 분야에서 한발 더 나아가겠습니다. 캐릭터 아이덴티티를 유지하면서 풍부한 스타일 지정 및 텍스트 기반 이미지 생성 옵션을 제공합니다. 이 기능은 예술 창작 및 엔터테인먼트 산업에 큰 가치를 부여할 뿐만 아니라 광고, 디지털 미디어 제작, 개인화된 콘텐츠 제작과 같은 분야에서도 중요한 역할을 할 수 있습니다. FaceStudio는 이미지의 아이덴티티와 스타일을 정밀하게 제어함으로써 이미지 생성 기술의 미래 발전을 위한 새로운 길을 열어 이 분야의 혁신과 변화를 예고합니다
위 내용은 GTA6 예고편은 10억 번 이상 재생되었으며 AI 거인은 빠르게 GTA 갱스터 역할에 들어갈 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!