최근 몇 년 동안 컴퓨터 비전 분야의 세대 기술은 점점 더 강력해졌고 이에 상응하는 "위조" 기술은 점점 더 성숙해졌습니다. DeepFake 얼굴 변경부터 동작 시뮬레이션까지 구별하기가 어렵습니다. 가짜와 진짜.
최근 NVIDIA는 NeurIPS 2022 컨퍼런스에서 소스 이미지 세트와 구동 비디오 모션을 사용하는 새로운 암시적 워핑 프레임워크를 출시했습니다. .
논문 링크: https://arxiv.org/pdf/2210.01794.pdf
효과 측면에서 보면 생성된 이미지가 더 사실적이며, 동영상에서 캐릭터가 움직이고,배경에는 변화가 없습니다.
입력된 여러 소스 이미지는 일반적으로다른 모양 정보를 제공하여 생성기의 “환상” 공간을 줄입니다. 예를 들어 다음 두 가지를 모델 입력으로 사용합니다.
다른 모델에 비해 암시적 왜곡은 미용 효과와 유사한 "공간 왜곡"을 생성하지 않는 것을 확인할 수 있습니다.사람이 가려져 있기 때문에 여러 소스 이미지를 사용하면
더 완벽한 배경을 제공할 수도 있습니다.
아래 영상을 보시면 아시겠지만 왼쪽에 사진이 한장밖에 없다면배경뒤가 "BD"인지 "ED"인지 추측이 어렵습니다. 배경이 왜곡되어 두 장의 사진이 더욱 안정적인 이미지를 생성합니다.
다른 모델과 비교할 때 원본 이미지 하나만 사용하는 효과가 더 좋습니다.
Magic Implicit Distortion
학계에서의 비디오 모방은 2005년으로 거슬러 올라갑니다. 많은 프로젝트에는 얼굴 재현의 실시간 표현 전송, Face2Face, 합성 Obama, Recycle-GAN, ReenactGAN, 동적 신경 방사선 분야가 포함됩니다. GAN(Generative Adversarial Networks), NeRF(Neural Radiation Fields) 및 오토인코더와 같은 당시 몇 가지 제한된 기술의 사용을 다양화했습니다.모든 방법이 단일 이미지 프레임에서 동영상을 생성하려는 것은 아닙니다. 동영상의 각 프레임에 대해 복잡한 계산을 수행하는 일부 연구도 있습니다. 이는 실제로 Deepfake가 취하는 모방 경로입니다.
그러나 DeepFake 모델은 더 적은 정보를 획득하기 때문에 이 방법은 각 비디오 클립에 대한 훈련이 필요하며, 다수의 ID에 ID를 부여할 수 있는 DeepFaceLab 또는 FaceSwap의 오픈 소스 방법에 비해 성능이 저하됩니다. 비디오 클립.
2019년에 출시된 FOMM 모델은 캐릭터가 영상과 함께 움직일 수 있어 영상 모방 작업에 또 다른 기회를 줍니다.
이후 다른 연구자들은 단일 얼굴 이미지 또는 전신 표현에서 다양한 포즈와 표정을 얻으려고 시도했지만, 이 방법은 일반적으로 비교적 가만히 있는 "말하는" 머리와 같이 상대적으로 무표정하고 움직이지 않는 피사체에만 적용됩니다. 왜냐하면 네트워크가 해석해야 하는 얼굴 표정이나 몸짓에 '갑작스러운 행동 변화'가 없기 때문입니다.
이러한 기술과 방법 중 일부는 딥페이크 기술과 잠재적인 확산 이미지 합성 방법이 대중화되기 전에 대중의 관심을 받았지만 적용 범위가 제한되고 다양성에 의문이 제기됩니다.
이번에 NVIDIA가 중점을 두는 암시적 왜곡은 한 프레임에서 필요한 모든 자세 정보를 얻는 것이 아니라 여러 프레임 사이 또는 심지어 두 프레임 사이에서만 정보를 얻는 것입니다. 이 설정은 다른 경쟁 모델에도 없습니다. , 또는 매우 제대로 처리되지 않습니다.
예를 들어 디즈니의 워크플로는 선배 애니메이터들이 메인 프레임과 키 프레임을 그리고 다른 후배 애니메이터들이 중간 프레임을 그리는 방식입니다. NVIDIA 연구진은 이전 버전에 대한 테스트를 통해 이전 방식의 경우 "키 프레임"이 추가되면 결과 품질이 저하되는 반면, 새로운 방식은 키 프레임 수가 증가함에 따라 애니메이션 제작 논리와 일치한다는 사실을 발견했습니다. , 숫자가 증가할수록 성능도 선형적으로 향상됩니다. 시작 프레임이나 끝 프레임에 표시되지 않는 이벤트나 표현 등 클립 중간에 갑작스러운 변화가 있는 경우 암시적 왜곡이 이 중간 지점에 프레임을 추가할 수 있으며 추가 정보는 전체 클립의 주의 메커니즘으로 다시 피드백됩니다. FOMM, Monkey-Net 및 Face-vid2vid와 같은 이전 방법은 명시적 워핑을 사용하여 시계열을 그리며 원본 얼굴 및 제어 동작에서 추출된 정보는 이에 적응되고 일관되어야 합니다. 시계열. 이 모델 디자인에서는 핵심 포인트의 최종 매핑이 상당히 엄격합니다. 반대로 암시적 워핑은 워크플로에 포함된 사전 정의된 부트스트래핑이 더 적은 크로스 모달 어텐션 레이어를 사용하며 여러 프레임워크의 입력에 적응할 수 있습니다. 워크플로에서는 키별로 왜곡이 필요하지 않으며 시스템은 일련의 이미지에서 가장 적절한 기능을 선택할 수 있습니다. 암시적 워핑은 FOMM 프레임워크의 일부 키포인트 예측 구성요소를 재사용하고 마지막으로 간단한 U-net을 사용하여 파생된 공간 기반 키포인트 표현을 인코딩합니다. 별도의 U-net은 파생된 공간 표현과 함께 소스 이미지를 인코딩하는 데 사용됩니다. 두 네트워크 모두 64px(256px 제곱 출력)에서 384x384px 범위의 해상도에서 작동할 수 있습니다. 이 메커니즘은 특정 비디오에서 가능한 모든 포즈 및 움직임 변화를 자동으로 설명할 수 없기 때문에 추가 키프레임이 필요하며 임시적으로 추가할 수 있습니다. 이러한 개입 기능이 없으면 대상 동작 지점과 충분히 유사하지 않은 키가 자동으로 업데이트되어 출력 품질이 저하됩니다. 이에 대한 연구원의 설명은 주어진 키프레임 세트에서 쿼리와 가장 유사한 키이지만 좋은 출력을 생성하기에는 충분하지 않을 수 있다는 것입니다. 예를 들어 원본 이미지에는 입술을 다물고 있는 얼굴이 있고, 운전자 이미지에는 입술을 벌리고 치아가 노출된 얼굴이 있다고 가정해 보겠습니다. 이 경우 원본 이미지에는 이미지의 입 영역을 구동할 적절한 키(및 값)가 없습니다. 이 방법은 소스 이미지의 정보 부족에 대처할 수 있는 이미지 독립적인 키-값 쌍을 추가로 학습하여 이 문제를 극복합니다. 현재 구현은 512x512픽셀 이미지에서 약 10FPS로 매우 빠르지만 연구원들은 향후 버전에서는 인수분해된 I-D 주의 계층 또는 SRA(Spatial Reduced Attention) 계층(예: 피라미드 시각적 개체)을 사용하여 파이프라인을 개선할 수 있다고 믿습니다. Transformer)를 최적화합니다. 암시적 워핑은 Local Attention 대신 Global Attention을 사용하기 때문에 이전 모델이 예측할 수 없었던 요소를 예측할 수 있습니다. 연구원들은 VoxCeleb2 데이터 세트, 더 까다로운 TED Talk 데이터 세트 및 TalkingHead-1KH 데이터 세트에서 시스템을 테스트하여 256x256px과 전체 512x512px 해상도 사이의 기준선을 비교했습니다. 사용된 측정 항목에는 FID, AlexNet 기반 LPIPS가 포함됩니다 및 피크 신호 대 잡음비(pSNR). 테스트에 사용된 비교 프레임워크에는 AA-PCA뿐만 아니라 FOMM 및 Face-vid2vid도 포함됩니다. 이전 방법에는 여러 키프레임을 사용할 수 있는 기능이 거의 또는 전혀 없었기 때문에 이는 암시적 왜곡의 주요 혁신이기도 합니다. 테스트 방법. 암시적 워핑은 대부분의 측정항목에서 대부분의 대조 방법보다 성능이 뛰어납니다. 연구원들이 최대 180개 프레임의 시퀀스와 선택된 간격 프레임을 사용한 다중 키프레임 재구성 테스트에서 이번에는 암시적 왜곡이 전반적으로 승리했습니다. 소스 이미지의 수가 증가할수록 이 방법은 더 나은 재구성 결과를 얻을 수 있으며 모든 지표의 점수가 향상됩니다. 그리고 소스 이미지의 수가 늘어날수록 기대와는 달리 전작의 재구성 효과가 더욱 심해집니다. AMT 직원을 통해 정성적 연구를 진행한 결과 암묵적 변형의 생성 결과가 다른 방법보다 강력하다고 판단됩니다. 이 프레임워크에 액세스하면 사용자는 더 일관되고 긴 비디오 시뮬레이션과 전신 딥페이크 비디오를 제작할 수 있으며, 모두 시스템이 실험한 어떤 프레임워크보다 더 나은 성능을 보여줄 수 있습니다. 와. 운동 범위가 훨씬 넓어졌습니다. 그러나 보다 사실적인 이미지 합성에 대한 연구는 우려를 불러일으킵니다. 왜냐하면 이러한 기술은 위조에 쉽게 사용될 수 있고 논문에 표준 면책조항이 있기 때문입니다. 저희 방법을 사용하여 DeepFake 제품을 만드는 경우 부정적인 결과를 초래할 수 있습니다. 악성 음성 합성은 신원 간 허위 정보를 전송 및 전송함으로써 사람에 대한 허위 이미지를 생성하여 신원 도용이나 허위 뉴스 확산으로 이어집니다. 그러나 통제된 환경에서는 동일한 기술을 오락 목적으로도 사용할 수 있습니다. 또한 이 논문에서는 재구성 노력이 주로 클라이언트 측에 집중되어 상대방의 희박한 모션 정보를 활용하는 Google의 Project Starline과 같은 신경 비디오 재구성을 위한 이 시스템의 잠재력을 지적합니다. 이 솔루션은 연구 커뮤니티의 관심을 점점 더 끌고 있으며, 순수한 모션 데이터 또는 성긴 간격의 키프레임을 전송하여 낮은 대역폭 전화 회의를 구현하려는 회사도 있습니다. 이는 대상 클라이언트에 도달할 때 해석됩니다. . 풀 HD 비디오에 삽입됩니다. 모델 구조
실험 결과
위 내용은 DeepFake가 이렇게 현실적이었던 적은 없었습니다! Nvidia의 최신 "암시적 왜곡"은 얼마나 강력합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!