노이즈 제거 확산 모델은 반복적인 노이즈 제거 프로세스를 통해 훈련 분포에서 이미지를 생성하는 생성 신경망의 새로운 클래스입니다. 이러한 유형의 확산 모델은 더 높은 품질의 샘플을 생성하며 GAN 및 VAE와 같은 이전 방법보다 확장 및 제어가 더 쉽습니다. 그 결과, 급속한 발전 끝에 이미 고해상도의 영상을 제작할 수 있게 되었고, DALL-E 2와 같은 대형 모델에 대한 대중의 관심도 크다.
생성 확산 모델의 장점은 표면적으로는 훈련 세트의 어떤 것과도 다른 새로운 이미지를 합성하는 능력에 있습니다. 실제로 과거의 대규모 훈련 노력에서는 과적합이 문제가 될 것이라는 점을 발견하지 못했습니다. 개인 정보 보호에 민감한 분야의 연구자들은 확산 모델을 사용하여 실제 이미지를 생성하는 합성 사례를 생성함으로써 개인 정보를 보호할 수 있다고 제안했습니다. 이 일련의 작업은 확산 모델이 훈련 데이터를 기억하고 재생성하지 않는다는 가정하에 수행됩니다. 그렇게 하면 모든 개인 정보 보호 보장을 위반하고 모델 일반화 및 디지털 위조와 관련된 많은 문제가 발생합니다.
이 기사에서 Google, DeepMind 및 기타 기관의 연구원들은 SOTA 확산 모델이 실제로 단일 교육 사례를 기억하고 재생성할 수 있음을 입증했습니다.
논문 주소: https://arxiv.org/pdf/2301.13188v1.pdf
우선, 본 연구에서는 이미지 모델에서 메모리에 대한 새로운 정의를 제안하고 구현합니다. 그런 다음 연구에서는 표준 방법을 사용하여 이미지를 생성하고 일부 이미지에 레이블을 지정하는 2단계 데이터 추출 공격을 설계했습니다. 연구에서는 이 방법을 Stable Diffusion 및 Imagen에 적용하여 개인 식별이 가능한 사진과 상표 로고가 모두 포함된 100개 이상의 거의 동일한 교육 이미지 복사본을 추출했습니다(그림 1).
메모리가 작동하는 방식과 그 이유를 더 잘 이해하기 위해 연구원들은 CIFAR10에서 수백 개의 확산 모델을 훈련하여 모델 정확도, 하이퍼 매개변수, 향상 및 중복 제거가 개인 정보 보호 영향에 미치는 영향을 분석했습니다. 확산 모델은 연구에서 평가된 이미지 모델 중 가장 비공개적인 형태로 GAN보다 두 배나 많은 훈련 데이터를 유출합니다. 더 나쁜 것은 기존의 개인 정보 보호 강화 기술이 허용 가능한 개인 정보 보호 유틸리티 균형을 제공하지 못한다는 연구 결과도 있습니다. 전반적으로 이 문서는 점점 더 강력해지는 생성 모델과 데이터 개인 정보 보호 사이에 존재하는 긴장을 강조하고 확산 모델의 작동 방식과 적절하게 배포할 수 있는 방법에 대한 질문을 제기합니다.
확산 모델이 훈련 데이터를 기억하고 재생성하는 방법을 이해하는 데에는 두 가지 동기가 있습니다.
첫 번째는 개인 정보 보호 위험을 이해하는 것입니다. 인터넷에서 데이터를 긁어내는 확산 모델을 재생성하면 언어 모델과 유사한 개인 정보 보호 및 저작권 위험이 발생할 수 있습니다. 예를 들어, 저작권이 있는 텍스트와 소스 코드를 기억하고 재생성하는 것은 침해의 잠재적인 지표가 된다는 점이 지적되었습니다. 마찬가지로, 전문 예술가가 만든 이미지를 복제하는 것을 디지털 위조라고 하는데, 이에 대해 미술계에서는 논쟁이 벌어지고 있다.
두 번째는 일반화를 이해하는 것입니다. 데이터 개인 정보 보호 외에도 확산 모델이 교육 데이터를 기억하는 방법과 이유를 이해하면 일반화 능력을 이해하는 데 도움이 됩니다. 예를 들어, 대규모 생성 모델에 대한 일반적인 질문은 인상적인 결과가 실제 생성에서 나온 것인지 아니면 훈련 데이터를 직접 복사하고 리믹스한 결과인지 여부입니다. 기억을 연구함으로써 생성 모델이 이러한 종류의 데이터 복제를 수행하는 속도에 대한 구체적인 경험적 설명을 제공하는 것이 가능합니다.
Stable Diffusion에서 데이터 추출
이제 가장 크고 인기 있는 오픈 소스 확산 모델인 Stable Diffusion에서 학습 데이터를 추출해 보세요.
이 추출은 다음 두 단계를 포함하여 이전 작업 방법을 이미지에 적용합니다.
1 표준 샘플링으로 확산 모델을 사용하고 이전 섹션에서 알려진 프롬프트를 사용하여 여러 예제를 생성합니다.
2. 추론을 수행하고 기억된 훈련 모델에서 차세대 모델을 분리합니다.
침입의 효과를 평가하기 위해 연구에서는 훈련 데이터세트에서 가장 많이 반복되는 예 350,000개를 선택하고 각 프롬프트에 대해 500개의 후보 이미지를 생성했습니다(총 1억 7,500만 개의 이미지 생성).
먼저 연구에서는 생성된 모든 이미지를 정렬하여 훈련 데이터를 기억하여 생성된 이미지를 결정합니다. 생성된 각 이미지는 논문의 정의 1에 따른 훈련 이미지와 비교되며, 각 이미지에는 추출 여부에 대한 주석이 추가됩니다. 연구에서는 이러한 이미지가 임의의 정의에 맞지 않는지 확인하기 위해 메모리 유무에 관계없이 시각적 분석을 통해 생성된 처음 1,000개의 이미지와 또 다른 13개(총 109개의 이미지)에 수동으로 주석을 달았습니다. 연구 L_2 규범 정의를 충족하지 않았음에도 불구하고 훈련 예제의 거의 복사본인 것으로 나타났습니다. 그림 3은 거의 완벽한 픽셀 정확도로 재현된 추출된 이미지의 하위 집합을 보여줍니다.
실험은 또한 주석이 달린 정렬된 이미지 세트에 대해 추출된 이미지 수와 침입 오탐률을 평가하기 위한 계산 곡선을 제공합니다. 침입은 믿을 수 없을 정도로 정확합니다. 생성된 1억 7,500만 개의 이미지 중에서 오탐이 0인 메모리 이미지 50개를 식별할 수 있으며 모든 메모리 이미지를 50% 이상의 정확도로 추출할 수 있습니다. 그림 4에는 두 가지 메모리 정의에 대한 정밀도-재현율 곡선이 포함되어 있습니다.
이미지에서 데이터 추출
Stable Diffusion은 현재 공개적으로 사용 가능한 확산 모델 중에서 가장 좋은 선택이지만 일부 비공개 모델은 더 큰 모델과 데이터 세트를 사용하여 얻었습니다. 더 뛰어난 성능. 이전 연구에서는 더 큰 모델이 훈련 데이터를 기억할 가능성이 더 높다는 것을 발견했습니다. 따라서 이 연구에서는 20억 매개변수의 텍스트-이미지 확산 모델인 Imagen을 살펴보았습니다.
놀랍게도 연구에 따르면 Imagen에서 비분산 이미지를 해킹하는 것이 Stable Diffusion보다 더 효과적인 것으로 나타났습니다. Imagen에서 연구에서는 OOD(Out-of-Distribution) 점수가 가장 높은 500개의 이미지를 추출하려고 했습니다. Imagen은 훈련 데이터 세트에서 고유한 이미지 3개를 기억하고 복사합니다. 반면 Stable Diffusion에 동일한 방법을 적용한 연구에서는 가장 이상치인 10,000개의 샘플을 추출해 보았음에도 어떤 기억도 식별하지 못했습니다. 따라서 Imagen은 복사된 이미지와 복사되지 않은 이미지 모두에서 Stable Diffusion보다 덜 비공개입니다. 이는 Imagen이 Stable Diffusion보다 더 큰 모델을 사용하므로 더 많은 이미지를 기억하기 때문일 수 있습니다. 또한 Imagen은 더 작은 데이터 세트에서 더 많은 반복을 통해 학습하므로 메모리 수준을 향상시키는 데도 도움이 될 수 있습니다.
위 내용은 작은 트릭을 사용하여 확산 모델을 발굴하면 생성된 이미지가 훈련 데이터를 거의 복사하므로 개인 정보가 노출됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!