기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

王林

Apr 08, 2023 pm 02:21 PM

ai영상gan

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

논문 주소: https://www.aaai.org/AAAI22Papers/AAAI-7931.LiC.pdf
저자 소속: Institute of Computing Technology, Chinese Academy of Sciences, Shanghai Jiao Tong University, Zhijiang Laboratory

연구 배경 및 연구 과제

생성적 적대 네트워크(GAN)는 고해상도 이미지 생성에 큰 성공을 거두었으며, 최근 몇 년간 해석 가능성에 대한 연구도 폭넓은 주목을 받았습니다.

이 분야에서 GAN이 분리된 표현을 학습하도록 하는 방법은 여전히 중요한 과제입니다. 소위 GAN의 분리된 표현은 표현의 각 부분이 생성된 이미지의 특정 측면에만 영향을 미친다는 것을 의미합니다. GAN의 분리된 표현에 대한 이전 연구는 다양한 관점에 중점을 두었습니다.

예를 들어 아래 그림 1에서 방법 1은 이미지의 구조와 스타일을 분리합니다. 방법 2는 이미지에 있는 로컬 객체의 특징을 학습합니다. 방법 3은 얼굴 이미지의 연령 속성, 성별 속성 등 이미지 속 속성의 분리된 특징을 학습합니다. 그러나 이러한 연구는 다양한 시각적 개념(예: 눈, 코, 입과 같은 얼굴 부분)에 대해 GAN에서 명확하고 상징적인 표현을 제공하지 못했습니다.

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

그림 1: 다른 GAN 분리 특성화 방법과의 시각적 비교

이를 위해 연구원들은 전통적인 GAN을 해석 가능한 GAN 일반 방법으로 수정하는 방법을 제안했습니다. 이는 생성기의 중간 계층에 있는 컨볼루션 커널이 분리된 로컬 시각적 개념을 학습할 수 있도록 보장합니다. 구체적으로, 아래 그림 2에서 볼 수 있듯이 전통적인 GAN과 비교하여 해석 가능한 GAN의 중간 계층에 있는 각 컨볼루션 커널은 항상 다른 이미지를 생성할 때 특정 시각적 개념을 나타내며, 다른 컨볼루션 커널은 다른 비전을 나타냅니다.

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

그림 2: 해석 가능한 GAN과 기존 GAN 인코딩 표현의 시각적 비교

모델링 방법

해석 가능한 GAN 학습은 다음 두 가지 목표를 충족해야 합니다. Convolution 커널의 해석 가능성 및 생성된 이미지의 신뢰성 .

컨볼루션 커널의 해석성: 연구원들은 중간 계층의 컨볼루션 커널이 시각적 개념에 대한 수동 주석 없이 자동으로 의미 있는 시각적 개념을 학습할 수 있기를 바라고 있습니다. 구체적으로 각 컨볼루션 커널은 서로 다른 이미지를 생성할 때 동일한 시각적 개념에 해당하는 이미지 영역을 안정적으로 생성해야 합니다. 다양한 컨볼루션 커널은 다양한 시각적 개념에 해당하는 이미지 영역을 생성해야 합니다.

생성된 이미지의 신뢰성: 해석 가능한 GAN 생성기는 여전히 현실적인 이미지를 생성할 수 있습니다.

따라서 그들은 특정 시각적 개념을 공동으로 표현하기 위해 컨볼루션 커널 세트를 사용하고, 서로 다른 시각적 개념을 각각 표현하기 위해 서로 다른 컨볼루션 커널 세트를 사용합니다.

생성된 이미지의 신뢰성을 동시에 보장하기 위해 연구원들은 전통적인 GAN을 해석 가능한 GAN으로 수정하기 위해 다음과 같은 손실 함수를 설계했습니다.

전통적인 GAN의 손실: 이 손실은 생성된 이미지의 신뢰성을 보장하는 데 사용됩니다.
컨볼루션 커널 파티션 손실: 생성기가 주어지면 이 손실은 다음을 찾는 데 사용됩니다. 볼륨 동일한 그룹의 컨볼루션 커널이 비슷한 이미지 영역을 생성하는 방식으로 커널이 나누어집니다. 특히 GMM(Gaussian Mixture Model)을 사용하여 각 그룹의 컨볼루션 커널의 기능 맵이 유사한 신경 활성화를 갖도록 컨볼루션 커널을 나누는 방법을 학습합니다.
에너지 모델 현실 손실 대상 레이어 커널이 분할되는 방식을 고려할 때 동일한 그룹의 각 커널이 동일한 시각적 개념을 생성하도록 강제하면 결과 이미지의 품질이 저하될 수 있습니다. 생성된 이미지의 신뢰성을 더욱 보장하기 위해 에너지 모델을 사용하여 대상 레이어의 특징 맵의 신뢰성 확률을 출력하고 최대 우도 추정을 사용하여 에너지 모델의 매개변수를 학습합니다. 컨볼루션 커널 해석성 손실
: 대상 계층의 컨볼루션 커널 분할 방법을 고려할 때 이 손실은 컨볼루션 커널의 해석성을 더욱 향상시키는 데 사용됩니다. 특히 이러한 손실로 인해 동일한 그룹의 각 컨볼루션 커널은 동일한 이미지 영역을 고유하게 생성하는 반면, 서로 다른 그룹의 컨볼루션 커널은 서로 다른 이미지 영역을 생성합니다. 실험 결과

정성적 분석

을 위해 각 컨볼루션 커널의 특징 맵을 시각화하여 다양한 이미지에서 컨볼루션 커널이 나타내는 시각적 개념의 일관성을 평가했습니다. 아래 그림 3과 같이 해석 가능한 GAN에서는 각 컨볼루션 커널이 서로 다른 이미지를 생성할 때 항상 동일한 시각적 개념에 해당하는 이미지 영역을 생성하는 반면, 서로 다른 컨볼루션 커널은 서로 다른 시각적 개념에 해당하는 이미지 영역을 생성합니다. 그림 3: 해석 가능한 GAN의 특징 맵 시각화 차이점은 아래 그림 4(a)에 나와 있습니다. 그림 4(b)는 해석 가능한 GAN에서 서로 다른 시각적 개념에 해당하는 컨볼루션 커널 수의 비율을 보여줍니다. 그림 4(c)는 분할을 위해 선택된 컨볼루션 커널 그룹의 수가 다를 때 그룹이 많을수록 해석 가능한 GAN이 학습한 시각적 개념이 더 자세하게 나타남을 보여줍니다.

그림 4: 해석 가능한 GAN의 질적 평가 기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

해석 가능한 GAN은 또한 생성된 이미지에 대한 특정 시각적 개념 수정을 지원합니다. 예를 들어, 이미지 간의 특정 시각적 개념의 상호 작용은 해석 가능한 레이어에서 해당 특징 맵을 교환함으로써 달성될 수 있습니다. 즉, 로컬/글로벌 얼굴 교환이 완료됩니다.

아래 그림 5는 이미지 쌍 사이에서 입, 머리카락, 코를 바꾼

결과 기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

을 보여줍니다. 마지막 열은 수정된 이미지와 원본 이미지의 차이를 나타냅니다. 이 결과는 연구자의 방법이 관련 없는 다른 영역은 변경하지 않고 국소적인 시각적 개념만 수정했음을 보여줍니다.

그림 5: 생성된 이미지 교체의 구체적인 시각적 개념

또한 아래 그림 6은 얼굴 전체를 교체할 때 방법의 성능도 보여줍니다.

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

그림 6: 생성된 이미지의 전체 얼굴 바꾸기

정량 분석을 위해 연구원들은 얼굴 검증 실험을 사용하여 얼굴 교환 결과의 정확성을 평가했습니다. 구체적으로, 한 쌍의 얼굴 이미지가 주어지면 원본 이미지의 얼굴을 원본 이미지의 얼굴로 대체하여 수정된 이미지를 생성합니다. 그런 다음 수정된 이미지의 얼굴과 원본 이미지의 얼굴이 동일한 ID를 가지고 있는지 테스트합니다.

아래 표 1은 다양한 방법의 얼굴 인증 결과의 정확성을 보여줍니다. 이들 방법은 신원 보존 측면에서 다른 얼굴 교환 방법보다 우수합니다.

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

표 1: 얼굴 교환 신원의 정확성 평가

또한 실험에서는 특정 시각적 개념을 수정하는 방법의 지역성도 평가되었습니다. 구체적으로 연구진은 RGB 공간에서 원본 이미지와 수정된 이미지 간의 평균 제곱 오차(MSE)를 계산하고, 특정 시각적 개념의 영역 외 MSE와 영역 내 MSE의 비율을 실험적으로 사용했습니다. 지역성 평가를 위한 지표입니다.

결과는 아래 표 2와 같습니다. 연구원의 수정 방법이 지역성이 더 좋습니다, 즉 수정된 시각적 개념을 벗어난 이미지 영역의 변화가 적습니다.

기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.

표 2: 수정된 시각적 개념의 지역성 평가

더 많은 실험 결과는 논문을 참조하세요.

요약

이 연구는 시각적 개념에 대한 수동 주석 없이 전통적인 GAN을 해석 가능한 GAN으로 수정할 수 있는 일반적인 방법을 제안합니다. 해석 가능한 GAN에서는 생성기의 중간 계층에 있는 각 컨볼루션 커널이 서로 다른 이미지를 생성할 때 동일한 시각적 개념을 안정적으로 생성할 수 있습니다.

실험에 따르면 해석 가능한 GAN을 사용하면 사람들이 생성된 이미지의 특정 시각적 개념을 수정할 수 있어 GAN 생성 이미지의 제어 가능한 편집 방법에 대한 새로운 관점을 제공할 수 있습니다.

위 내용은 기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다