집 >기술 주변기기 >일체 포함 >CMU Zhu Junyan 팀은 다양한 AI 생성 모델의 장단점을 평가하기 위해 자동 매칭 순위 시스템을 개발했습니다.

CMU Zhu Junyan 팀은 다양한 AI 생성 모델의 장단점을 평가하기 위해 자동 매칭 순위 시스템을 개발했습니다.

王林앞으로: 2023-05-09 21:09:071364검색

이 기사는 Lei Feng.com에서 복제되었습니다. 재인쇄가 필요한 경우 Lei Feng.com 공식 웹사이트로 이동하여 승인을 신청하세요.

최근 생성 AI가 큰 인기를 끌고 있으며, 새로운 사전 훈련된 이미지 생성 모델이 너무 많아 보기만 해도 어지러울 정도입니다. 인물 사진, 풍경 사진, 만화, 특정 아티스트 스타일의 요소 등 각 모델에는 뛰어난 성능을 발휘하는 사진이 있습니다.

모델이 너무 많은데, 여러분의 창의적인 욕구를 충족시킬 수 있는 최고의 모델을 어떻게 빨리 찾을 수 있나요?

최근 카네기 멜론 대학교 조교수 Zhu Junyan 등이 클릭 한 번으로 가장 일치하는 깊이 영상 생성 모델을 검색할 수 있는 콘텐츠 기반 모델 검색 알고리즘을 최초로 제안했습니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

논문 주소: https://arxiv.org/pdf/2210.03116.pdf

On Modelverse는 이러한 모델 검색 세트를 기반으로 팀이 개발한 온라인 모델 공유 및 검색 플랫폼입니다. 알고리즘을 사용하면 텍스트, 이미지, 스케치 및 특정 모델을 입력하여 가장 일치하거나 유사한 관련 모델을 검색할 수 있습니다.

Modelverse 플랫폼 주소: https://modelverse.cs.cmu.edu/

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 텍스트(예: "아프리카 동물"), 이미지(예: 풍경 사진) 입력 ) , 스케치(예: 서 있는 고양이 스케치) 또는 특정 모델을 사용하여 관련 모델 중 상위 순위에 있는 모델(두 번째 행, 세 번째 행)을 출력합니다.

예를 들어 "얼굴"이라는 텍스트를 입력하면 결과가 표시됩니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

고양이 이미지 입력 :

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

말 스케치 입력 :

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

1 콘텐츠 기반 모델 검색

기존 멀티미디어와 동일 검색, 모델 검색은 사용자가 특정 요구 사항에 가장 적합한 모델을 찾는 데 도움이 될 수 있습니다. 그러나 콘텐츠 기반 모델 검색 작업에는 고유한 특별한 어려움이 있습니다.

모델이 특정 이미지를 생성할 수 있는지 여부를 결정하는 것은 상대적으로 어려운 계산 문제이며, 많은 심층 생성 모델은 밀도를 추정하는 효과적인 방법을 제공하지 않습니다. 자체적으로 모달간 유사성을 평가하는 것은 지원되지 않습니다. Monte Carlo의 샘플링 기반 방법은 모델 검색 프로세스를 매우 느리게 만듭니다.

이를 위해 Zhu Junyan 팀은 새로운 모델 검색 시스템을 제안했습니다.

각 생성 모델은 이미지 분포를 생성하므로 저자는 모델이 주어진 쿼리와 일치하는 항목을 생성할 확률을 최대화하기 위한 최적화로 검색 문제에 접근합니다. 아래 그림과 같이 시스템은 사전 캐싱 단계(a, b)와 추론 단계(c)로 구성됩니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 모델 검색 방법 개요

모델 세트가 주어지면 (a) 먼저 각 모델에 대해 50K 샘플을 생성한 다음 (b) 이미지를 이미지 특징으로 인코딩하고 먼저 계산합니다. - 그리고 각 모델에 대한 2차 고유통계. 효율성을 높이기 위해 통계가 시스템에 캐시됩니다. (c) 추론 단계 동안 이미지, 스케치, 텍스트 설명, 다른 생성 모델 또는 이러한 쿼리 유형의 조합을 포함하여 다양한 양식의 쿼리가 지원됩니다. 저자는 여기서 쿼리가 특징 벡터로 인코딩되고 쿼리 특징과 각 모델 통계 간의 유사성을 평가하여 가장 유사한 측정값을 가진 모델이 검색되는 근사치를 소개합니다.

2 모델 검색 효과

저자는 알고리즘을 평가하고 133개의 심층 생성 모델(GAN, 확산 모델, 자기회귀 모델 포함)에 대한 절제 실험 분석을 수행했습니다. Monte Carlo 기준선과 비교할 때 이 방법은 높은 정확도 를 유지하면서 0.08 밀리초 이내에 5배의 속도 향상으로 보다 효율적인 검색을 달성할 수 있습니다.

모델 검색 결과를 비교함으로써 어떤 모델이 다양한 쿼리 입력에 대해 더 높은 품질의 이미지를 생성할 수 있는지에 대한 대략적인 아이디어도 얻을 수 있습니다. 예를 들어, 아래 그림은 모델 검색 결과를 비교한 것입니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

그림: 모델 검색 결과의 예

맨 윗줄은 이미지 쿼리, 정물화 입력, 관련 예술 스타일의 모델 검색, 1위 StyleGAN2 모델 가져오기 및 마지막 순위의 Vision 지원 GAN 모델. 가운데 행은 스케치 쿼리, 말과 교회의 스케치 입력, ADM, ProGAN 등의 모델 가져오기입니다. 결론은 "안경을 쓴 사람"과 "말하는 새"를 입력하여 각각 최상위 GANSketch 모델과 Self-Distilled GAN 모델을 검색하는 텍스트 쿼리입니다.

저자는 또한 다양한 네트워크 기능 공간에서 모델 성능에 차이가 있음을 발견했습니다. 아래 그림과 같이 이미지 쿼리를 입력할 때 CLIP, DINO 및 Inception 세 네트워크의 성능이 모두 비슷한 것으로 나타났습니다. 쿼리를 사용하면 예술적 스타일 모델에서 더 나은 성능을 발휘합니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 다양한 네트워크 기능 공간에서 이미지 기반 모델 검색과 스케치 기반 모델 검색 비교

또한 본 연구에서 제안된 모델 검색 알고리즘은 다음을 포함한 다양한 응용 프로그램을 지원할 수도 있습니다. 다중 양식 동적 사용자 쿼리, 유사 모델 쿼리, 실제 이미지 재구성 및 편집 등

예를 들어, 다중 모드 쿼리는 "Nicolas Cage" 이미지만 있는 경우 얼굴 모델만 검색할 수 있지만 "Nicolas Cage"와 "dog"이 모두 검색되는 경우 모델 검색을 세분화하는 데 도움이 될 수 있습니다. 입력으로 사용하면 "Nicolas Cage dog" 이미지를 생성할 수 있는 StyleGAN-NADA 모델을 검색할 수 있습니다. (아래 그림 참조)

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 다중 모달 사용자 쿼리

입력이 얼굴 모델인 경우 더 많은 얼굴 생성 모델을 검색할 수 있으며 카테고리는 유사하게 유지됩니다. (아래 그림 참조)

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

Caption: 유사 모델 쿼리

실제 얼굴에 대한 쿼리 이미지가 주어지면 상위 모델을 사용하면 보다 정확한 이미지 재구성을 얻을 수 있습니다. 아래 그림은 서로 다른 순위 모델을 이용하여 CelebA-HQ와 LSUN교회 이미지를 이미지 역매핑한 예입니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 검색된 StyleGAN2 모델에 실제 이미지를 투영합니다.

실제 이미지를 편집하는 작업에서는 모델마다 성능도 다릅니다. 아래 그림에서는 최상위 이미지 기반 모델 검색 알고리즘을 사용하여 실제 이미지를 역 매핑한 후 GANspace를 사용하여 편집하여 우키요에 이미지의 찡그린 얼굴을 웃는 얼굴로 변환합니다.

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

캡션: 실제 이미지 편집

이 연구를 통해 모델 검색의 타당성이 입증되었으며, 텍스트, 오디오 또는 기타 콘텐츠에서 생성된 모델 검색에 대한 연구 공간은 여전히 많습니다.

그러나 현재 본 연구에서 제안하는 방법에는 여전히 일정한 한계가 있습니다. 예를 들어, 특정 스케치를 쿼리할 때 추상적 형태의 모델이 일치되는 경우도 있고, 다중 모드 쿼리를 수행하는 경우 단일 모델만 검색할 수 있어 시스템이 개와 같은 이미지를 처리하는 데 어려움을 겪을 수도 있습니다. "와 같은 대규모 다중 모드 쿼리입니다. (아래 그림 참조)

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

참고: 실패 사례

또한 모델 검색 플랫폼에서는 검색된 모델 목록이 이미지 생성 시 등 효과에 따라 자동으로 정렬되지 않습니다. 해상도, 충실도, 매칭 등의 측면에서 다양한 모델의 순위를 매깁니다. 이를 통해 사용자는 현재 생성된 모델의 장단점을 더 쉽게 검색하고 더 잘 이해할 수 있습니다. 우리는 이 분야의 후속 작업을 기대합니다. .

위 내용은 CMU Zhu Junyan 팀은 다양한 AI 생성 모델의 장단점을 평가하기 위해 자동 매칭 순위 시스템을 개발했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

算法 https 重构

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.다음 기사：구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.