집 >기술 주변기기 >일체 포함 >Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-08 17:11:041475검색

AI는 그림을 아주 잘 그립니다.

최근 Meta는 AI "페인터"인 Make-A-Scene도 개발했습니다.

아직도 텍스트를 사용하여 그림을 그리는 것이 그렇게 간단하다고 생각하시나요?

텍스트 설명에만 의존하면 얼마 전 Google에서 출시한 "아티스트" Parti와 같이 때로는 "전복"될 수 있다는 점을 알아야 합니다.

"바나나 없는 접시, 옆에 오렌지 주스 없는 유리잔."

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

이번 Make-A-Scene은 텍스트 설명과 스케치 모습을 통해 원하는 것을 생성할 수 있습니다.

구성의 상단과 하단, 왼쪽과 오른쪽, 크기, 모양 및 기타 요소에 대한 최종 결정권은 귀하에게 있습니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

르쿤도 자사 제품을 홍보하기 위해 나섰습니다. 말할 필요도 없이 창의성의 핵심은 '조절 가능'입니다!

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

Make-A-Scene 정말 멋지네요, 함께 살펴보시죠.

메타의 마법펜 마량

연습 없이 말하는 모든 것, 가짜 트릭!

사람들이 Make-A-Scene을 사용하여 어떻게 상상력을 실현하는지 살펴보겠습니다.

연구팀은 유명 인공지능 아티스트들과 함께 Make-A-Scene 시연 세션을 진행합니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

아티스트 팀에는 Sofia Crespo, Scott Eaton, Alexander Reben, Refik Anadol 등 강력한 라인업이 있습니다. 이들 마스터는 생성 인공 지능을 직접 적용한 경험이 있습니다.

R&D 팀에서는 이러한 아티스트가 창작 과정의 일부로 Make-A-Scene을 사용하고 사용하는 동안 피드백을 제공할 수 있도록 허용합니다.

다음으로 Make-A-Scene을 활용한 거장들의 작품을 감상해 보세요.

예를 들어 소피아 크레스포(Sofia Crespo)는 자연과 기술의 교차점에 초점을 맞추는 예술가입니다. 그녀는 존재한 적이 없는 인공 생명체를 상상하는 것을 좋아했기 때문에 Make-A-Scene의 스케치 및 텍스트 프롬프트 기능을 사용하여 완전히 새로운 "하이브리드 생물"을 만들었습니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

예를 들어 꽃 모양의 해파리.

Crespo는 무료 그리기 기능을 활용하여 새로운 아이디어를 빠르게 반복합니다. 그녀는 Make-A-Scene을 통해 예술가들이 자신의 창의성을 더 잘 표현하고 보다 직관적인 인터페이스를 사용하여 그림을 그릴 수 있게 될 것이라고 말했습니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

(꽃 해파리)

Scott Eaton은 현대 현실과 기술의 관계를 조사하는 예술가이자 교육자, 창의적인 기술자입니다.

그는 장면을 구성하는 방법으로 Make-A-Scene을 사용하여 기후 위기를 강조하기 위해 "사막에서 가라앉고 부패하는 고층 빌딩"과 같은 주제를 사용하는 등 다양한 단서를 통해 장면의 변화를 탐구했습니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

(사막의 스카이스크래퍼)

Alexander Reben은 예술가이자 연구원이자 로봇 공학자입니다.

그는 출력물을 더 잘 제어할 수 있다면 자신의 예술적 의도를 표현하는 데 정말 도움이 될 것이라고 믿습니다. 그는 이러한 도구를 그의 지속적인 시리즈에 통합합니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

미디어 아티스트이자 감독인 Refik Anadol에게 이 도구는 상상력의 발전을 촉진하고 미지의 영역을 더 잘 탐색할 수 있는 방법입니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

사실 이 프로토타이핑 도구는 예술에 관심이 있는 사람들만을 위한 것이 아닙니다.

연구팀은 Make-A-Scene이 예술적 재능이 부족한 사람을 포함해 누구나 자신을 더 잘 표현하는 데 도움이 될 수 있다고 믿습니다.

우선 연구팀은 메이다컴퍼니 직원들에게 부분적인 사용권을 제공했습니다. 그들은 Make-A-Scene에 대한 경험을 테스트하고 피드백을 제공하고 있습니다.

Meda 프로젝트 매니저 Andy Boyatzis는 Make-A-Scene을 사용하여 2~4세 아이들과 함께 예술 작품을 만듭니다. 그들은 재미있는 그림을 사용하여 아이디어와 상상력을 생생하게 표현합니다.

다음은 작품이에요~

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

알록달록한 고양이 조각품~ 귀엽죠? 하지만 이 색은 사실 보기에 좀 참기 힘든 색이에요. 마치 어린아이가 커다란 플라스틱 덩어리를 반죽하는 것처럼요.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

기차를 타고 있는 괴물 곰. 진지하게, 암호공포증이 있는 사람들은 멀리해야 합니다. 편집자는 이 사진을 읽자마자 바로 위로 올라갔다. 이 이상한 팔 좀 보세요, 얼굴 같은 몸, 눈알 같은 바퀴...

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

산봉우리. 솔직히 말해서 이 그림은 꽤 예술적이다. 하지만 멀리 있는 산과 근처의 작은 기차가 전혀 같은 스타일이 아니라고 생각하시나요?

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

뒤에 있는 기술

현재 방법은 텍스트와 이미지 도메인 간의 적절한 변환을 제공하지만 여전히 잘 해결되지 않은 몇 가지 주요 문제가 있습니다: 제어 가능성, 인간 인식, 이미지 품질.

이 모델의 방법은 구조적 일관성과 이미지 품질을 어느 정도 향상시킵니다.

전체 장면은 세 가지 상호 보완적인 의미 분할 그룹(파노라마, 사람, 얼굴)으로 구성됩니다.

추출된 세 개의 의미 분할 그룹을 결합함으로써 네트워크는 의미의 레이아웃과 조건을 생성하는 방법을 학습하여 최종 이미지를 생성합니다.

장면의 토큰 공간을 만들기 위해 저자는 "VQ-VAE"를 개선한 "VQ-SEG"를 채택했습니다.

이 구현에서 "VQ-SEG"의 입력 및 출력은 m개 채널입니다. 추가 채널은 서로 다른 클래스와 인스턴스를 구분하는 가장자리 맵입니다. 에지 채널은 동일한 클래스의 인접한 인스턴스를 분리하고 중요도가 높은 희귀 클래스를 강조합니다.

"VQ-SEG" 네트워크를 훈련할 때 각 얼굴 부분은 장면 공간에서 상대적으로 작은 수의 픽셀을 차지하므로 장면 공간에서 얼굴 부분(눈, 코, 입술, 눈썹 등)을 재구성하게 됩니다. 장면 의미론적 분할이 자주 감소됩니다.

이와 관련하여 저자는 얼굴 부분의 중요성을 부각시키기 위해 분할된 얼굴 부분 분류를 기반으로 한 가중치 이진 교차 엔트로피 얼굴 손실을 사용하려고 했습니다. 또한, 얼굴 부분의 에지 역시 전술한 의미분할 에지 맵의 일부로 사용된다.

저자는 전용 얼굴 임베딩 네트워크 대신 ImageNet 데이터 세트에서 훈련된 사전 훈련된 VGG 네트워크를 채택하고 재구성된 이미지와 실제 이미지 간의 지각 차이를 나타내는 특징 매칭 손실을 도입합니다.

VQ-IMG의 인코더와 디코더에 기능 매칭을 사용하고 추가 업샘플링 레이어와 다운샘플링 레이어를 추가하면 출력 이미지의 해상도를 256×256에서 높일 수 있습니다.

트랜스포머는 다들 잘 아실 텐데요, 장면 기반 트랜스포머란 무엇일까요?

3개의 독립적이고 연속적인 토큰 공간, 즉 텍스트, 장면 및 이미지가 있는 자동 회귀 변환기를 사용합니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

토큰 시퀀스는 BPE 인코더로 인코딩된 텍스트 토큰, VQ-SEG로 인코딩된 장면 토큰, VQ-IMG로 인코딩 또는 디코딩된 이미지 토큰으로 구성됩니다.

장면 기반 변환기를 훈련하기 전에 각 인코딩된 토큰 시퀀스는 해당 인코더를 사용하여 추출되는 [텍스트, 장면, 이미지] 튜플에 해당합니다.

또한 저자는 무조건 표본을 조건 표본으로 안내하는 과정인 분류자 없는 부트스트래핑도 채택했습니다.

이 모델은 SOTA 결과를 달성합니다. 이전 방법과의 비교를 자세히 살펴보겠습니다

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

이제 연구원들은 Make-A-Scene을 초해상도 네트워크와 통합하여 4배의 해상도인 2048x2048의 이미지를 생성할 수 있습니다.

는 다음과 같습니다.

Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!

실제로 다른 생성 AI 모델과 마찬가지로 Make-A-Scene은 수백만 개의 예시 이미지를 학습하여 비전과 텍스트 간의 관계를 학습합니다.

훈련 데이터에 반영된 편향이 이러한 모델의 출력에 영향을 미친다는 것은 부인할 수 없습니다.

연구원들이 지적했듯이 Make-A-Scene은 아직 개선할 부분이 많습니다.

위 내용은 Meta의 최신 이미지 생성 도구는 꿈을 현실로 만들 수 있을 정도로 인기가 높습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：자율주행 의사결정 시스템에 관한 기사다음 기사：자율주행 의사결정 시스템에 관한 기사