집 >기술 주변기기 >일체 포함 >Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 '복제본' 버전을 최초로 오픈 소스화했습니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 '복제본' 버전을 최초로 오픈 소스화했습니다.

PHPz앞으로: 2023-05-30 08:34:05885검색

몇일 전에 출시된 DragGAN을 아직도 기억하시나요?

그렇습니다. 단 2초 만에 사진을 리터칭할 수 있는 도구입니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

촬영한 사진 표정이 좋지 않나요? 짓다! 얼굴형이 너무 얇지 않나요? 짓다! 얼굴이 카메라를 잘못된 각도로 향하고 있나요? 짓다!

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

어쩌면 고대 PS의 농담인 "코끼리를 돌아보게 하라"가 현실이 될지도 모릅니다

이 AI 리터칭 도구 시연 영상이 공개되자마자 사람들은 즉시 큰 인기를 끌었습니다 국내외.

많은 네티즌들은 "PS는 더 이상 존재하지 않는다"고 감탄했습니다.

단 며칠만 지나면 DragGAN의 비공식 구현이 이제 시험판으로 제공됩니다. 이 기능은 InternGPT에 통합되어 있습니다. 열려 있고 직접 압착되었습니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

공식 시연

공식 시연 영상을 보면 재현된 DragGAN 효과가 굉장합니다.

Grin

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

첫째, 웃지 않는 사람을 웃게 만드는 방법. 입의 두 모서리를 선택하고 직접 드래그하면 됩니다.

최종 결과에는 위배감이 전혀 없는 것을 보실 수 있습니다. 단지 웃는 것이 아니라 얼굴 근육도 함께 변화하기 때문입니다.

입 다물어

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

얼굴 편집

얼굴 슬리밍 기능은 다들 잘 아실 겁니다. 매우 자연스럽다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

남성을 위한 얼굴 슬리밍. 그런데 이건 좀 너무 얇고, 얼핏 보면 출력이 가짜이고, 턱이 너무 뾰족해요.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

이거 꼭 추천드려요! 머리카락! 대머리에게 얼마나 큰 축복인가.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

그런데 출력 결과로 보면 이마를 선택해도 털이 곳곳에 균등한 비율로 자라는데 최종 결과는 약간 원숭이 왕과 비슷하네요.

Face Turn

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

얼굴 회전도 아주 실용적인 기능이고, 완성된 부분도 아주 자연스럽습니다.

기타 기능

InternGPT 자체에는 소규모 사진 편집 외에도 눈길을 끄는 다양한 작업을 수행할 수 있습니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

덮인 물체 제거

사진에서 조작하려는 부분을 클릭하고 프롬프트에 "제거"를 입력하세요.

이미지 생성

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

이 기능은 더 흥미롭습니다. 먼저 이미지를 업로드하고 DragGAN이 분할하도록 프롬프트를 입력한 다음 원하는 이미지를 생성하기 위한 프롬프트를 입력합니다.

검은 발이 노출됐나요? (아니요)

동영상 하이라이트 해설

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

프롬프트를 사용하여 한 번의 클릭으로 동영상을 편집할 수도 있습니다.

인터랙티브한 시각적 질문과 답변

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

사진의 정보를 확인한 후에도 온라인으로 직접 쿼리할 수 있습니다.

대화형 이미지 생성

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

한 번의 클릭으로 모든 무작위 낙서를 아름다운 그림으로 바꿀 수 있습니다.

어쨌든 편집자는 이 기능을 읽고 정말 충격을 받았습니다. 모든 기능은 "바보 같은 작동과 최고의 유용성"이라는 두 가지 특징을 강조합니다.

누가 이걸 좋아하지 않을 수 있겠어요?

기술적 구현

멋진 기능을 많이 본 후에 InternGPT가 정확히 무엇인가요?

InternGPT(줄여서 iGPT)/InternChat(줄여서 iChat)은 포인팅 언어로 구동되는 시각적 상호 작용 시스템입니다. 사용자는 클릭, 드래그, 그리기를 통해 ChatGPT와 상호 작용할 수 있습니다.

순수한 언어에만 의존하는 기존 상호 작용 시스템과 달리 iGPT는 포인팅 지침을 통합하여 사용자와 챗봇 간의 의사소통 효율성을 크게 향상시킬 뿐만 아니라 비전 중심 작업, 특히 복잡한 작업에서 챗봇의 정확성을 크게 향상시킵니다. 특히 시각적 장면에서는 더욱 그렇습니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

문서 주소: https://arxiv.org/pdf/2305.05662.pdf

다음 그림은 InternGPT의 전체 아키텍처입니다.

이 GPT는 이미지와 동영상뿐만 아니라 음성과 텍스트까지 처리할 수 있음을 알 수 있습니다.

이미지 또는 비디오 입력의 경우 InternGPT는 SAM(이미지 분할 모델), OCR(이미지 인식 모델) 등을 사용하여 처리합니다.

지리적 위치, 객체 또는 선을 식별한 후 추가 처리를 위한 전체 도구 상자가 있으며 이는 모두 우리에게 친숙한 도구입니다.

BLIP(오디오), Stable Diffusion(이미지), Pix2Pix(이미지 번역) 등

마찬가지로 텍스트 또는 음성 입력의 경우 InternGPT는 처리를 위해 GPT-4, LLaMA 및 기타 모델이나 도구를 호출하며 나중에 전체 도구 상자도 있을 것입니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

InternGPT의 전반적인 아키텍처

사용 팁

그리고 사용하는 동안 전체 프로세스도 매우 편리합니다.

이미지가 성공적으로 업로드된 후 사용자는 다음 메시지를 보내 iGPT와 다중 모달 관련 대화를 나눌 수 있습니다.

"what is it in the image?" or "what is the background color of image?".

마찬가지로 사용자는 다음과 같이 이미지를 대화형으로 조작, 편집 또는 생성할 수도 있습니다. :

· 사진의 아무 곳이나 클릭한 후 선택 버튼을 누르면 분할된 영역을 미리 볼 수 있습니다. OCR 버튼을 눌러 특정 위치에 있는 모든 단어를 식별할 수도 있습니다.

· 이미지에서 마스크된 영역을 제거하려면 다음 메시지를 보낼 수 있습니다.

“remove the masked region”

· 마스크된 개체를 바꾸려면 이미지 다른 개체의 경우 다음 메시지를 보낼 수 있습니다:

“replace the masked region with {your prompt}”

· 새 이미지를 생성하려면 다음 메시지를 보낼 수 있습니다.

“generate a new image based on its segmentation describing {your prompt}”

· 낙서로 새 이미지를 만들려면 화이트보드를 누르고 그림을 그립니다. 화이트보드에. 그림이 완성되면 저장 버튼을 누르고 다음 메시지를 보내야 합니다.

“generate a new image based on this scribble describing {your prompt}”

네티즌 댓글

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

이 충격적인 DragGAN에는 이제 비공식 버전이 있습니다. 공식 버전은 6월에 출시될 예정이며 이는 단지 미래의 미리보기일 뿐입니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

DragGAN은 InternGPT에 통합되어 매우 빠르게 출시되었으며 사진 편집 도구입니다.

Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 복제본 버전을 최초로 오픈 소스화했습니다.

위 내용은 Elephant P는 돌아서서 상자에서 바로 작동합니다! HKU, NTU, Tsinghua University 등은 DragGAN의 '복제본' 버전을 최초로 오픈 소스화했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Deepwater Assets는 AR/VR 기기가 2030년까지 Apple 매출의 10%를 차지할 것으로 예상합니다.다음 기사：Deepwater Assets는 AR/VR 기기가 2030년까지 Apple 매출의 10%를 차지할 것으로 예상합니다.