지난 2년 동안 "텍스트 생성 이미지의 확산 모델"이 큰 인기를 끌었습니다. DALL·E 2와 Imagen은 모두 이를 기반으로 개발된 애플리케이션입니다.
본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.
평범해 보이는 일본 도시락입니다.
하지만 믿을 수 있나요? 사실 음식의 모든 그리드는 P-ed이고 원본 사진은 여전히 Jiang 이모님의 것입니다.
Δ 사진을 잘라내서 붙여넣기만 하면 효과가 나타납니다. 언뜻 보면 가짜입니다
그 뒤에 있는 운영자 PS 보스가 아니라 아주 직설적인 이름을 가진 AI입니다: Collage Diffusion.
작은 사진 몇 장을 찾아서 주면 AI가 스스로 사진의 내용을 이해한 다음, 다양한 요소를 아주 자연스럽게 큰 그림에 넣어줍니다. 전혀 거짓이 없습니다.
이 효과는 많은 네티즌들을 놀라게 했습니다.
일부 PS 매니아들은 직접적으로 다음과 같이 말했습니다:
이것은 단순히 신의 선물입니다... 조만간 Automat1111(Stable Diffusion 사용자가 일반적으로 사용하는 네트워크 UI이자 PS에 통합된 플러그인 버전)에서 볼 수 있기를 바랍니다. .
효과가 왜 이렇게 자연스럽나요?
사실 이 AI가 생성한 "일본 도시락"에는 여러 버전이 생성되어 있습니다. 모두 자연스러워 보입니다.
왜 버전이 여러개인가요? 제가 묻는 이유는 사용자가 전체적인 상황을 너무 과격하게 만들지 않으면서도 다양한 세부 사항을 조정할 수 있기 때문입니다.
"일본 도시락" 외에도 뛰어난 작품이 많이 있습니다.
예를 들어, 이것은 AI에게 주어진 자료입니다. P-그림의 흔적은 명백합니다:
이것은 AI가 합성한 그림입니다. 어쨌든 P-그림의 흔적은 보이지 않습니다.
이 둘에 대해 말하자면, 2016년에는 "텍스트 생성 이미지의 확산 모델"이 큰 인기를 끌었습니다. DALL·E 2와 Imagen은 모두 이를 기반으로 개발된 애플리케이션이었습니다. 이 확산 모델의 장점은 생성된 이미지가 다양하고 품질이 높다는 것입니다.
그러나 text는 대상 이미지에 대해 최대 blurry 표준화 역할만 할 수 있으므로 사용자는 일반적으로 프롬프트(프롬프트)를 조정하는 데 많은 시간을 소비해야 하며 좋은 결과를 얻으려면 추가 제어 구성 요소를 사용해야 합니다. 효과.
위에 표시된 일본 도시락을 예로 들어 보겠습니다.
사용자가 "밥, 완두콩, 생강, 초밥이 들어 있는 도시락 상자"만 입력하면 어떤 음식이 어느 격자에 놓여 있는지 설명하지 않으며 설명도 없습니다. 각 음식이 어떻게 생겼는지. 하지만 명확히 해야 한다면 사용자는 짧은 에세이를 작성해야 할 수도 있습니다...
이를 고려하여 스탠포드 팀은 다른 각도에서 시작하기로 결정했습니다.
그들은 전통적인 아이디어를 참조하여 퍼즐을 통해 최종 이미지를 생성하기로 결정하고 이에 따라 새로운 확산 모델을 개발했습니다.
흥미로운 점은 이 모델을 직설적으로 말하면 고전적인 기법을 사용하여 "철자된" 것으로 간주할 수 있다는 것입니다.
첫 번째는 레이어링입니다: 레이어 기반 이미지 편집 UI를 사용하여 소스 이미지를 RGBA 레이어(R, G, B는 각각 빨간색, 녹색, 파란색을 나타내고 A는 투명도를 나타냄)로 분해한 다음 이를 결합합니다. 캔버스에 레이어를 정렬하고 각 레이어를 텍스트 프롬프트와 연결합니다.
레이어링을 통해 이미지의 다양한 요소를 수정할 수 있습니다.
지금까지 레이어링은 컴퓨터 그래픽 분야에서 성숙한 기술이었지만, 이전에는 레이어링된 정보를 단일 이미지 출력 결과로 사용하는 것이 일반적이었습니다.
이 새로운 "퍼즐 확산 모델"에서는 계층화된 정보가 후속 작업의 입력이 됩니다.
레이어링 외에도 기존 확산 기반 이미지 조정 기술 과 결합하여 이미지의 시각적 품질을 향상시킵니다.
간단히 말하면, 이 알고리즘은 객체의 특정 속성(예: 시각적 특징)의 변경을 제한할 뿐만 아니라 속성(방향, 조명, 원근, 폐색) 변경도 허용합니다.
——복원 정도와 자연스러움 사이의 관계의 균형을 유지하여 "영적으로 유사"하고 위반감이 없는 그림을 생성합니다.
작업 과정도 매우 쉽습니다. 대화형 편집 모드에서는 사용자가 몇 분 안에 콜라주를 만들 수 있습니다.
장면의 공간 배열을 사용자 정의할 수 있을 뿐만 아니라(즉, 다른 곳에서 가져온 이미지를 적절한 위치에 배치) 이미지를 생성하는 다양한 구성 요소도 조정할 수 있습니다. 동일한 소스 이미지를 사용해도 다양한 효과를 얻을 수 있습니다.
Δ가장 오른쪽 열은 이 AI의 출력 결과입니다
그리고 비인터랙티브 모드(즉, 사용자가 퍼즐을 풀지 않고 AI에 작은 그림 묶음을 직접 던짐)에서는 AI가 또한 를 기반으로 작은 사진을 얻을 수 있으며 자연스러운 효과가 있는 큰 사진을 자동으로 작성합니다.
Research Team
마지막으로 연구팀에 대해 이야기해 보겠습니다. 그들은 스탠포드 대학교 컴퓨터 공학과의 교사와 학생들입니다.
논문의 첫 번째 저자인 Vishnu Sarukkai는 현재 스탠포드 컴퓨터공학과 대학원생이며, 아직 석사-박사 과정을 밟고 있습니다.
그의 주요 연구 방향은 컴퓨터 그래픽, 컴퓨터 비전 및 기계 학습입니다.
또한 논문의 공동 저자인 Linden Li도 스탠포드 컴퓨터 공학과 대학원생입니다.
학교에서 공부하는 동안 그는 NVIDIA에서 4개월 동안 인턴으로 일했으며 NVIDIA의 딥 러닝 연구팀과 협력하여 1억 개 이상의 매개변수를 추가한 시각적 변환기 모델 훈련에 참여했습니다.
논문 주소: https://arxiv.org/abs/2303.00262
위 내용은 PS 사용법을 모르더라도 상관없습니다. AI 퍼즐 기술은 이미 가짜를 진짜처럼 보이게 만들 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Hiddenlayer의 획기적인 연구는 LLMS (Leading Lange Language Models)에서 중요한 취약점을 드러냅니다. 그들의 연구 결과는 "정책 인형극"이라는 보편적 인 바이 패스 기술을 보여줍니다.

환경 책임과 폐기물 감소에 대한 추진은 기본적으로 비즈니스 운영 방식을 바꾸는 것입니다. 이 혁신은 제품 개발, 제조 프로세스, 고객 관계, 파트너 선택 및 새로운 채택에 영향을 미칩니다.

Advanced AI 하드웨어에 대한 최근 제한은 AI 지배에 대한 확대 된 지정 학적 경쟁을 강조하여 중국의 외국 반도체 기술에 대한 의존도를 드러냅니다. 2024 년에 중국은 3,800 억 달러 상당의 반도체를 수입했습니다.

Google의 Chrome의 잠재적 인 강제 매각은 기술 산업 내에서 강력한 논쟁을 불러 일으켰습니다. OpenAi가 65%의 글로벌 시장 점유율을 자랑하는 주요 브라우저를 인수 할 가능성은 TH의 미래에 대한 중요한 의문을 제기합니다.

전반적인 광고 성장을 능가 함에도 불구하고 소매 미디어의 성장은 느려지고 있습니다. 이 성숙 단계는 생태계 조각화, 비용 상승, 측정 문제 및 통합 복잡성을 포함한 과제를 제시합니다. 그러나 인공 지능

깜박 거리는 스크린 모음 속에서 정적으로 오래된 라디오가 딱딱합니다. 이 불안정한 전자 제품 더미, 쉽게 불안정하게, 몰입 형 전시회에서 6 개의 설치 중 하나 인 "The-Waste Land"의 핵심을 형성합니다.

Google Cloud의 다음 2025 : 인프라, 연결 및 AI에 대한 초점 Google Cloud의 다음 2025 회의는 수많은 발전을 선보였으며 여기에서 자세히 설명하기에는 너무 많았습니다. 특정 공지 사항에 대한 심도있는 분석은 My의 기사를 참조하십시오.

이번 주 AI 및 XR : AI 구동 창의성의 물결은 음악 세대에서 영화 제작에 이르기까지 미디어와 엔터테인먼트를 통해 휩쓸고 있습니다. 헤드 라인으로 뛰어 들자. AI 생성 콘텐츠의 영향력 증가 : 기술 컨설턴트 인 Shelly Palme


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는
