기술이 발전함에 따라 연구자들은 인공 지능과 기계 학습 기능을 활용하는 새로운 방법을 계속해서 찾고 있습니다. 이번 주 초 Google 과학자들은 단일 이미지 입력으로 짧은 동영상을 생성하기 위한 새로운 프레임워크인 Transframer의 개발을 발표했습니다. 이 새로운 기술은 언젠가 기존 렌더링 솔루션을 향상시키고 개발자가 기계 학습 기능을 기반으로 가상 환경을 만들 수 있도록 할 수 있습니다.
이 새로운 프레임워크의 이름(및 어떤 면에서는 개념)은 또 다른 AI 기반 모델인 Transformer에 대한 고개를 끄덕이는 것입니다. 2017년에 처음 출시된 Transformer는 문장의 다른 단어를 모델링하고 비교하여 텍스트를 생성하는 기능을 갖춘 새로운 신경망 아키텍처입니다. 이후 이 모델은 TensorFlow 및 PyTorch와 같은 표준 딥 러닝 프레임워크에 통합되었습니다.
Transframer는 유사한 속성을 가진 배경 이미지를 쿼리 주석과 결합하여 짧은 비디오를 만드는 것으로 보고되었습니다. 원시 이미지 입력에는 기하학적 데이터가 제공되지 않지만 결과 비디오는 대상 이미지 주위를 이동하며 정확한 원근감을 시각화합니다.
Google의 DeepMind 인공 지능 플랫폼을 사용하여 새로운 기술을 시연했으며 그 기능은 단일 사진 배경 이미지를 분석하여 핵심 이미지 데이터를 얻고 추가 이미지를 생성하는 것입니다. 이 분석 중에 시스템은 이미지의 프레임을 결정하고 이는 시스템이 이미지 주변을 예측하는 데 도움이 됩니다.
그런 다음 상황별 이미지를 사용하여 사진이 다양한 각도에서 어떻게 나타날지 추가로 예측합니다. 예측은 상황별 프레임의 데이터, 주석 및 기타 정보를 기반으로 추가 이미지 프레임의 확률을 모델링합니다.
이 프레임워크는 매우 제한된 데이터 세트를 기반으로 합리적으로 정확한 비디오를 생성하는 기능을 제공함으로써 비디오 기술의 엄청난 발전을 의미합니다. Transframer 작업은 또한 의미론적 분할, 이미지 분류 및 광학 흐름 예측과 같은 다른 비디오 관련 작업 및 벤치마크에서도 유망한 결과를 보여줍니다.
게임 개발과 같은 비디오 기반 산업에 잠재적으로 큰 영향을 미칠 수 있습니다. 현재 게임 개발 환경은 셰이딩, 텍스처 매핑, 피사계 심도, 광선 추적과 같은 핵심 렌더링 기술에 의존합니다. Transframer와 같은 기술은 인공 지능과 기계 학습을 사용하여 환경을 구축하는 동시에 환경을 만드는 데 필요한 시간, 리소스 및 노력을 줄여 개발자에게 새로운 개발 경로를 제공할 수 있는 잠재력을 가지고 있습니다.
위 내용은 구글의 인공지능 기술 '트랜스프레이머(Transframer)'는 사진을 기반으로 짧은 동영상을 만들 수 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!