미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!

PHPz

Jun 19, 2024 am 09:36 AM

산업Runway

호황을 누리고 있는 AI 산업은 모두를 놀라게 했습니다.

요즘 바다 건너 사람들이 미쳐가는 요즘!

Luma의 설렘은 아직 가시지 않았습니다. 어젯밤 Runway가 왕의 폭탄인 Gen-3 Alpha를 출시했습니다. (자세한 내용은 다음을 참조하세요: 소라 출시 런웨이 버전: 높은 충실도, 초일관성, Gen-3 Alpha가 네티즌들을 놀라게 했습니다)

게다가 잠에서 깨어났을 때 Google DeepMind가 나올 것이라고는 예상하지 못했습니다. V2A(영상 음성 변환) 기술의 발전 과정을 조용히 공개한 새로운 소식도 있었습니다.

미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!

이 기능은 아직 대중에게 공개되지 않았지만 공식 비디오 데모를 보면 효과가 상당히 부드럽습니다. 동시에 Google DeepMind는 모든 예제가 V2A 기술과 가장 발전된 생성 비디오 모델 Veo에 의해 공동으로 생성되었음을 강조했습니다.

오디오 프롬프트: 스릴 넘치는 공포 영화 사운드트랙, 콘크리트에 울려퍼지는 발자국 소리. (영화, 스릴러, 공포영화, 음악, 긴장감, 분위기, 콘크리트 위의 발자국)

검은 불빛이 켜진 폐창고에서 검은 옷을 입은 남자가 유령처럼 천천히 걷는데, 이상한 음악과 발자국 소리가 어우러져 분위기가 고조된다. 레이맨은 정말 무섭습니다.

오디오 프롬프트: 달빛에 늑대가 울부짖습니다. (달을 향해 울부짖는 늑대)

영상 데모가 나오자마자 댓글란에 Qing Yishui가 질문했습니다. 언제쯤 출시되나요?

일부 네티즌들은 오픈소스 커뮤니티가 사이버 보살이 되어 구글의 기술을 카피하기를 희망하고 있습니다.

실제로 구글 딥마인드가 공식 발표된 지 얼마 지나지 않아 AI 오디오 분야의 '리더'인 일레븐랩스가 적절한 음향 효과를 생성할 수 있는 업로드 영상의 자동 더빙 프로젝트를 오픈소스로 공개하기도 했습니다. 비디오용.

링크:

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound- Effects

요즘 AI 경쟁 크고 작은 제조업체 간의 경쟁은 더욱 공평한 경쟁의 장을 만들 것이며, 이러한 기술이 성숙되면 AI 비디오 분야에서 무한한 가능성이 생길 것입니다.

AI Video 무성 영화에 작별 인사

우리 모두 알고 있듯이 비디오 생성 모델은 놀라운 속도로 발전하고 있습니다. 하지만 연초 세계를 충격에 빠뜨린 소라든, 최근의 켈링, 루마, 젠3알파든 모두 예외 없이 '무성영화'다.

그리고 Google DeepMind의 V2A(비디오-오디오) 기술은 동기식 오디오-비주얼 생성을 가능하게 합니다. 비디오 픽셀과 자연어 텍스트 단서를 결합하여 화면 동작에 대한 풍부한 음성 해설을 생성할 수 있습니다.

기술 적용 측면에서 V2A 기술은 Veo와 같은 비디오 생성 모델과 결합하여 극적인 사운드 트랙, 사실적인 사운드 효과 또는 일치하는 비디오 캐릭터와 스타일이 포함된 대화 장면을 만들 수 있습니다.

기록 자료, 무성 영화 및 기타 전통적인 이미지에 대한 오디오 트랙을 생성하여 창의적 가능성을 넓힐 수도 있습니다.

오디오 프롬프트: 달걀 껍질이 깨지는 소리와 함께 정글에서 귀여운 아기 공룡들이 지저귀는 소리입니다. (귀여운 아기 공룡의 울음소리, 정글의 분위기, 계란이 깨지는 소리)

오디오 프롬프트: 자동차 미끄러지는 소리, 엔진 굉음, 천사 같은 전자 음악이 함께합니다. (자동차 미끄러짐, 자동차 엔진 스로틀링, 천사 같은 전자 음악)

오디오 프롬프트: 해질녘에 초원에 아름다운 하모니카 소리가 들립니다. (프레리에서 해가 지면서 천천히 감미로운 하모니카가 연주됩니다.)

V2A 기술은 모든 비디오 입력에 대해 무제한의 오디오 트랙을 생성할 수 있습니다. 사용자는 원하는 소리의 생성을 안내하는 "긍정적인 신호"를 정의하거나 원하지 않는 소리를 피하기 위한 "부정적인 신호"를 정의하도록 선택할 수 있습니다.

이러한 유연성을 통해 사용자는 오디오 출력을 더 효과적으로 제어할 수 있으므로 신속하게 다양한 오디오 출력을 시도하고 가장 적합한 것을 선택할 수 있습니다.

오디오 프롬프트: 우주선이 광대한 공간에서 속도를 내고 있고, 별들이 그 주위를 날아다니며 공상과학적인 느낌으로 가득 찬 빠른 속도로 날아갑니다. (광활한 우주를 질주하는 우주선, 그 위를 지나가는 별, 고속, SF)

오디오 프롬프트: 천상의 첼로 분위기(에테리얼 첼로 분위기)

오디오 프롬프트: 광활한 우주 속을 여행하는 우주선 빠른 속도로 움직이는 우주와 그 주위를 빠르게 지나가는 별들로 인해 공상과학적인 느낌을 줍니다. (광활한 우주를 질주하는 우주선, 그 위를 질주하는 별, 고속, SF)

작동 원리

연구팀은 자기회귀 및 확산 방법을 시도하여 가장 많은 것을 발견했습니다. 확장 가능한 AI 아키텍처. 확산 방법은 비디오와 오디오 정보를 동기화하기 위한 오디오 생성에서 가장 현실적이고 매력적인 결과를 제공합니다.

V2A 시스템은 먼저 비디오 입력을 압축 표현으로 인코딩한 다음 확산 모델을 통해 무작위 노이즈로부터 오디오를 반복적으로 개선합니다. 이 프로세스는 시각적 입력과 주어진 자연어 단서에 의해 안내되어 단서와 밀접하게 일치하는 동기화되고 사실적인 오디오를 생성합니다. 마지막으로 오디오 출력은 오디오 파형으로 디코딩되어 비디오 데이터와 결합됩니다.

더 높은 품질의 오디오를 생성하고 모델이 특정 사운드를 생성하도록 안내하기 위해 연구팀은 훈련 과정에서 사운드 및 대화 텍스트를 자세히 설명하는 AI 생성 주석을 포함하여 더 많은 정보를 추가했습니다.

비디오, 오디오 및 추가 주석에 대한 교육을 통해 이 기술은 주석이나 텍스트에 제공된 정보에 응답하면서 특정 오디오 이벤트를 다양한 시각적 장면과 연관시키는 방법을 학습합니다.

Google은 원시 픽셀을 이해하고 텍스트 힌트 추가는 선택 사항이기 때문에 자사의 기술이 기존 비디오-오디오 솔루션과 다르다는 점을 강조합니다. 또한 시스템에서는 생성된 사운드와 비디오를 수동으로 정렬할 필요가 없으므로 창작 과정이 크게 단순화됩니다.

하지만 Google의 기술은 완벽하지 않으며 일부 버그를 해결하기 위해 여전히 열심히 노력하고 있습니다. 예를 들어, 비디오 입력 품질은 오디오 출력 품질에 직접적인 영향을 미치며, 비디오의 아티팩트나 왜곡으로 인해 오디오 품질이 저하될 수 있습니다.

동시에 립싱크 기능도 최적화하고 있습니다.

V2A 기술은 입력된 텍스트에서 음성을 생성하고 이를 캐릭터의 입 움직임과 동기화하려고 시도합니다. 그러나 비디오 모델이 텍스트 내용에 맞게 조정되지 않으면 입 모양과 음성이 맞지 않을 수 있습니다. 동조. 그들은 립싱크를 더욱 자연스럽게 만들기 위해 이 기술을 개선하고 있습니다.

오디오 프롬프트: 음악, 대본 "이 칠면조 정말 멋져요. 배가 너무 고파요."(음악, 대본: "이 칠면조 정말 멋져요. 배가 너무 고파요.")

아마도 심층 위조 기술로 인해 발생하는 수많은 사회 문제에 대해 Google DeepMind는 생존에 대한 열망으로 가득 차 있으며, V2A 기술은 대중에게 공개되기 전에 엄격한 보안 평가 및 테스트를 거쳐 AI 기술을 책임감 있게 개발하고 배포할 것을 약속해 왔습니다.

또한 SynthID 툴킷을 V2A 연구에 통합하여 모든 AI 생성 콘텐츠에 워터마크를 추가하여 기술 오용을 방지했습니다.

^{참조 링크:}

^{https://deepmind.google/discover/blog/genelating-audio-for-video/}

^{https://x.com/ GoogleDeepMind/상태/1802733643992850760}

위 내용은 미친 듯이 죽여라! Google은 비디오를 음성으로 전환하고 사실적인 음향 효과로 인해 AI 비디오가 침묵에 작별을 고합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

See all articles

핫 AI 도구

뜨거운 도구

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.