>  기사  >  기술 주변기기  >  Kuaishou의 "Keling"폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

Kuaishou의 "Keling"폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

王林
王林원래의
2024-06-21 01:13:40511검색
1년만에 AI가 만든 '국수먹기'가 이렇게 자연스럽고 부드러워졌다고요? 이는 전 세계 네티즌들을 충격에 빠뜨렸다. ㅋㅋㅋ                                                                                 
오른쪽에 생성된 동영상은 Kuaishou에서 방금 출시한 Wensheng 동영상 모델에서 가져온 것입니다. 클링.

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

사전 출시나 순수 데모 모음이 아닌, 테스트를 위해 직접 공개되어 누구나 신청할 수 있는 제품 수준의 애플리케이션입니다. 또한 Keling은 브레인스토밍에서 출판 가능한 작품까지 "원클릭 변환"에 중점을 두고 최대 2분, 30fps의 1080P 비디오 생성을 지원합니다. (官网地址:https://kling.kuaishou.com/)
最早一批用上的용户已经「真香」:


                           图源:https://x.com/ op7418/status/1799047146089619589

                                                                         m8Or?refer_flag=1001030103_Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

커뮤니케이션 그룹의 최대 인원은 500명이며 이제 화면이 tql로 가득 차게 됩니다.

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

아직 사용해보지 않은 외국인 친구들은 불안해서 SNS에 "제발"이라는 글을 올릴 수 밖에 없습니다:
커링은 이제 "아 찾기 힘들다"라고 해도 과언이 아닙니다. 번호”:

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

이 소식은 실리콘 밸리 벤처 캐피탈계에 퍼져 열띤 토론을 촉발했습니다.
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
안정성 AI 전 CEO인 Emad Mostaque는 "중국의 AI 기술에는 고유한 장점이 있습니다."라고 말했습니다. 463003684918
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
YC CEO는 Keling이 제작한 데모를 Sora보다 더 생생하고 현실적으로 전달했습니다.

프롬프트: Une personne tapant son meilleur croc dans son hamburger
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
                      영상 주소 : https://x.com/AngryTomtweets/status/1799787209651859910

KeL을 많이 보셨을 텐데요 최근에 생성된 작품입니다. . 이 웹사이트도 최대한 빨리 신청 채널을 클릭해 체험 자격을 취득했다.

다음으로, Keling이 인기 있는 이유를 분석해 보도록 하겠습니다.

중국 최초의 Wensheng 비디오 제품 수준 응용 프로그램

아마도 한때 매우 인기 있었던 "Balloon Man" 비디오를 아직도 기억하실 것입니다. 세 명의 크리에이터가 Sora를 사용하여 약 2주 동안 이 놀라운 1분 21초의 짧은 동영상을 제작했습니다. 그러나 후반 작업을 맡은 패트릭 세더버그(Patrick Cederberg)는 풍선이 생성될 때마다 색상이 바뀌는 점, 영상에 나타나는 일부 결함 등 그 과정에서 많은 문제점을 고백했다.

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

Sora는 결과를 생성합니다. 전체 비디오 주소: https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh
이전 비디오 세대 모델의 경우 "한 번에" 1분 이상의 콘텐츠를 생성하는 것이 실제로 어렵습니다. 특히 다음과 같은 경우에는 더욱 그렇습니다. 화면이 필요합니다. 모든 요소는 일관성을 유지합니다.
치타모바일의 회장 겸 CEO이자 오리온스타의 회장인 푸셩(Fu Sheng)은 코린과 함께 만든 '풍선맨' 영상을 공개하며 연속성을 만드는데 '수십분'밖에 걸리지 않았다고 말했다. 사실감과 선명도가 뛰어난 단편영화.
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다내부 테스트 과정에서 우리는 생성 가능한 수백 개의 작품을 포함하여 전문 창작자 커뮤니티에서 자발적으로 생성한 튜토리얼과 데모 문서를 발견했으며 테스트 차원에 대한 지침도 제공했습니다.
관심 있는 독자는 다음을 클릭하세요: https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd
다음 2분짜리 공공 복지 단편 영화 "A Place Far Far Away"도 Keling이 완전히 제작했습니다. 응, 볼 수 있어?
제작자 @AIGC Thirteen의 작품 "Zootopia Racing Competition"에서 이 20초에는 빠르게 움직이는 레이싱카(큰 움직임), 동물 구동 차량(상상력을 테스트하는 개념적 조합) 등이 포함됩니다. , 그러나 결과로 볼 때 Keling은 이러한 문제를 매우 잘 해결했습니다. Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
                      출처: Keling 창작자 @AIGC Thirteen
또 다른 매우 흥미로운 사례가 있습니다. " @八级Mechanics가 제작한 이 56초 분량의 짧은 영상은 제작하는 데 총 3시간이 걸렸으며 23개의 장면이 포함되었습니다. 그런 다음 Ke Ling이 생성한 결과 위에 더빙을 추가하면 유머러스한 느낌이 즉시 느껴집니다.
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
                                                         이 글을 읽고 나면 Keling이 대표하는 영상 생성 기술의 영향력이 단순한 수준을 훨씬 넘어선다는 것을 깨달았어야 했습니다. 창조. 이 기술의 구현은 다양한 연구 분야와 산업 트랙에서 가속화되어 자동 콘텐츠 생성부터 복잡한 의사 결정 프로세스에 이르기까지 다양한 작업에 대한 혁신적인 잠재력을 제공합니다.
어떤 산업이 먼저 변화할까요?

전통적인 게임 개발은 사전 렌더링된 환경과 스크립트된 이벤트로 인해 제한되는 경우가 많습니다. 비디오 생성 모델이 게임에 통합되면 게임 개발, 플레이 및 경험 방식이 혁신되어 스토리텔링, 상호 작용 및 몰입형 경험에 대한 새로운 가능성을 가져올 것입니다. 게임 개발자에게 가장 직관적인 플레이 방법 중 하나는 사용자 내러티브를 기반으로 맞춤형 시각 효과는 물론 캐릭터 액션까지 생성하는 것입니다. 남 아래 데모에서 사용자가 코코아의 도움으로 비교할 수 없는 신체 경험을 만들 수 있다는 것을 볼 수 있습니다:


출처: https: //x.com/dustinhollywood /status /1800056286215553444

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

ㅋㅋㅋ             

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다붕괴될 또 다른 산업은 영화와 TV 제작입니다. 전통적인 영화 제작은 종종 수년간의 노력, 광범위한 장비 및 재정적 투자가 필요한 힘들고 비용이 많이 드는 프로세스입니다. 영상 생성 기술의 등장은 영화 제작에 새로운 '민주화 시대'를 예고하며, 간단한 텍스트 입력만으로 개인 영화와 TV 작품을 자율적으로 제작하는 꿈이 현실이 되고 있습니다.

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

이제 Keling을 사용하여 생성하는 것은 5초짜리 싱글샷 클립입니다. 기술이 계속 발전함에 따라 사용자가 한 번에 생성할 수 있는 비디오 길이도 늘어날 것입니다. 예를 들어, 미래에는 스토리 장면의 일관성과 즐거움을 유지하기 위해 더 긴 비디오 콘텐츠를 한 번에 생성할 수 있을 것입니다. 연속 장거리 촬영과 같이 카메라 기술이 더욱 발전할 수도 있습니다. ㅠㅠ
아래의 실루엣 작업은 AI의 예술에 대한 이해와 미적 수준이 인간보다 전혀 뒤떨어지지 않는다는 점을 다시 한 번 입증합니다.


프롬프트: "댄서의 실루엣은 힙합부터 발레까지 다양한 댄스 스타일을 통해 하나의 연속된 장면으로 원활하게 전환됩니다."

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다


Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
. 사진 출처 : https://x.com/dustinhollywood/status/1799970059957555210

SF영화 스타일 완전 파악 :
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
 출처 : Keling creator @狗儿文

AI는 럭셔리 블록버스터 제작에도 영감을 줄 수 있습니다.
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다
                                                       Ke Ling이 생성한 내용을 볼 수 있습니다. "Honey" 광고에서 클로즈업 시뮬레이션에서 AI의 성능 꿀을 붓는 것은 전문 카메라 팀의 그것보다 열등하지 않습니다:

KeLing 뒤에는 어떤 기술이 있습니까?
OpenAI의 간단한 기술 보고서에서는 Sora 연구 및 개발 세부 정보를 충분히 얻을 수 없었지만 Keling Large Model의 공식 웹사이트에서는 주로 데이터 준비, 모델 아키텍처, 훈련 계획 및 여러 측면을 포함한 더 많은 참조 정보를 공개했습니다. 최적화 전략.

데이터 준비
Kuaishou의 다년간의 영상 기술 축적을 바탕으로 Keling Model 팀은 기본적인 영상 품질, 심미성, 자연스러움 등을 포함한 완전한 라벨링 시스템을 구축했습니다. 비디오 데이터의 품질을 특성화하고 각 차원에 대한 다양한 맞춤형 라벨 기능을 설계하여 훈련 데이터를 개선하거나 훈련 데이터의 분포를 조정합니다.
Wensheng 비디오 모델을 훈련하는 과정에서 비디오와 텍스트 설명 쌍의 요구 사항을 충족하기 위해 Keling Big Model 팀은 정확하고 상세하며 구조화된 비디오를 생성할 수 있는 비디오 설명 모델을 자체 개발했습니다. 설명, 비디오 생성이 크게 향상되었습니다. 텍스트 명령에 대한 모델의 반응성이 향상되었습니다.

Model Architecture
고품질 주석 데이터가 준비된 후 Keling 대형 모델은 어떻게 물리적 세계의 특성과 개념 조합을 시뮬레이션하는 능력을 얻습니까?
Keling은 전반적인 아키텍처 설계에서 현재 인기 있는 DiT(확산 변압기)를 채택했습니다. 전통적인 확산 모델은 주로 다운샘플링 및 업샘플링 블록을 포함하는 컨벌루션 U-Net을 노이즈 제거 네트워크 백본으로 활용합니다. 그러나 일부 연구에 따르면 U-Net 아키텍처는 확산 모델의 우수한 성능에 중요하지 않습니다. 보다 유연한 Transformer 아키텍처를 채택함으로써 확산 모델은 더 많은 훈련 데이터와 더 큰 모델 매개변수를 사용할 수 있습니다. DiT는 이러한 연구 아이디어의 대표적인 작품 중 하나입니다.
지난 몇 달 동안 업계에서는 비디오 세대 모델의 성공이 궁극적으로 스케일링 법칙의 결과라는 합의에 도달했습니다. 이 합의는 DiT 논문의 결과를 기반으로 합니다. Transformer를 사용하면 모델 크기를 꾸준히 확장할 수 있습니다. 즉, 훈련 계산량이 증가하면(모델의 훈련 시간이 연장되거나 모델이 증가하거나 둘 다) 성능이 향상됩니다. 또한 그에 따라 증가합니다.
이는 비디오 생성 모델의 경우 더 많은 컴퓨팅 성능과 더 많은 데이터를 사용하여 확장하는 한 생성 품질이 계속 향상된다는 것을 의미합니다.
Keling이 사용자의 텍스트 프롬프트를 현실 세계에 나타나지 않는 가상의 장면을 포함하여 특정 그림으로 변환할 수 있는 이유는 텍스트-비디오 의미론에 대한 깊은 이해와 확산 변환기의 강력한 기능을 기반으로 합니다. 건축학 . 자체 개발한 아키텍처와 스케일링 법칙에서 영감을 얻은 강력한 모델링 기능을 바탕으로 Caling은 실제 세계의 물리적 특성을 잘 시뮬레이션하고 물리적 법칙을 준수하는 비디오를 생성할 수 있습니다.

동시에 팀이 자체 개발한 3D VAE 네트워크를 기반으로 대규모 모델은 광활하고 장엄한 장면이든 섬세한 클로즈업이든 1080p 해상도의 영화 수준의 비디오를 생성할 수 있으며, 그것은 생생할 수 있다. 자연스러운 장면에서는 빛이 부드럽게 변화합니다. 테스터: @shanshan

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

물론 비디오 생성 모델의 경우 고려해야 할 또 다른 요소는 비디오는 시간 차원을 지닌 일종의 시각적 콘텐츠이며, 일관되지 않은 콘텐츠는 사용자를 산만하게 만들 것입니다. 경험은 크게 타협되었습니다.

사진 속 모션을 더욱 합리적으로 표현하기 위해 Keling 대형 모델은 3D 시공간 조인트 어텐션 메커니즘을 채택하여 복잡한 시공간 모션을 더 잘 모델링하고 더 큰 크기의 비디오 콘텐츠를 생성할 수 있습니다. 요구 사항을 충족하면서 모션.

훈련 및 최적화 전략

Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다

직접 테스트해 본 경우 Keling은 추론 프로세스 중에 동일한 콘텐츠에 대해 여러 비디오 종횡비 출력을 지원한다는 것을 알 수 있습니다. 이는 Keling이 보다 풍부한 장면에서 비디오 자료를 사용하려는 요구를 충족하기 위해 가변 해상도 훈련 전략을 채택하기 때문입니다.

동시에 효율적인 교육 인프라, 극도의 추론 최적화 및 확장 가능한 인프라 덕분에 Keling 모델은 프레임 속도 30fps로 최대 2분 길이의 비디오를 생성할 수 있습니다.

영상세대는 더 이상 "OpenAI 따라잡기" 게임이 아닙니다

2024년은 영상세대 기술 폭발의 해라고 하지만 켈링 이전에는 소라급을 본 적이 없습니다. 제품을 사용할 수 있으며 Sora가 언제 출시될지는 알 수 없습니다.

어떤 의미에서 Keling은 최초의 진정한 "중국 버전 Sora"이며 이 기술을 사용 가능하고 사용하기 쉽고 실용적인 단계로 가져옵니다.

Fu Sheng이 말했듯이: "이것은 오늘날 세계에서 사용할 수 있는 최고의 Vincent 비디오 제품일 수 있습니다." Keling을 직접 사용해 본 사람이라면 이것이 결코 과장이 아니라는 것을 이해할 것입니다.

Fu Sheng의 동영상도 또 다른 관점을 제시했습니다. "결과적으로 Sora는 기술적 혁신이 아니라 제품 혁신이라는 점을 보여줍니다."

몇 달 전의 소라를 아직도 기억합니다. 60초 연속 영상, 고화질 영상 질감, 연속 카메라 이동, 이동 방식 등의 장점으로 영상 생성 트랙 전체의 기술 수준을 끌어올리며 빈첸시안 영상 트랙 경쟁의 물결을 일으켰다.

원래는 작년 텍스트 모델처럼 영상 제너레이션 분야도 국내외 기술 추격으로 발전할 거라 생각했어요. 그러나 Keling의 출시는 국내 Wensheng 비디오 대형 모델 기술의 탐구가 새로운 정점에 도달했으며 제품 구현에서 실질적인 리더십을 달성했음을 의미합니다. 우리는 "OpenAI 따라잡기" 게임을 다시 할 필요가 없을 수도 있습니다.

어떤 사람들은 인공지능 분야에서 중국이 미국을 능가하고 있다고 판단했습니다.

켈링의 탄생은 새로운 시대의 시작을 의미할 수도 있습니다. 제너레이티브 AI 시대에는 영상 생성과 편집이 오늘날 휴대폰에 있는 사진을 사용하는 것만큼 쉬울 수 있으며, 상상과 현실 사이의 장벽이 완전히 무너질 것입니다.
Kuaishou의 Keling폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다코린의 인기에 힘입어 현재 코린을 테스트하기 위해 줄을 선 사람이 5만명을 넘었습니다. AI로 생성된 비디오를 재생하는 방법에 관심이 있으시면 먼저 "Keling AI 비디오 계정"을 팔로우하여 더 많은 고품질 사례를 얻으실 수 있습니다.

위 내용은 Kuaishou의 "Keling"폭발 : 해외 AI 계에 큰 충격, Sora의 중국어 버전은 찾기 어렵습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.