>  기사  >  기술 주변기기  >  존경받는 자와 잊혀진 자, 소라의 재발에 대해 이야기해보자

존경받는 자와 잊혀진 자, 소라의 재발에 대해 이야기해보자

WBOY
WBOY앞으로
2024-03-27 19:21:31914검색

2월 16일, OpenAI가 영상 제너레이션 분야의 블록버스터 모델인 소라(Sora)를 출시했습니다.

소라의 스케일링 법칙에 대한 믿음과 획기적인 기술 혁신이 이를 계속해서 선두에 서게 했습니다. 동시에 '큰 노력이 기적을 낳을 수 있다'는 말이 빈첸시안 영상 분야에도 여전히 유효하다는 점을 다시 한번 입증하기도 한다.

소라가 공개한 기술적인 세부 사항은 전체 그림을 파악하기에는 충분하지 않습니다. 동시에 Sora는 아직 공식적으로 대중에게 공개되지 않았습니다. 그 이후로 소라에 대한 생각과 논의는 끊이지 않았습니다.布 Openai에서 공개한 기술 보고서 ​​再谈复现 Sora:被仰望与被遗忘的

Sora가 전체 AI 분야에 미치는 가장 큰 영향은 기존 비디오 생성 아이디어와 프레임워크를 최적화하고 수정하는 방법입니다. 이는 오늘날까지 계속되는 소라 재현 열풍을 불러일으켰습니다.

소라를 재현하려는 동기는 한편으로는 기술자의 기술적 끈기와 기술적 이상, 다른 한편으로는 미래에 대한 예측 가능한 비즈니스 가치에서 비롯됩니다.

또한 CloseAI라는 별명을 가지고 있는 이 인공지능 기술 연구기관이 업계의 벤치마킹이 되었고, 출시되는 거의 모든 제품이 파괴적인 혁신을 가져올 수 있다는 점도 무시할 수 없습니다. 그러나 OpenAI는 점점 더 비공개 소스를 고집하는 길로 나아가고 있는 것으로 보이며, 이는 소라 재현에 대한 대중의 열정을 더욱 불붙였습니다. 앞으로 몇 달 안에 여러 Sora와 유사한 모델이 차례로 출시되고 오픈 소스가 될 것이라고 믿습니다.

소라가 출시된 지 한 달이 넘었는데, 관련 기술 혁신에 대한 논의와 재생산은 어떻게 진행되고 있나요? 아래를 살펴보겠습니다.

소라의 재현과 관련하여 이 글은 다음 세 가지 측면에서 시작됩니다.

소라가 출시된 지 한 달이 넘었습니다. 현재 재현의 진행 상황은 어떻습니까?
  • 다시 일어날 가능성은 얼마나 되나요? 국내의 기술적 기반은 무엇인가?
  • 소라가 세계적인 모델인가요? AGI에 접근하도록 도와주실 수 있나요? 재현할 필요가 있나요?
  • 소라형 모델

출시되고 많이 논의된 세 가지 모델은 Snap Video, Open-Sora 1.0, Mora입니다.


Snap Video
  • Snap Video는 2월 29일에 출시된 Sora와 유사한 모델로, 확장 가능한 시공간 변환기를 사용하며 SnapChat 사진의 개발에서 비롯되었습니다. 소프트웨어 공유, Snap Inc. 및 University of Trento와 같은 기관.
Portal:再谈复现 Sora:被仰望与被遗忘的"첫 번째 Sora 같은 모델이 등장했고 Sarabu가 Snap Video를 출시했습니다. 효과는 Pika보다 좋고 Gen-2

Open-Sora 1.0
  • Open -Sora 1.0은 3월 18일에 완전 오픈 소스로 공개된 최초의 Sora 유사 모델입니다. 이 오픈 소스 모델은 데이터 처리, 모든 훈련 세부 사항 및 모델 가중치. 再谈复现 Sora:被仰望与被遗忘的
    포털:
  • "OpenAI를 기다리지 말고, Open-Sora가 완전한 오픈 소스가 될 때까지 기다리세요"
Mora
Mora는 Lehigh University와 Microsoft Research의 연구원이 며칠 전에 제안한 다중 에이전트 프레임워크입니다. 이 프레임워크는 Sora가 시연한 일반적인 비디오 생성 기능을 복제하기 위해 여러 고급 시각적 AI 에이전트를 통합합니다.
포털: "Sora의 범용 비디오 생성 기능을 복제한 오픈 소스 다중 에이전트 프레임워크 Mora가 출시되었습니다"

현재의 모델 재현 효과는 여전히 Sora를 따라잡을 수 없지만, 한 달 남짓 만에 이는 낙관적인 신호로 간주될 수 있는 명백한 기술적 혁신이었습니다. 불완전한 통계에 따르면 국내 10개 팀에 가까운 팀이 소라를 재현하고 있으니 기다려 보겠습니다.

DiT에 앞서는 기술적 아키텍처 혁신


소라가 사용하는 DiT(Diffusion Transformer) 아키텍처는 현재로서는 가장 큰 기술 혁신이지만, 돌이켜보면 아마도 국내 관련 진전은 더 앞선 것 같습니다.
  • U-ViT 아키텍처

再谈复现 Sora:被仰望与被遗忘的                                      U-ViT 아키텍처

2022년 9월 칭화팀은 "All are Worth Words: A ViT Backbone for Diffusion"이라는 제목의 논문을 제출했습니다. DiT보다 2개월 빠른 "모델" 논문. 본 논문에서는 CNN 기반 U-Net을 대체하기 위해 Transformer 기반 네트워크 아키텍처 U-ViT를 사용할 것을 제안하는데, 이는 Transformer와 확산 모델을 통합하려는 Sora의 아이디어와 일치합니다.
포털:"국내 기업이 소라를 만들 것으로 예상되나요?" 희망을 주는 청화대 대형 모델팀》
  • VDT

再谈复现 Sora:被仰望与被遗忘的
2023년 5월 arXiv 홈페이지에 게재된 VDT(Video Diffusion Transformer)는 인민대학교에서 연구한 내용입니다. 중국 팀이 주도하고 캘리포니아 대학, 버클리 대학 및 홍콩 대학과 협력하는 Transformer 기반의 통합 비디오 생성 프레임워크입니다. Transformer 아키텍처를 채택한 이유에 대한 자세한 설명도 제공됩니다.
Portal:"국내 대학들이 Sora형 모델 VDT를 구축하고 범용 비디오 확산 트랜스포머가 ICLR 2024에서 승인됩니다."

아마도 핵심 기술 혁신에 있어서 국내 탐험은 뒤처지지 않지만, 곡선보다 앞서 앞. 그러나 자원 제약과 기술적 도로 계획 등의 이유로 이전의 Sora와 유사한 효과를 달성할 수 없었습니다.

Sora는 의심할 여지 없이 기술적으로 실현 가능한 경로를 입증했으며 기술 아키텍처에 대한 우리의 선도적인 탐구는 Sora를 재현하는 데 더 도움이 될 것이며 일부 분야에서는 Sora의 효과를 넘어서는 것이라고 믿는 것에 대해 더욱 낙관할 수 있습니다.

소라가 세계적인 모델인가요?


소라가 촉발한 또 다른 뜨거운 토론은 월드 모델에 관한 것입니다.
再谈复现 Sora:被仰望与被遗忘的
Sora가 생성한 비디오는 의심할 여지 없이 육안으로 볼 수 있고 전문적인 유체 역학, 빛 및 물리적 세계의 다른 특성.

그러나 Yann LeCun으로 대표되는 일부 과학자들은 소라의 훈련 방법이 세계 모델과 아무런 관련이 없음을 강력하게 증명합니다.

그럼 소라는 세계의 모델인가요? 그녀는 물리적 세계를 이해하고 있나요? 이에 대한 논의는 각종 포럼과 생방송으로 확산됐다. 세계 모델이 무엇인지에 대해 모든 사람이 서로 다른 의견을 가지고 있음을 알 수 있습니다.

우리가 확실히 알 수 있는 것은 소라가 세계적인 모델이라면 일반 인공지능(AGI)의 이상이 예상보다 빨리 도래할 수도 있다는 것입니다. 그렇다면 소라를 재현해야 합니다.

Sora에 대해 우리는 계속해서 호기심을 갖고 다음 질문에 대한 가능한 답변을 탐색하고 있습니다.

  • 소라의 이전 비디오 세대 아키텍처/기술을 계속 사용할 수 있나요? 사용하는 방법?

  • 소라 다음으로 잊혀진 사람은 누구인가요? 누구를 우러러보나요?

  • 소라 외에 다른 스타트업/팀은 어떻게 해야 할까요? 무엇을 합니까?

  • 소라가 주류 기술 아키텍처를 바꿀까요? DiT가 대표하는 아키텍처가 향후 주류 아키텍처 선택이 될까요?

  • 국내 기술군이 소라를 재현해야 하나? 왜?

  • 소라를 재현하는 팀은 약 10개 팀으로 알려져 있습니다. 앞으로 우리가 볼 수 있는 패턴은 무엇인가요?

  • OpenAI의 모델을 복제할 수 있는 이유는 무엇인가요?

  • 소라 이후 글로벌 영상세대 지형은 어떤가요? 어떻게 발전하고 변화할 것인가?

  • 소라를 하지 않겠다고 공개적으로 밝힌 일부 스타 스타트업에 대해 어떻게 생각하시나요?

  • 다중형 대형 모델의 미래는 어디에 있나요?

  • 소라의 영향력을 다양한 관점에서 어떻게 보시나요? (투자자, 비기술자, 국영기업, AI 기업가, 실무자 등의 관점)

  • OpenAI는 어떤 사회적 역할을 하나요? 이 회사에 대해 어떻게 생각하세요?

  • ...

소라가 가져온 영향은 파괴적이므로 위의 문제 해결은 계속됩니다. 첨단 AI 기술의 탐구와 응용 실천에 중점을 둔 팀으로서 우리 AI 기술 포럼은 다시 한번 영상 생성 분야에 중점을 두고 있습니다.
再谈复现 Sora:被仰望与被遗忘的
4월 13일 베이징 류다오커우에서 우리는 Sora 출시 이후 기술 혁신, 사고 및 응용 실습에 중점을 두는 기술 포럼을 계획했습니다. 이 행사에는 많은 중요한 손님이 모일 것이며 위에서 언급한 문제에 대해 더 깊이 논의할 것입니다.

가까운 미래에 이 행사가 우리나라 AI 오픈소스 커뮤니티의 기술 개발과 보급을 촉진한다는 관점에서 긍정적인 효과와 영감을 줄 수 있다고 믿습니다.

게스트 라인업


이 포럼에는 강력한 게스트 라인업이 있습니다.

  • Mr. Zhang Junlin을 소개합니다. Sora의 핵심 기술에 대한 심층적인 해체
  • 인기 비디오 세대 모델 PixelDance의 저자이자 ByteDance의 Zeng Yan 선생님이 PixelDance의 기술 혁신과 응용 프로그램을 공유합니다
  • Sora와 유사한 모델인 VDT의 팀 리더 중국 런민대학교에서 창업한 스타트업 ——Sophon Engine의 CEO Gao Yizhao 박사가 VDT의 기술 혁신과 실천을 자세히 설명합니다
  • 투자자는 AI와 떼려야 뗄 수 없는 중요한 역할입니다 ​​Fengrui Capital의 투자 파트너로서 Chen Shi 씨는 투자자/기관의 관점에서 독특한 관찰을 주도할 것입니다
  • 국영 기업은 Sora 출시 후 빠르게 대응하여 AI 분야에서 자리를 차지했습니다. 분야. China Mobile Information Technology Co., Ltd.의 알고리즘 기술 책임자인 Mr. Tong Tong이 자신의 새로운 사고를 공유합니다
  • Sora와 같은 모델 Open-Sora 1.0의 기술 리더인 Mr. Bian Zhengda는 루첸테크놀러지의 CTO가 소라를 재현하는 방법과 팀의 독특한 사고와 실천을 자세히 분석해 드립니다
  • 더 중요한 게스트가 속속 초대되고 있는데...
再谈复现 Sora:被仰望与被遗忘的

Zhang Junlin

중국정보학회 이사, 중국과학원 소프트웨어 연구소 박사

현재 Sina Weibo의 새 편집자로 활동 중입니다. 기술 연구 및 개발을 담당했으며 이전에는 Alibaba의 수석 기술 전문가로 근무했으며 신기술 팀을 담당했습니다. 기술서적 '이것은 검색엔진이다: 핵심기술의 상세설명', '빅데이터 일상의 기록: 아키텍처와 알고리즘'의 저자.
再谈复现 Sora:被仰望与被遗忘的

Zeng Yan

ByteDance Research의 알고리즘 엔지니어

비디오 생성 및 다중 모드 사전 훈련과 같은 분야의 최첨단 연구에 집중하세요. 그가 연구 개발에서 이끄는 모델은 ByteDance의 비디오 생성, 짧은 비디오 리뷰, 전자 상거래 고객 서비스, Toutiao, 교육 문제 해결 및 기타 비즈니스에 강력한 서비스를 제공했으며 TPAMI의 제1저자로 관련 논문 8편을 발표했습니다. ICML, CVPR, ACL 및 기타 최고의 국제 컨퍼런스 및 저널에 게재되었으며 TPAMI, ICML, NIPS, ICLR 및 기타 컨퍼런스의 심사위원으로도 활동하고 있습니다. 그가 주도한 PixelDance 영상 생성 기본 모델은 업계 최초로 높은 역동성과 안정성을 겸비한 연구 개발을 달성하고 최초로 3분 연속 플롯 애니메이션을 생성했습니다.
再谈复现 Sora:被仰望与被遗忘的

Fengrui Capital Investment Partner

은 기술, 소프트웨어, 인터넷, 소비 및 기타 분야에 대한 투자에 중점을 두고 있습니다. Fengrui Capital에 합류하기 전 그는 Alibaba Mobile Business Group의 부사장, Alibaba Culture and Entertainment Group의 고위 간부, Youku 및 UC의 국제 클래스 위원을 역임했으며 UC에 깊이 관여했습니다. , AutoNavi, Youku 및 Tudou, Shenma Search, UC International 및 기타 제품 라인 비즈니스 의사 결정 및 관리 실행.

15년 이상의 지속적인 기업가 정신, 핵심 관리팀의 일원으로서 UC(2014년 Alibaba가 인수한 세계 최대의 타사 모바일 브라우저) 및 Lakala(잘 알려진 타사 모바일 브라우저)에 깊이 관여했습니다. 중국 파티 결제 회사, SZ: 300773) 창업 과정에서 그는 각각 부사장과 CTO를 역임했으며 한때는 행복한 프로그래머, 사용자 성장 전문가, 기술 애호가였습니다.

베이항대학교 기계전기공학 학사 및 석사 학위를 취득했습니다. 2023년에는 EqualOcean이 선정한 '글로벌 글로벌 투자자 상위 30인'과 Jiazi Guangnian이 선정한 '2022~2023년 인공지능 및 빅데이터 분야 최고의 투자자 상위 20인'으로 선정되었습니다.
再谈复现 Sora:被仰望与被遗忘的

Gao Yizhao

Sophon Engine CEO

중국 런민대학교 인공지능대학 박사. 다중 모드 대형 모델의 전문가인 그는 많은 최고의 저널과 회의 논문을 출판했으며 여러 사람으로 구성된 팀을 이끌고 Wenlan 대형 모델 교육을 완료했습니다. 프로세스 전반에 걸쳐 Sophon 엔진 관련 모델 및 제품의 개발 및 홍보에 참여하십시오.
再谈复现 Sora:被仰望与被遗忘的

卞正达

CTO of Luchen Technology

세계 최고 슈퍼컴퓨팅 학회인 SC에서 논문 발표, 7년 경력 보유. Colossal-AI 시스템의 핵심 개발자입니다.
再谈复现 Sora:被仰望与被遗忘的

Tong Tong

China Mobile Information Technology Co., Ltd.의 알고리즘 기술 책임자

중국과학원 자동화 연구소에서 AI 박사. . 현재 그는 China Mobile Information Technology Co., Ltd.에서 다중 모드 대형 모델, 디지털 휴먼, 지능형 에이전트 및 기타 분야의 연구 개발을 담당하고 있으며 Vincent Pictures, Vincent와 같은 핵심 기술의 구현을 실현했습니다. 비디오, 대형 모델 동작 인식 및 표적 탐지. 총 12편의 논문, 12개의 기업 특허, 4개의 소프트 출판물을 출판했습니다.

더 많은 전문가들이 확인 중이니 지켜봐주세요.

비디오 생성 기술 및 응용 - Sora Era


이 사이트의 AI 기술 포럼은 Sora가 기술에 미치는 영향과 그것이 모든 사람에게 미치는 영향을 깊이 탐구하기 위해 AI 분야의 기술 혁신을 항상 민감하게 추적하고 있습니다. , 우리는 특별히 "영상 생성 기술 및 응용 - 소라 시대" AI 기술 포럼을 기획했습니다.

우리는 기업과 실무자가 기술 개발 추세를 따라가고 Sora, 비디오 생성 기술 및 다중 모드 대형 모델과 같은 최첨단 분야의 기술 혁신 및 응용 사례에 대한 포괄적인 이해를 갖기를 희망합니다. .

AI 영상 세대의 맹공격에 직면하여 적극적으로 학습하고 과감하게 시도해야만 기술 트렌드를 포착하고 돌파할 수 있습니다.

2024년 4월 13일 베이징 하이뎬구에서 만나기를 기대하고 있습니다.

再谈复现 Sora:被仰望与被遗忘的

포럼 등록 채널이 정식 오픈되었습니다. 포스터에 있는 QR코드를 스캔하시면 이벤트 페이지로 바로 이동하실 수 있습니다. 게스트 소개 공개가 늦어짐에 따라 본 포럼의 얼리버드 할인 기간이 연장되었습니다.

지금부터 4월 7일 23시 55분까지 컨퍼런스 참가 티켓을 구매하시면 200위안 직접 할인을 받으실 수 있으며, 특별 얼리버드 티켓 가격 699위안(원가 899위안)을 즐기실 수 있습니다. ). 5인 단체구매시 더욱 다양한 할인혜택이 있으니, 자세한 내용은 이벤트 상세페이지를 확인해주세요.

이 사이트의 AI 기술 포럼의 이전 참가자는 독점 할인 링크에 직접 액세스하려면 Alice의 WeChat 계정을 별도로 추가하세요.

활동 하이라이트

  • "비디오 세대의 개척자 연구와 응용" 이전 호의 포럼 활동 영상과 코스웨어를 영구 무료 시청(이전 호를 구매한 경우 Alice에게 문의하여 할인을 받으세요. 이 호를 구매한 후 Alice에게 이전 호를 상환하도록 요청하십시오.) 발행 비디오)
  • 이 "비디오 생성 기술 및 응용 - 소라 시대" 포럼 이벤트의 이벤트 후 비디오 및 코스웨어를 영구적으로 시청하십시오.
  • 교수 모임 최신 기술을 습득하고 기술 지평을 넓힐 수 있는 대학 및 업계의 주요 기술 전문가
  • 기술 전문가와의 대면 커뮤니케이션, 회의 후 심층적 인 연결
  • 핵심 기술 해체, 스타 제품의 모범 사례, 기술의 미래에 대한 토론 및 전망
  • 전체 과정은 학습을 지원합니다: 회의 전후 학습 정보 선물 패키지
  • 고품질 비디오 생성 기술 교류 커뮤니티에 참여하고 시기적절하게 팔로우하세요 업계 최첨단 기술과 정보
  • 이 사이트에서 관련 유료 활동 티켓을 15% 할인 받으세요

기술교류협회

기술 교류를 촉진하기 위해 특별히 설립된 비디오 생성 기술 교류 그룹 Sora, 비디오 생성 및 다중 모드 대형 모델에 관심이 있는 기술 실무자들은 QR 코드를 스캔하여 대화에 참여하고 심층적인 기술 세부 사항 및 업계 관찰을 교환할 수 있습니다.
再谈复现 Sora:被仰望与被遗忘的
본 이벤트와 관련된 사업제휴, 공동구매, 송장, 콘텐츠, 기타 문의사항은 해당 이벤트 담당자인 앨리스를 추가하시거나 이메일로 문의해주세요.

WeChat: 15650753618
E-mail: jiayaning@jiqizhixin.com

인보이스 정보: 등록이 성공적으로 완료되면 이벤트가 끝난 후 Activity Bank 앱에서 인보이스를 신청할 수 있습니다. 청구서는 전자 버전입니다. 일반 VAT 청구서는 청구서가 성공적으로 발행된 후 등록 이메일 주소로 발송됩니다.

포럼 자원봉사자 되기: 로그인, 안내, 주문 관리 등 이벤트 현장의 특정 사항 구현에 참여합니다. 업무 식사가 포함됩니다. 재학생에게 우선권이 주어집니다. 관심있으시면 앨리스에게 연락주세요.

위 내용은 존경받는 자와 잊혀진 자, 소라의 재발에 대해 이야기해보자의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제