Heim >Technologie-Peripheriegeräte >KI >Sprechen wir über die Wiederkehr von Sora: derjenige, zu dem man aufschaut, und derjenige, der vergessen wird

Sprechen wir über die Wiederkehr von Sora: derjenige, zu dem man aufschaut, und derjenige, der vergessen wird

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBnach vorne: 2024-03-27 19:21:311027Durchsuche

Am 16. Februar veröffentlichte OpenAI Sora, ein Blockbuster-Modell im Bereich der Videogenerierung.

Soras Glaube an das Scaling Law und seine bahnbrechenden technologischen Innovationen haben es an der Spitze gehalten. Gleichzeitig beweist es abermals, dass auch im Bereich der vinzentinischen Videos nach wie vor gilt: „Große Anstrengungen können Wunder bewirken“.

Die von Sora preisgegebenen technischen Details reichen bei weitem nicht aus, um sich ein vollständiges Bild zu machen. Gleichzeitig ist Sora noch nicht offiziell für die Öffentlichkeit zugänglich. Seitdem haben die Gedanken und Diskussionen über Sora nie aufgehört.布 Der von Openai veröffentlichte technische Bericht 再谈复现 Sora：被仰望与被遗忘的

Soras größter Einfluss auf den gesamten KI-Bereich besteht darin, wie bestehende Ideen und Frameworks zur Videogenerierung optimiert und korrigiert werden können. Dies löste auch eine Begeisterung für die Nachbildung von Sora aus, die bis heute anhält.

Die Motivation, Sora zu reproduzieren, beruht einerseits auf der technischen Beharrlichkeit und den technischen Idealen der Techniker und andererseits auf dem vorhersehbaren Geschäftswert in der Zukunft.

Darüber hinaus kann nicht ignoriert werden, dass diese Forschungseinrichtung für künstliche Intelligenz-Technologie, die den Spitznamen CloseAI trägt, zu einem Maßstab in der Branche geworden ist und fast jedes veröffentlichte Produkt disruptive Innovationen bringen kann. Aber OpenAI scheint immer weiter auf dem Weg zu gehen, auf Closed Source zu bestehen, was die Leidenschaft der Öffentlichkeit für die Reproduktion von Sora weiter entfacht hat. Wir können davon ausgehen, dass in den nächsten Monaten mehrere Sora-ähnliche Modelle nacheinander veröffentlicht werden und Open Source sein werden.

Mehr als einen Monat nach der Veröffentlichung von Sora: Wie ist der Fortschritt der Diskussion und Reproduktion der damit verbundenen technologischen Innovationen? Schauen wir uns unten um.

In Bezug auf die Reproduktion von Sora geht dieser Artikel von den folgenden drei Aspekten aus:

Es ist mehr als einen Monat her, seit Sora veröffentlicht wurde. Wie ist der aktuelle Fortschritt der Reproduktion?

Wie wahrscheinlich ist es, dass es noch einmal passiert? Was ist die technische Grundlage im Land?
Ist Sora ein Weltmodel? Können Sie uns helfen, zu AGI zu gelangen? Ist es notwendig, es zu reproduzieren?
Sora-ähnliche Modelle

Die drei Modelle, die eingeführt und viel diskutiert wurden, sind Snap Video, Open-Sora 1.0 und Mora.

Snap Video ist ein Sora-ähnliches Modell, das am 29. Februar veröffentlicht wurde. Es verwendet einen erweiterbaren Raum-Zeit-Transformer und stammt aus der Entwicklung von SnapChat picture Sharing-Software Snap Inc. sowie Institutionen wie die Universität Trient.

"Die erste Charge von Sora-ähnlichen Modellen erschien, Sarabu startete Snap Video, der Effekt ist besser als bei Pika, nicht schlechter als Gen-2

Open-Sora 1.0

Open -Sora 1.0 ist das erste Sora-ähnliche Modell, das am 18. März vollständig Open Source war. Es stammt vom Colossal-AI-Team. Dieses Open-Source-Modell deckt den gesamten Trainingsprozess ab, einschließlich der Datenverarbeitung, aller Trainingsdetails und Modellgewichte.

Portal:

"Warten Sie nicht auf OpenAI, sondern darauf, dass Open-Sora vollständig Open Source ist"

Mora

Mora ist ein Multi-Agent-Framework, das vor einigen Tagen von Forschern der Lehigh University und Microsoft Research vorgeschlagen wurde. Das Framework integriert mehrere fortschrittliche visuelle KI-Agenten, um die von Sora demonstrierten allgemeinen Videogenerierungsfunktionen zu reproduzieren.

Portal: „Das Open-Source-Multi-Agent-Framework Mora repliziert die universellen Videogenerierungsfunktionen von Sora“

Obwohl der Reproduktionseffekt des aktuellen Modells immer noch nicht mit Sora mithalten kann, ist er in etwas mehr als einem Monat da waren offensichtliche technologische Durchbrüche, die als optimistisches Signal gewertet werden können. Unvollständigen Statistiken zufolge reproduzieren fast 10 heimische Teams Sora, lasst uns abwarten und sehen.

Technische Architekturinnovation, die DiT vorausgeht

Die von Sora verwendete DiT-Architektur (Diffusion Transformer) ist derzeit die größte technologische Innovation, aber rückblickend ist der inländische Fortschritt vielleicht früher.

U-ViT-Architektur

^{U-ViT-Architektur}

Im September 2022 reichte das Tsinghua-Team einen Artikel mit dem Titel „All are Worth Words: A ViT Backbone for Diffusion“ ein „Models“-Papier, 2 Monate früher als DiT. In diesem Artikel wird vorgeschlagen, die Transformer-basierte Netzwerkarchitektur U-ViT als Ersatz für das CNN-basierte U-Net zu verwenden, was mit Soras Idee übereinstimmt, Transformer- und Diffusionsmodelle zu integrieren.

Portal:"Wird erwartet, dass inländische Unternehmen Sora herstellen werden?" Dieses große Modellteam der Tsinghua-Universität gibt Hoffnung》

VDT

Der Video Diffusion Transformer (VDT), der im Mai 2023 auf der arXiv-Website veröffentlicht wurde, wurde von der Renmin University of untersucht China Ein einheitliches Videogenerierungs-Framework auf Basis von Transformer, das vom Team geleitet wird und mit der University of California, Berkeley und der University of Hong Kong zusammenarbeitet. Außerdem wird eine ausführliche Erläuterung der Gründe für die Einführung der Transformer-Architektur gegeben.

Portal:"Inländische Universitäten bauen Sora-ähnliche VDT-Modelle, und der universelle Videodiffusionstransformator wird von ICLR 2024 akzeptiert"

Vielleicht hinkt die inländische Erforschung bei der Innovation von Kerntechnologien nicht hinterher, ist es aber Der Kurve voraus. Vorne. Aufgrund von Ressourcenbeschränkungen, technischer Straßenplanung und anderen Gründen war es jedoch bisher nicht möglich, ähnliche Effekte wie Sora zu erzielen.

Sora hat zweifellos einen technisch machbaren Weg bewiesen, und unsere eigene führende Erforschung der technischen Architektur wird uns bei der Reproduktion von Sora förderlicher sein, und wir können in einigen Bereichen sogar optimistischer sein als die Auswirkungen von Sora.

Ist Sora ein Weltmodel?

Eine weitere heiße Diskussion, die Sora ausgelöst hat, dreht sich um das Weltmodell.

Die von Sora generierten Videos haben zweifellos ein gewisses Verständnis für die physische Welt, wie zum Beispiel das klassische „Piratenschiff in einer Kaffeetasse“, das mit bloßem Auge sichtbar ist und professionelle Fluiddynamik, Licht und andere Merkmale der physischen Welt.

Aber einige Wissenschaftler, vertreten durch Yann LeCun, beweisen eindeutig, dass Soras Trainingsmethode nichts mit dem Weltmodell zu tun hat.

Ist Sora also ein Weltmodell? Versteht sie die physische Welt? Diskussionen darüber haben sich auf verschiedene Foren und Live-Übertragungen ausgeweitet. Man erkennt, dass jeder eine andere Meinung zum Thema „Was ist ein Weltmodell“ hat?

Was wir mit Sicherheit wissen können, ist, dass, wenn Sora ein Weltmodell ist, das Ideal der allgemeinen künstlichen Intelligenz (AGI) möglicherweise früher eintrifft, als wir erwarten. Dann ist es notwendig, Sora zu reproduzieren.

Über Sora bleiben wir neugierig und erforschen weiterhin mögliche Antworten auf die folgenden Fragen.

Kann Soras vorherige Architektur/Technologie der Videogeneration weiterhin verwendet werden? Wie benutzt man?
Wer ist nach Sora vergessen? Zu wem wird aufgeschaut?
Wie sollen außer Sora andere Startups/Teams das machen? Was ist zu tun?
Wird Sora die Mainstream-Technologiearchitektur verändern? Wird die von DiT vertretene Architektur in Zukunft die Mainstream-Architekturwahl sein?
Sollte die heimische Technologiemacht Sora reproduzieren? Warum?
Fast 10 Teams sind dafür bekannt, Sora zu reproduzieren. Wie sieht das zukünftige Muster aus?
Warum OpenAI? Kann das Modell von OpenAI repliziert werden?
Wie sieht die globale Videogenerierungslandschaft nach Sora aus? Wie wird es sich entwickeln und verändern?
Was halten Sie davon, dass einige Star-Startups öffentlich erklären, dass sie Sora nicht machen werden?
Wo liegt die Zukunft multimodaler Großmodelle?
Wie betrachten Sie Soras Wirkung aus verschiedenen Perspektiven? (Perspektiven von Investoren, Nicht-Technikern, staatlichen Unternehmen, KI-Unternehmern, Praktikern usw.)
Welche gesellschaftliche Rolle spielt OpenAI? Was halten Sie von diesem Unternehmen?
...

Die Wirkung von Sora ist subversiv, daher wird die Lösung der oben genannten Probleme weitergehen. Als Team, das sich auf die Erforschung und Anwendungspraxis modernster KI-Technologien konzentriert, konzentriert sich unser KI-Technologieforum erneut auf den Bereich der Videogenerierung.

Am 13. April planten wir in Liudaokou, Peking, ein technisches Forum, um uns auf technologische Innovation, Denken und Anwendungspraxis nach der Veröffentlichung von Sora zu konzentrieren. Die Veranstaltung wird viele wichtige Gäste zusammenbringen und wir werden auch die oben genannten Themen vertiefen.

Ich glaube, dass diese Veranstaltung in absehbarer Zukunft eine gewisse positive Wirkung und Inspiration haben kann, um die technologische Entwicklung und Verbreitung der KI-Open-Source-Community meines Landes zu fördern.

Gastaufgebot

Dieses Forum hat ein starkes Gastaufgebot:

Herr Zhang Junlin, ein bekannter technischer Experte in der Branche. Tiefenzerlegung der Kerntechnologie von Sora
Der Autor des beliebten Videogenerierungsmodells PixelDance, Lehrer Zeng Yan von ByteDance, teilt die technologische Innovation und Anwendung hinter PixelDance
Der Teamleiter des Sora-ähnlichen Modells VDT, von ein von der Renmin University of China gegründetes Startup-Unternehmen – Dr. Gao Yizhao, CEO von Sophon Engine, erläutert die technische Innovation und Praxis von VDT im Detail
Investoren spielen eine wichtige Rolle, die nicht von der KI getrennt werden kann Als Investmentpartner von Fengrui Capital wird Herr Chen Shi eine einzigartige Beobachtung aus Sicht von Investoren/Institutionen leiten
Staatseigene Unternehmen reagierten schnell nach der Veröffentlichung von Sora und besetzten einen Platz in der KI Herr Tong Tong, Leiter der Algorithmentechnologie von China Mobile Information Technology Co., Ltd., wird seine neue Denkweise teilen
Der technische Leiter des Sora-ähnlichen Modells Open-Sora 1.0, Herr Bian Zhengda, Der CTO von Luchen Technology wird im Detail erläutern, wie Sora reproduziert werden kann, sowie die einzigartige Denkweise und Praxis ihres Teams

Derzeit als neuer Herausgeber von Sina Weibo tätig Verantwortlich für Technologieforschung und -entwicklung, war zuvor als leitender technischer Experte bei Alibaba tätig und verantwortlich für das neue Technologieteam. Autor der Fachbücher „This is Search Engine: Detaillierte Erläuterung der Kerntechnologie“ und „Big Data Daily Record: Architecture and Algorithms“.

Zeng Yan

Algorithmusingenieur bei ByteDance Research

Fokus auf Spitzenforschung in Bereichen wie Videogenerierung und multimodales Vortraining. Das Modell, das er in Forschung und Entwicklung leitet, hat leistungsstarke Dienste für ByteDances Videogenerierung, kurze Videorezensionen, E-Commerce-Kundenservice, Toutiao, Problemlösung im Bildungsbereich und andere Unternehmen bereitgestellt und er hat acht verwandte Artikel als Erstautor in TPAMI veröffentlicht. ICML, CVPR, ACL und andere führende internationale Konferenzen und Zeitschriften und fungiert auch als Gutachter für TPAMI, ICML, NIPS, ICLR und andere Konferenzen. Das Basismodell der PixelDance-Videoerzeugung, dessen Forschung und Entwicklung er leitete, erreichte zum ersten Mal in der Branche eine Kombination aus hoher Dynamik und Stabilität und erzeugte zum ersten Mal eine 3-minütige kontinuierliche Handlungsanimation.

陈
石

Fengrui Capital Investment Partner

konzentriert sich auf Investitionen in Technologie, Software, Internet, Konsum und anderen Bereichen. Bevor er zu Fengrui Capital kam, verfügte er über fünf Jahre Managementerfahrung bei Alibaba. Er war Vizepräsident der Alibaba Mobile Business Group, leitender Angestellter der Alibaba Culture and Entertainment Group, Mitglied des internationalen Klassenkomitees von Youku und UC und engagierte sich intensiv bei UC , AutoNavi, Youku und Tudou, Shenma Search, UC International und andere Produktlinien zur Entscheidungsfindung und Managementausführung.

15+ Jahre kontinuierliches Unternehmertum, als Mitglied des Kernmanagementteams, stark beteiligt an UC (dem weltweit größten mobilen Browser eines Drittanbieters, der 2014 von Alibaba übernommen wurde) und Lakala (einem bekannten Drittanbieter) Party-Zahlungsunternehmen in China, SZ: 300773) Im unternehmerischen Prozess fungierte er einst als Vizepräsident bzw. CTO; er war einst ein glücklicher Programmierer, Experte für Benutzerwachstum und Technologie-Enthusiast.

Sie verfügen über einen Bachelor- und Master-Abschluss in Maschinenbau und Elektrotechnik der Beihang-Universität. Im Jahr 2023 wurde er von EqualOcean zu den „Top 30 Global Global Investors“ und von Jiazi Guangnian zu den „Top 20 Best Investors in Artificial Intelligence and Big Data in 2022-2023“ ernannt.

Gao Yizhao

Sophon Engine CEO

Ph.D., School of Artificial Intelligence, Renmin University of China. Als Experte für multimodale Großmodelle hat er viele Top-Zeitschriften und Konferenzbeiträge veröffentlicht und ein mehrköpfiges Team geleitet, um die Wenlan-Schulung für Großmodelle abzuschließen. Beteiligen Sie sich während des gesamten Prozesses an der Entwicklung und Förderung von Sophon-Motormodellen und -produkten.

卞正达

CTO von Luchen Technology

Er hat einen Artikel an der SC, der weltweit führenden Supercomputing-Konferenz, veröffentlicht und verfügt über 7 Jahre Erfahrung in Hochleistungs-KI-Systemen, Hauptentwickler des Colossal-KI-Systems.

Tong Tong

Leiter der Algorithmentechnologie bei China Mobile Information Technology Co., Ltd.

Ph.D. in KI vom Institut für Automatisierung der Chinesischen Akademie der Wissenschaften . Derzeit ist er bei China Mobile Information Technology Co., Ltd. für die Forschung und Entwicklung multimodaler Großmodelle, digitaler Menschen, intelligenter Agenten und anderer Bereiche verantwortlich und hat die Implementierung von Schlüsseltechnologien wie Vincent Pictures und Vincent realisiert Videos, große Modellaktionserkennung und Zielerkennung. Veröffentlichte insgesamt 12 Artikel, 12 Unternehmenspatente und 4 Soft-Publikationen.

Weitere Experten werden bestätigt, also bleiben Sie dran.

Videoerzeugungstechnologie und -anwendung – Sora-Ära

Das KI-Technologieforum dieser Website verfolgt stets einfühlsam die technologischen Durchbrüche im KI-Bereich, um Soras Einfluss auf die Technologie und ihre Auswirkungen auf alle eingehend zu untersuchen Für alle Lebensbereiche haben wir speziell das KI-Technologieforum „Video Generation Technology and Application – Sora Era“ geplant.

Wir hoffen, Unternehmen und Praktikern dabei zu helfen, mit dem Trend der technologischen Entwicklung Schritt zu halten und ein umfassendes Verständnis für technologische Durchbrüche und Anwendungspraktiken in Spitzenbereichen wie Sora, Videogenerierungstechnologie und multimodalen Großmodellen zu erlangen .

Angesichts des Ansturms der KI-Videogenerierung können wir den technologischen Trend nur nutzen und durchbrechen, wenn wir uns aktiv auf das Lernen einlassen und es wagen, es auszuprobieren.

Ich freue mich darauf, Sie am 13. April 2024 im Bezirk Haidian in Peking zu treffen.

再谈复现 Sora：被仰望与被遗忘的

Der Registrierungskanal für das Forum ist offiziell eröffnet. Scannen Sie den QR-Code auf dem Poster, um direkt zur Veranstaltungsseite zu gelangen. Aufgrund der verspäteten Veröffentlichung von Gastvorstellungen wurde der Frühbucherrabattzeitraum für dieses Forum verlängert.

Von jetzt an bis zum 7. April, 23:55 Uhr, können Sie Tickets für die Teilnahme an der Konferenz kaufen und erhalten einen Direktrabatt von 200 Yuan sowie den speziellen Frühbucherticketpreis von 699 Yuan (Originalpreis 899 Yuan). ). Für Gruppenkäufe von fünf Personen gibt es noch exklusivere Rabatte. Weitere Informationen finden Sie auf der Seite mit den Veranstaltungsdetails.

Frühere Teilnehmer des KI-Technologieforums dieser Website fügen bitte Alices WeChat-Konto separat hinzu, um direkten Zugriff auf den exklusiven Rabattlink zu erhalten.

Aktivitäts-Highlights

Kostenlose dauerhafte Anzeige der Forum-Aktivitätsvideos und Kursmaterialien der vorherigen Ausgabe von „Frontier Research and Application of Video Generation“ (wenn Sie die vorherige Ausgabe gekauft haben, wenden Sie sich bitte an Alice, um einen Rabatt zu erhalten. Denken Sie daran, Alice zu bitten, die vorherige Ausgabe einzulösen, nachdem Sie diese Ausgabe gekauft haben. Ausgabevideo)
Sehen Sie sich nach der Veranstaltung dauerhaft das Video und die Kursmaterialien dieser Forumsveranstaltung „Video Generation Technology and Application – Sora Era“ an.
Treffen der Universität Professoren und hochrangige technische Experten der Branche, um die neueste Technologie zu beherrschen und ihren technischen Horizont zu erweitern Praktiken von Star-Produkten, Diskussionen und Aussichten für die Zukunft der Technologie
Vollständiger Prozess zur Unterstützung des Lernens: Lernen vor und nach dem Treffen Informations-Geschenkpaket
Treten Sie der Community zum Austausch hochwertiger Videogenerierungstechnologie bei und folgen Sie rechtzeitig dem Spitzentechnologie und Informationen der Branche
Genießen Sie 15 % Rabatt auf Tickets für entsprechende kostenpflichtige Aktivitäten auf dieser Website
Technology Exchange Society Group
Um den technischen Austausch zu erleichtern, haben wir außerdem speziell eine eingerichtet Technologieaustauschgruppe für Videogenerierung, die sich für Sora, Videogenerierung und multimodale Großmodelle interessiert, ist herzlich eingeladen, den QR-Code zu scannen, um an der Diskussion teilzunehmen und sich ausführlich über technische Details und Branchenbeobachtungen auszutauschen.

Bei Fragen zur geschäftlichen Zusammenarbeit, zum Gruppeneinkauf, zu Rechnungen, Inhalten und anderen damit zusammenhängenden Themen für diese Veranstaltung wenden Sie sich bitte an Alice, die für diese Veranstaltung verantwortliche Person, oder wenden Sie sich per E-Mail an uns.

WeChat: 15650753618

E-Mail: jiayaning@jiqizhixin.com

Über die Rechnung:

Nach erfolgreicher Registrierung können Sie nach der Veranstaltung eine Rechnung in der Activity Bank App beantragen Bei der Rechnung handelt es sich um eine elektronische Version. Nach erfolgreicher Ausstellung der Rechnung wird eine allgemeine Rechnung mit ausgewiesener Mehrwertsteuer an die Registrierungs-E-Mail-Adresse gesendet.

Werden Sie Freiwilliger im Forum:

Beteiligen Sie sich an der Umsetzung spezifischer Angelegenheiten am Veranstaltungsort, wie z. B. Anmeldung, Anleitung, Auftragsverwaltung usw. Arbeitsmahlzeiten sind inbegriffen. Aktuelle Studierende werden vorrangig berücksichtigt. Bei Interesse wenden Sie sich bitte an Alice.

Das obige ist der detaillierte Inhalt vonSprechen wir über die Wiederkehr von Sora: derjenige, zu dem man aufschaut, und derjenige, der vergessen wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 for 算法人工智能 cnn transformer 搜索引擎自动化 agi

Stellungnahme：

Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Ausführliche Erklärung von Latte: Das weltweit erste Open-Source-Vincent-Video DiT wurde Ende letzten Jahres veröffentlichtNächster Artikel：Ausführliche Erklärung von Latte: Das weltweit erste Open-Source-Vincent-Video DiT wurde Ende letzten Jahres veröffentlicht

In Verbindung stehende Artikel

Mehr sehen