Heim > Artikel > Technologie-Peripheriegeräte > Komm schnell! Luchen Open-Sora kann Wolle sammeln und Sie können für 10 Yuan ganz einfach mit der Videoerstellung beginnen.
In letzter Zeit boomt die Modellbahn der Videogenerierung mit Vincent-Videos, Tu-Videos und so weiter. Doch obwohl es viele Modelle auf dem Markt gibt, können die meisten Menschen diese noch nicht erleben, weil sie nicht über die Qualifikation für interne Tests verfügen, sodass sie nur auf die „Modelle“ schauen und seufzen können. Vor nicht allzu langer Zeit haben wir über das Open-Sora-Modell von Luchen Technology berichtet. Als weltweit erstes Open-Source-Sora-Modell funktioniert es nicht nur gut bei mehreren Arten von Videos, sondern ist auch kostengünstig und für jedermann verfügbar. Funktioniert es? wie benutzt man? Werfen wir einen Blick auf die Rezension dieser Website.
Die neue Open-Source-Version 1.2 von Open-Sora kann hochauflösende 720p-Videos mit einer Länge von bis zu 16 Sekunden erzeugen:
Der erzeugte Effekt ist wirklich erstaunlich dass so viele Leser im Hintergrund loslegen wollen.
Verglichen mit vielen Closed-Source-Softwareprogrammen, die lange Warteschlangen erfordern, um auf interne Testqualifikationen zu warten, ist dieses vollständig Open-Source-Open-Sora offensichtlich zugänglicher. Allerdings ist der offizielle Github von Open-Sora voller Technologie und Code. Wenn Sie das Erlebnis selbst bereitstellen möchten, ist dies, ganz zu schweigen von den hohen Hardwareanforderungen des Modells, auch eine große Herausforderung für die Codierungskenntnisse des Benutzers bei der Konfiguration Umfeld.
Gibt es also eine Möglichkeit, auch unerfahrenen KI-Benutzern die Verwendung von Open-Sora zu erleichtern?
Zuerst das Fazit: Ja, und es kann mit einem Klick bereitgestellt werden. Nach dem Start können auch die Videolänge, das Bild, das Objektiv und andere Parameter ohne Code gesteuert werden.
Bist du aufgeregt? Dann werfen wir einen Blick auf die Implementierung der Open-Sora-Bereitstellung. Am Ende des Artikels finden Sie detaillierte Tutorials und Verwendungshinweise auf Kindermädchenebene, die ohne technischen Hintergrund bedient werden können.
Visualisierungslösung basierend auf Gradio
Zu den neuesten technischen Details von Open-Sora Wir haben einen ausführlichen Bericht erstellt. Im Bericht haben wir uns auf die Kernarchitektur des OpenSora-Modells und sein innovatives Videokomprimierungsnetzwerk (VAE) konzentriert. Am Ende dieses Artikels haben wir erwähnt, dass das Luchen Open-Sora-Team Gradio-Anwendungen bereitstellt, die mit einem Klick bereitgestellt werden können. Wie genau sieht diese Gradio-Anwendung aus?
Gradio selbst ist ein Python-Paket, das für die schnelle Bereitstellung von Modellen für maschinelles Lernen entwickelt wurde. Es ermöglicht Entwicklern, automatisch eine Webschnittstelle zu generieren, indem sie die Eingabe und Ausgabe des Modells definieren, wodurch der Online-Anzeige- und Interaktionsprozess des Modells vereinfacht wird.
Wir haben die GitHub-Homepage von Open-Sora sorgfältig gelesen und festgestellt, dass die Anwendung das Open-Sora-Modell organisch mit Gradio kombiniert und so eine elegante und übersichtliche Interaktionslösung bietet.
Es verwendet eine grafische Oberfläche, um die Bedienung zu vereinfachen. In der Benutzeroberfläche können Benutzer grundlegende Parameter wie Dauer, Seitenverhältnis und Auflösung des generierten Videos frei ändern. Sie können auch die Bewegungsamplitude, den ästhetischen Wert und erweiterte Methoden der Linsenbewegung des generierten Videos unabhängig anpassen. Es unterstützt auch den Aufruf von GPT-4 zur Optimierung der Eingabeaufforderung, sodass sowohl die chinesische als auch die englische Texteingabe unterstützt werden kann.
Nach der Bereitstellung der Anwendung müssen Benutzer bei Verwendung des Open-Sora-Modells keinen Code schreiben. Sie müssen lediglich eine Eingabeaufforderung eingeben und auf „Ersetzen“ klicken, um verschiedene Parameterkombinationen zum Generieren von Videos auszuprobieren. Das generierte Video wird auch direkt in der Gradio-Oberfläche angezeigt und kann ohne komplizierte Pfade direkt auf der Webseite heruntergeladen werden.
Bildquelle: https://github.com/hpcaitech/Open-Sora/blob/main/assets/readme/gradio_basic.png
Uns ist aufgefallen, dass das Open-Sora-Team das Drehbuch hat zur Anpassung des Modells an Gradio wird in Github bereitgestellt, außerdem wird der Befehlszeilencode für die Bereitstellung bereitgestellt. Allerdings müssen wir noch eine komplexe Umgebungskonfiguration durchlaufen, um den bereitgestellten Code erfolgreich auszuführen. Wenn wir die Funktionen von Open-Sora vollständig nutzen möchten, insbesondere um langfristig hochauflösende Videos (z. B. 720P 16 Sekunden) zu erstellen, benötigen wir eine Grafikkarte mit guter Leistung und großem Videospeicher (die offizielle Version ist H800). . Die Lösung von Gradio scheint nicht zu erwähnen, wie diese beiden Probleme gelöst werden können.
Diese beiden Probleme mögen auf den ersten Blick sehr schwierig erscheinen, aber sie können von Luchen Cloud perfekt gelöst werden, indem eine wirklich einfache Bereitstellung ohne den Bedarf an Technologie erreicht wird. Wie man anfängt? Hier auf dieser Seite gibt es ein supereinfaches Tutorial.
Super einfaches Ein-Klick-Bereitstellungs-Tutorial
Wie einfach ist es, Open-Sora in der Luchen Cloud bereitzustellen?
Zuallererst bietet Luchenyun mehrere Arten von Grafikkarten an, darunter auch High-End-Grafikkarten wie A800 und H800, die problemlos gemietet werden können. Nach unseren Tests kann diese 80-GB-Videospeicherkarte die Inferenzanforderungen des Open-Sora-Projekts mit einer einzigen Karte erfüllen.
Zweitens hat Luchen Cloud ein spezielles Image für das Open-Sora-Projekt ausgestattet. Dieses Bild ist wie ein elegant dekorierter Raum, in den Sie mit Ihrem Gepäck einziehen können. Die gesamte Betriebsumgebung kann mit einem Klick gestartet werden, sodass keine komplizierten Links zur Umgebungskonfiguration erforderlich sind.
Schließlich bietet Luchenyun auch supergünstige Preise und super personalisierte Dienstleistungen. Der Preis einer A800-Karte beträgt weniger als 10 Yuan pro Stunde und die Zeit für die Initialisierung des Bildes wird nicht in Rechnung gestellt. Der Cloud-Host kann jederzeit heruntergefahren werden, um die Abrechnung einzustellen. Mit anderen Worten: Für weniger als 10 Yuan/Stunde können Sie das überraschende Erlebnis von Open-Sora in vollen Zügen genießen! Darüber hinaus haben wir am Ende des Artikels eine Methode zum Erhalt eines 100-Yuan-Gutscheins eingefügt. Beeilen Sie sich und registrieren Sie ein Konto, um den Gutschein zu erhalten, und folgen Sie unserem Tutorial!
Luchenyun-Website: https://cloud.luchentech.com/
Betreten Sie zunächst die Website, um ein Konto bei Luchenyun zu registrieren. Sobald Sie die Hauptseite betreten, sehen Sie direkt die im Rechenleistungsmarkt zur Miete verfügbaren Maschinen. Holen Sie sich einen Gutschein oder laden Sie 10 Yuan auf, und folgen Sie der Bedienungsanleitung von Luchenyun, um mit dem Aufbau eines Cloud-Hosts zu beginnen.
Der erste Schritt besteht darin, einen Spiegel auszuwählen. Sobald Sie das öffentliche Bild öffnen, ist das erste, auf das Sie klicken, OpenSora (1.2), was wirklich praktisch ist.
Im zweiten Schritt wählen Sie die Abrechnungsmethode. Es gibt zwei Abrechnungsmethoden: Gezeitenabrechnung und nutzungsbasierte Abrechnung. Wir haben es ausprobiert und festgestellt, dass die Gezeitenmessung Geld spart und der A800 in Leerlaufzeiten sogar noch günstiger ist!
Für Open-Sora-Inferenz reicht ein A800 aus, wir haben eine 1-Karten-Konfiguration gewählt und SSH-Verbindung, Speicherpersistenz und gemountete öffentliche Daten (einschließlich Modellgewichtungen) zugelassen. Diese Funktionen sind kostenlos, bieten mehr Komfort und sind supergewissenhaft.
Klicken Sie nach der Auswahl auf „Erstellen“. Die Startzeit des Cloud-Hosts ist sehr kurz und die Maschine ist innerhalb von mehreren zehn Sekunden betriebsbereit. Dieser Zeitraum wird nicht in Rechnung gestellt. Wenn Sie also auf ein relativ großes Bild stoßen, das viel Zeit in Anspruch nimmt, müssen Sie sich über die Kosten keine Sorgen machen.
Im dritten Schritt klicken wir auf der Cloud-Host-Seite auf JupyerLab, um die Webseite aufzurufen. Sobald wir eintraten, wurde ein Terminal für uns geöffnet.
Wir geben ls ein, um die Dateien des Cloud-Hosts anzuzeigen. Wir können sehen, dass sich der Open-Sora-Ordner im ursprünglichen Pfad befindet.
Da wir das exklusive Open-Sora-Image verwenden, müssen wir keine zusätzliche Umgebung installieren. Der zeitaufwändigste Schritt wurde perfekt gelöst.
Zu diesem Zeitpunkt können wir den Befehl zum Ausführen von Gradio direkt eingeben, um Gradio schnell zu starten und tatsächlich eine Bereitstellung mit einem Klick zu erreichen.
Bashpython gradio/app.py
Die Geschwindigkeit ist sehr hoch, es dauert nur mehr als zehn Sekunden, bis Gradio losläuft.
Wir haben jedoch festgestellt, dass dieses Gradio standardmäßig auf dem Server http://0.0.0.0:7860 läuft. Wenn Sie es in Ihrem lokalen Browser verwenden möchten, müssen Sie zuerst Ihren öffentlichen SSH-Schlüssel zu Luchen Cloud im Computer hinzufügen . Auch dieser Schritt ist sehr einfach. Geben Sie einfach die folgende Datei ein und fügen Sie den geheimen Schlüssel des lokalen Computers ein.
Als nächstes müssen wir auch die Anweisungen zur lokalen Vervollständigung des Ports schreiben. Wir können den Anweisungen in diesem Screenshot folgen. Wenn Sie es verwenden, müssen Sie es durch die spezifische Adresse und den Port Ihres eigenen Cloud-Hosts ersetzen.
Dann öffnen Sie die entsprechende Webseite und bald erscheint eine visuelle Bedienoberfläche.
Wir haben zuerst zufällig eine englische Eingabeaufforderung eingegeben und geklickt, um mit der Generierung zu beginnen (es wurde die Standardeinstellung 480p verwendet, die schneller ist).
a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)
很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。
没关系,调整了指令再来一次:
a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)
这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。
如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。
想要进阶?微调也能轻松上手
此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!
让我们用潞晨云的公开数据中提供的视频数据来验证一下。
由于环境全都是配置好的,我们只需复制粘贴训练指令。
torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv
这边输出了一连串模型训练的信息。
训练已经正常启动了,居然只要单卡就能训!
( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。
以下是我们训练的时候 GPU 资源占用情况:
简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。
在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。
不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:
95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元
Diese Zahl stellt immer noch eine gewisse Schwelle für die Bewertung dar, ist aber auch sehr kostengünstig für die Erstellung eines exklusiven Vincent-Videomodells. Insbesondere für Unternehmen sind im Grunde keine Vorarbeiten erforderlich. Wenn Sie der Schritt-für-Schritt-Anleitung folgen, können Sie eine Feinabstimmung für weniger als 100.000 Yuan oder sogar weniger durchführen. Ich freue mich wirklich darauf, weitere verbesserte Versionen von Open-Sora im professionellen Bereich zu sehen!
Abschließend fügen wir noch die 100-Yuan-Gutschein-Vorteilsveranstaltung hinzu, die wir bereits erwähnt haben ~ Obwohl die Kosten für unsere Bewertung weniger als 10 Yuan betragen, müssen wir trotzdem Geld sparen!
Aus den offiziellen Informationen von Luchen Cloud können wir ersehen, dass Benutzer ihre Erfahrungen in sozialen Medien und professionellen Foren (wie Zhihu, Xiaohongshu, Weibo, CSDN usw.) teilen (mit #Luchenyun oder @Luchen Technology). ), können Sie einen 100-Yuan-Gutschein (gültig für eine Woche) erhalten, indem Sie ihn einmal effektiv teilen, was fünf- oder sechshundert Videos entspricht, die während unserer Bewertung generiert wurden~
Abschließend haben wir relevante Ressourcenlinks zusammengestellt unten, damit jeder schnell loslegen kann. Freunde, die es sofort ausprobieren möchten, klicken Sie hier, um den Originaltext zu lesen, ihn mit einem Klick zu versenden und Ihre KI-Videoreise zu starten!
Links zu verwandten Ressourcen:
Lu Chenyun-Plattform: https://cloud.luchentech.com/
Open-Sora-Codebasis: https://github.com/hpcaitech / Open-Sora/tree/main?tab=readme-ov-file#inference
Bilibili-Tutorial: https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd36ff0e535a768e35d98d2
Das obige ist der detaillierte Inhalt vonKomm schnell! Luchen Open-Sora kann Wolle sammeln und Sie können für 10 Yuan ganz einfach mit der Videoerstellung beginnen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!