搜索
首页科技周边人工智能智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

智谱AI把自研打造的大模型给开源了。


国内视频生成领域越来越卷了。刚刚,智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

  • 代码仓库:https://github.com/THUDM/CogVideo
  • 模型下载:https://huggingface.co/THUDM/CogVideoX-2b
  • 技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日,智谱 AI 正式发布视频生成产品「清影」,得到大家广泛好评。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。

官宣即日起,清影上线清言 App,所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。

「清影」的出现被誉为是国内首个人人可用的 Sora。发布 6 天,「清影」生成视频数就突破百万量级。

  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

为何智谱 AI 开源模型如此爆火?要知道虽然现在视频生成技术正逐步走向成熟,然而,仍未有一个开源的视频生成模型,能够满足商业级应用的要求。大家熟悉的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源,对广大研究者而言,意义重大。
 
CogVideoX 开源模型包含多个不同尺寸大小的模型,目前智谱 AI 开源 CogVideoX-2B,它在 FP-16 精度下的推理仅需 18GB 显存,微调则只需要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。
 
CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480。智谱 AI 为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
 
性能更强参数量更大的模型正在路上,敬请关注与期待。

模型

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

VAE

视频数据因包含空间和时间信息,其数据量和计算负担远超图像数据。为应对此挑战,智谱提出了基于 3D 变分自编码器(3D VAE)的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和时间维度,实现了更高的压缩率和更好的重建质量。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

模型结构包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性,减少了通信开销。智谱采用上下文并行技术以适应大规模视频处理。

实验中,智谱 AI 发现大分辨率编码易于泛化,而增加帧数则挑战较大。因此,智谱分两阶段训练模型:首先在较低帧率和小批量上训练,然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。
 
专家 Transformer

智谱 AI 使用 VAE 的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开成长的序列嵌入 z_vision。同时,智谱 AI 使用 T5,将文本输入编码为文本嵌入 z_text,然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。最后,反向拼接嵌入来恢复原始潜在空间形状,并使用 VAE 进行解码以重建视频。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Data

视频生成模型训练需筛选高质量视频数据,以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开发了负面标签来识别和排除低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 训练的过滤器,智谱 AI 标注并筛选了 20,000 个视频数据点。同时,计算光流和美学分数,动态调整阈值,确保生成视频的质量。
 
视频数据通常没有文本描述,需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短,无法全面描述视频内容。智谱 AI 提出了一种从图像字幕生成视频字幕的管道,并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过 Panda70M 模型生成简短字幕,使用 CogView3 模型生成密集图像字幕,然后使用 GPT-4 模型总结生成最终的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕数据进行训练,以加速视频字幕生成过程。

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Prestasi

Untuk menilai kualiti penjanaan teks-ke-video, Zhipu AI menggunakan berbilang penunjuk dalam VBench, seperti tindakan manusia, adegan, dinamik, dsb. Zhipu AI juga menggunakan dua alat penilaian video tambahan: Kualiti Dinamik dalam Devil dan Skor GPT4o-MT dalam Chrono-Magic, yang memfokuskan pada ciri dinamik video. Seperti yang ditunjukkan dalam jadual di bawah.
智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调
Zhipu AI telah mengesahkan keberkesanan undang-undang penskalaan dalam penjanaan video Pada masa hadapan, ia akan terus meningkatkan skala data dan skala model sambil meneroka seni bina model baharu dengan lebih banyak inovasi terobosan dan maklumat Video yang lebih cekap , gabungan kandungan teks dan video yang lebih lengkap.

Akhir sekali, mari kita lihat kesan "Clear Shadow".

Petua: "Sebuah bot mainan kayu yang halus dengan tiang dan layar yang diukir indah meluncur dengan lancar merentasi permaidani biru mewah yang meniru ombak laut. Badan kapal dicat coklat yang kaya dan mempunyai tingkap kecil. Permaidani lembut dan bertekstur, menyediakan latar belakang yang sempurna untuk menyerupai lautan yang luas Terdapat juga pelbagai mainan dan barangan kanak-kanak yang mengelilingi bot, menunjukkan persekitaran yang menyeronokkan dan imaginasi zaman kanak-kanak dengan bot mainannya persekitaran. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Petua: "Kamera mengikuti SUV lama berwarna putih dengan rak bumbung hitam ketika ia mendaki bukit yang curam dan di sepanjang jalan tanah yang dikelilingi oleh pokok pain , tayar mengeluarkan debu dan matahari bersinar SUV itu meluncur laju di sepanjang jalan tanah, memancarkan cahaya hangat di tempat kejadian jalan tanah perlahan-lahan melengkung ke kejauhan, dan tidak ada kereta atau kenderaan lain yang kelihatan di kedua-dua belah jalan itu dipenuhi dengan kayu merah adalah tompok-tompok kehijauan jika dilihat dari belakang, kereta itu mengikuti selekoh dengan mudah, memberikan gambaran bahawa ia memandu di atas rupa bumi yang berceranggah, dikelilingi oleh bukit dan gunung yang curam, dengan langit biru cerah di atasnya : "Lanskap hutan bersalji dengan jalan tanah yang melintasinya. Jalan itu dipenuhi dengan pokok-pokok yang dilitupi salji dan tanah juga dilitupi salji. Matahari bersinar terang, mewujudkan suasana yang cerah dan damai. Jalan itu kosong dan tiada orang atau haiwan kelihatan dalam video Gaya video adalah gambar landskap semula jadi, memfokuskan kepada keindahan hutan bersalji dan ketenangan jalan raya - atas gril pada gril dengan lecuran ringan dan asap ringan."智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

以上是智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
迅速工程中的密度链是什么? - 分析Vidhya迅速工程中的密度链是什么? - 分析VidhyaApr 18, 2025 am 11:04 AM

掌握提示工程中的密度链:创建简洁而有效的提示 在自然语言处理 (NLP) 和人工智能领域,掌握提示工程已变得至关重要。这项技能融合了科学和艺术,它涉及精心设计精确的指令来引导 AI 模型生成所需的结果。在众多技术中,密度链 (Chain of Density) 作为一种创建简洁有效提示的强大方法脱颖而出。本文深入探讨提示工程中密度链的概念、应用及其在 AI 驱动内容创作中的意义。 概述 提示工程中的密度链方法在 NLP 和 AI 中至关重要。 通过压缩和添加相关信息来迭代地改进广泛的摘要。

Elevenlabs API:语音综合,克隆等指南Elevenlabs API:语音综合,克隆等指南Apr 18, 2025 am 10:59 AM

Elevenlabs:革命性的声音合成与AI 通过Elevenlabs的尖端AI语音综合和音频解决方案,将文本毫不费力地转变为迷人的声音。 本指南探讨了Elevenlabs的关键功能,提供了一个实用的API演示

使用VGG16和FAI构建有效的图像相似性搜索使用VGG16和FAI构建有效的图像相似性搜索Apr 18, 2025 am 10:56 AM

快速图像检索:与VGG16和Faiss建立高速相似性搜索系统 想象一下手动搜索无数照片以找到特定图像的挫败感。 本文探讨了一个解决方案:建立闪电般的速度

火焰监护人:基于深度学习的火灾检测系统火焰监护人:基于深度学习的火灾检测系统Apr 18, 2025 am 10:54 AM

介绍 想象一下,在您确保家人的安全时,醒来就会闻到烟气,心跳加速。早期检测至关重要,而“火焰监护人”是一个深度学习驱动的火灾检测系统,旨在

将文本文档转换为带有TFIDFECTORIZER的TF-IDF矩阵将文本文档转换为带有TFIDFECTORIZER的TF-IDF矩阵Apr 18, 2025 am 10:26 AM

本文解释了术语“频率分析”频率(TF-IDF)技术,这是一种自然语言处理(NLP)的关键工具(NLP),用于分析文本数据。 TF-IDF通过加权TE超过基本词袋方法的局限性

使用Langchain建立智能AI代理:实用指南使用Langchain建立智能AI代理:实用指南Apr 18, 2025 am 10:18 AM

使用兰班释放AI特工的力量:初学者指南 想象一下,通过让她与Chatgpt聊天来向您的祖母展示人工智能的奇观 - 当AI毫不费力地进行对话时,她的脸上的兴奋! Th

MISTRAL大2:足够强大,可以挑战Llama 3.1 405b?MISTRAL大2:足够强大,可以挑战Llama 3.1 405b?Apr 18, 2025 am 10:16 AM

MISTRAL大2:深入了解Mistral AI强大的开源LLM Meta AI最近发布的Llama 3.1模型系列很快被Mistral AI揭幕了其迄今为止最大的模型:Mistral flow 2。这个1230亿参数

稳定扩散中的噪声时间表是什么? - 分析Vidhya稳定扩散中的噪声时间表是什么? - 分析VidhyaApr 18, 2025 am 10:15 AM

了解扩散模型中的噪声时间表:综合指南 您是否曾经被AI产生的令人惊叹的数字艺术视觉效果所吸引,并想知道基础机制? 关键要素是“噪声时间表,&quo

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具