智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調

PHPz

Aug 07, 2024 pm 06:05 PM

產業智譜 ai

智譜AI把自研打造的大模型給開源了。

國內影片產生領域越來越捲了。剛剛，智譜 AI 宣布將與「清影」同源的影片生成模型 ——CogVideoX 開源。短短幾個小時狂攬 4k 星標。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

代碼倉庫：https://github.com/THUDM/CogVideo
模型： https://huggingface.co/THUDM/CogVideoX-2b
技術報告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月26 日，智譜AI 正式發表影片產生產品

「清影」，得到大家廣泛好評。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能產生 1440x960 清晰度的高精度影片。

官宣即日起，清影上線清言 App，所有使用者都可以全方位體驗。想嘗試的朋友可以去「智譜清言」體驗「清影」生影片的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。發布 6 天，「清影」生成影片數就突破百萬量級。

PC 端訪問鏈接：https://chatglm.cn/
移動端訪問鏈接：https://chatglm.cn/download?fr=web_home

為何智譜AI 開源模式如此爆火？要知道雖然現在視訊生成技術正逐步走向成熟，然而，仍未有一個開源的視訊生成模型，能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。 CogVideoX 的開源就好比 OpenAI 將 Sora 背後的模型開源，對廣大研究者而言，意義重大。

CogVideoX 開源模型包含多個不同尺寸大小的模型，目前智譜AI 開源CogVideoX-2B，它在FP-16 精度下的推理僅需18GB 顯存，微調則只需需要40GB 顯存，這意味著單張4090 顯示卡即可進行推理，而單張A6000 顯示卡即可完成微調。

CogVideoX-2B 的提示字上限為 226 個 token，影片長度為 6 秒，影格率為 8 張 / 秒，影片解析度為 720*480。智譜 AI 為影片品質的提升預留了廣闊的空間，期待開發者在提示詞優化、影片長度、幀率、解析度、場景微調以及圍繞影片的各類功能開發上貢獻開源力量。

表現更強參數量更大的模型正在路上，敬請關注與期待。

模型

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAE

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAEVA 視訊資料因包含空間和時間信息，其資料量和計算負擔遠超影像資料。為因應此挑戰，智譜提出了基於 3D 變分自編碼器（3D VAE）的視訊壓縮方法。 3D VAE 透過三維卷積同時壓縮視訊的空間和時間維度，實現了更高的壓縮率和更好的重建品質。

模型結構包括編碼器、解碼器和潛在空間正則化器，透過四個階段的下取樣和上取樣實現壓縮。時間因果卷積確保了資訊的因果性，減少了通訊開銷。智譜採用上下文並行技術以適應大規模視訊處理。

實驗中，智譜 AI 發現大解析度編碼易於泛化，而增加幀數則挑戰較大。因此，智譜分兩階段訓練模型：首先在較低幀率和小批量上訓練，然後透過上下文並行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家Transformer

智譜器使用視訊壓縮至潛在的編碼器然後將潛在空間分割成區塊並展開成長的序列嵌入z_vision。同時，智譜 AI 使用 T5，將文字輸入編碼為文字嵌入 z_text，然後將 z_text 和 z_vision 沿著序列維度拼接。拼接後的嵌入送入專家 Transformer 塊堆疊中處理。最後，反向拼接嵌入來恢復原始潛在空間形狀，並使用 VAE 進行解碼以重建影片。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

Data

視訊產生模型訓練需篩選數據，以學習如何篩選數據，以學習如何學習真實世界動態。影片可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標籤來識別和排除低品質視頻，如過度編輯、運動不連貫、品質低下、講座式、文字主導和螢幕噪音視頻。透過 video-llama 訓練的過濾器，智譜 AI 標註並篩選了 20,000 個視訊資料點。同時，計算光流和美學分數，動態調整閾值，確保生成影片的品質。

視訊資料通常沒有文字描述，需要轉換為文字描述以供文字到視訊模型訓練。現有的視訊字幕資料集字幕較短，無法全面描述影片內容。智譜 AI 提出了一種從圖像字幕生成視訊字幕的管道，並微調端到端的視訊字幕模型以獲得更密集的字幕。這種方法透過 Panda70M 模型產生簡短字幕，使用 CogView3 模型產生密集影像字幕，然後使用 GPT-4 模型總結產生最終的短影片。智譜 AI 還微調了一個基於 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕資料進行訓練，以加速視訊字幕產生過程。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

性能

為了評估文本到視頻生成的質量，智譜AI 使用了VBench 中的多個指標，如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的視訊評估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，這些工具專注於影片的動態特性。如下表所示。

智譜AI 已經驗證了scaling law 在視頻生成方面的有效性，未來會在不斷scale up 數據規模和模型規模的同時，探究更具突破式創新的新型模型架構、更有效率地壓縮視訊資訊、更充分地融合文字和視訊內容。

最後，我們來看看「清影」的效果。

提示語：「一艘精緻的木製玩具船，桅杆和船帆雕刻精美，平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃鬱的棕色，有小窗戶。童年的純真與想像力，玩具船的旅程象徵著在異想天開的室內環境中無盡的冒險。 SUV，它在陡峭的山坡上沿著松樹環繞的土路加速行駛，輪胎揚起塵土，陽光照射在沿著土路飛馳的SUV 身上，為場景投下溫暖的光芒。到其他汽車或車輛。的山丘和山脈，頭頂是湛藍的天空，上面飄著薄薄的雲彩。被白雪覆蓋的樹木，地面也被白雪覆蓋。的森林之美和道路的寧靜。

以上是智譜版Sora開源爆火：狂攬4K Star，4090單卡運行，A6000可微調的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

DSA如何弯道超车NVIDIA GPU？Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点：1.跟着NVIDIA的技术路线，可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA，但目前的状况是DSA濒临消亡，看不到任何希望另一方面，我们都知道现在大模型正处于风口位置，业界很多人想做大模型芯片，也有很多人想投大模型芯片。但是，大模型芯片的设计关键在哪，大带宽大内存的重要性好像大家都知道，但做出来的芯片跟NVIDIA相比，又有何不同？带着问题，本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义，我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源！性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日，阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat，并且可以免费商用。Qwen-14B在多个权威评测中表现出色，超过了同等规模的模型，甚至有些指标接近Llama2-70B。此前，阿里云还开源了70亿参数模型Qwen-7B，仅一个多月的时间下载量就突破了100万，成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型，相比同类模型使用了更多的高质量数据，整体训练数据超过3万亿Token，使得模型具备更强大的推

ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV（InternationalConferenceonComputerVision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今年的论文数据：本届ICCV共有8068篇投稿，其中有2160篇被接收，录用率为26.8%，略高于上一届ICCV2021的录用率25.9%在论文主题方面，官方也公布了相关数据：多视角和传感器的3D技术热度最高在今天的开

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起，智能化方法驱动的智能法律系统有望惠及不同群体。例如，为法律专业人员减轻文书工作，为普通民众提供法律咨询服务，为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性，此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法，难以满足对司法领域提供支撑性服务的需求，离应用落地有不小的距离。而大型语言模型（LLMs）在不同的传统任务上展示出强大的能力，为智能法律系统的进一步发展带来希望。近日，复旦大学数据智能与社会计算实验室（FudanDISC）发布大语言模型驱动的中

百度文心一言全面向全社会开放，率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日，文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”（https://yiyan.baidu.com）进行体验据报道，百度计划推出一系列经过全新重构的AI原生应用，以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日，文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品，文心一言的基础模型文心大模型早在2019年就在国内率先发布，近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示，当文心

AI技术在蚂蚁集团保险业务中的应用：革新保险服务，带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具，保险为人民群众提供保障和福利，推动经济的稳定和可持续发展。在新的时代背景下，保险行业面临着新的机遇和挑战，需要不断创新和转型，以适应社会需求的变化和经济结构的调整近年来，中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段，积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平，以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力，使保险产品更贴近人民群众的实际

致敬TempleOS，有开发者创建了启动Llama 2的操作系统，网友：8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说，Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来，围绕着该模型的「二创」项目便多了起来。此前7月，特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间，做了一个关于Llama2的有趣项目llama2.c，让用户在PyTorch中训练一个babyLlama2模型，然后使用近500行纯C、无任何依赖性的文件进行推理。今天，在Karpathyllama2.c项目的基础上，又有开发者创建了一个启动Llama2的演示操作系统，以及一个

快手黑科技“子弹时间”赋能亚运转播，打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会，更是一场精彩绝伦的中国科技盛宴。本届亚运会中，快手StreamLake与杭州电信深度合作，联合打造智慧观赛新体验，在击剑赛事的转播中，全面应用了快手StreamLake六自由度技术，其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示，依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网，通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频，

See all articles