Sora のオープンソースバージョンは人気です。4K Star が利用可能で、1 枚のカードで 4090 が実行され、A6000 は微調整可能です。-AI-php.cn

ホームページ

テクノロジー周辺機器

Sora のオープンソースバージョンは人気です。4K Star が利用可能で、1 枚のカードで 4090 が実行され、A6000 は微調整可能です。

PHPz

Aug 07, 2024 pm 06:05 PM

業界知恵のスペクトルai

Zhipu AI は、社内で開発した大規模モデルをオープンソース化しました。

国内ビデオ生成の分野はますます人気が高まっています。先ほど、Zhipu AIは、「Qingying」と同じ起源を持つビデオ生成モデルであるCogVideoXをオープンソース化すると発表しました。わずか数時間で 4,000 スターを獲得しましょう。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

コードリポジトリ: https://github.com/THUDM/CogVideo
モデルダウンロード: https://huggingface.co/THUDM/CogVideoX-2b
技術レポート: https: //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日、Zhipu AI はビデオ生成製品「Qingying」を正式にリリースしました。これは広く賞賛されています。みんな。。良いアイデア (数単語から数百単語) と少しの忍耐力 (30 秒) があれば、「Qingying」は解像度 1440x960 の高精度ビデオを生成できます。

今後、Qingying が Qingyan アプリをリリースし、すべてのユーザーが総合的な方法でそれを体験できることが正式に発表されました。試してみたい友人は、「Zhipu Qingyan」にアクセスして、「Qingying」のビデオ生成機能を体験できます。

「Qingying」の出現は、中国の誰もが利用できる最初のSoraとして歓迎されています。リリースから 6 日後、「Qingying」によって生成されたビデオの数は 100 万件を超えました。

PCアクセスリンク: https://chatglm.cn/
モバイルアクセスリンク: https://chatglm.cn/download?fr=web_home

Zhipu AI オープンソースモデルはそんなに人気があるのですか?ビデオ生成テクノロジーは徐々に成熟してきていますが、商用レベルのアプリケーションの要件を満たすことができるオープンソースのビデオ生成モデルはまだ存在しないことを知っておく必要があります。おなじみの Sora や Gen-3 などはすべてクローズドソースです。 CogVideoX のオープンソースは、Sora の背後にあるモデルの OpenAI オープンソースに似ており、これは大多数の研究者にとって非常に重要です。

CogVideoX オープンソースモデルには、さまざまなサイズの複数のモデルが含まれています。現在、Zhipu AI オープンソース CogVideoX-2B には、FP-16 精度での推論に必要なビデオメモリは 18 GB のみ、微調整には 40 GB のビデオメモリしか必要ありません。 1 枚の A4090 グラフィックスカードで推論を実行できるのに対し、1 枚の A6000 グラフィックスカードで微調整を完了できるということです。

CogVideoX-2B のプロンプトワード制限は 226 トークン、ビデオの長さは 6 秒、フレームレートは 8 フレーム/秒、ビデオ解像度は 720*480 です。 Zhipu AI はビデオ品質の向上のために広いスペースを確保しており、ワードの最適化、ビデオの長さ、フレームレート、解像度、シーンの微調整、およびビデオ関連のさまざまな機能の開発を促進するための開発者のオープンソースへの貢献を期待しています。。

より強力なパフォーマンスとより大きなパラメーターを備えたモデルが開発中ですので、ご期待ください。

Model

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

VAE

ビデオデータには空間的・時間的な情報が含まれているため、そのデータ量と計算量は画像データをはるかに超えています。この課題に対処するために、Zhipu は 3D 変分オートエンコーダ (3D VAE) に基づくビデオ圧縮方法を提案しました。 3D VAE は、3 次元の畳み込みを通じてビデオの空間的次元と時間的次元を同時に圧縮し、より高い圧縮率とより優れた再構成品質を実現します。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

モデル構造にはエンコーダー、デコーダー、潜在空間正則化装置が含まれており、圧縮は 4 段階のダウンサンプリングとアップサンプリングを通じて実現されます。時間的因果畳み込みにより、情報の因果関係が保証され、通信のオーバーヘッドが削減されます。 Zhipu は、コンテキスト並列処理テクノロジーを使用して、大規模なビデオ処理に適応します。

この実験で、Zhipu AI は、高解像度のエンコードは一般化するのが簡単であるが、フレーム数を増やすのはより困難であることを発見しました。したがって、Zhipu は 2 段階でモデルをトレーニングします。最初は低いフレームレートとミニバッチでトレーニングし、次にコンテキスト並列処理により高いフレームレートで微調整します。トレーニング損失関数は、3D 弁別器の L2 損失、LPIPS 知覚損失、および GAN 損失を組み合わせます。

Expert Transformer

Wisdom Spectrum AI は、VAE のエンコーダーを使用してビデオを潜在空間に圧縮し、その後、潜在空間をチャンクに分割して、長いシーケンスのエンベディング z_vision に拡張します。同時に、Zhipu AI は T5 を使用して、テキスト入力を z_text を埋め込んだテキストにエンコードし、シーケンス次元に沿って z_text と z_vision を結合します。スプライスされたエンベディングは、処理のためにエキスパート Transformer ブロックのスタックに供給されます。最後に、埋め込みをバックステッチして元の潜在空間形状を復元し、VAE を使用してデコードしてビデオを再構築します。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

データ

ビデオ生成モデルのトレーニングでは、現実世界のダイナミクスを学習するために高品質のビデオデータをスクリーニングする必要があります。人間による編集や撮影の問題により、ビデオが不正確になる可能性があります。 Wisdom AI は、過剰編集、途切れ途切れの動き、低品質、講義形式、テキスト中心のビデオ、画面ノイズの多いビデオなど、低品質のビデオを識別して除外するためのネガティブタグを開発しました。ビデオラマによってトレーニングされたフィルターを通じて、Zhipu AI は 20,000 のビデオデータポイントに注釈を付け、フィルター処理しました。同時に、オプティカルフローと美的スコアが計算され、生成されたビデオの品質を保証するためにしきい値が動的に調整されます。

ビデオデータには通常、テキストの説明が含まれていないため、テキストからビデオへのモデルのトレーニングのためにテキストの説明に変換する必要があります。既存のビデオ字幕データセットには短い字幕が含まれており、ビデオコンテンツを完全に説明できません。 Zhipu AI は、画像字幕からビデオ字幕を生成するパイプラインを提案し、エンドツーエンドのビデオ字幕モデルを微調整して、より密度の高い字幕を取得します。このアプローチでは、Panda70M モデルを使用して短いキャプションを生成し、CogView3 モデルを使用して高密度の画像キャプションを生成し、GPT-4 モデルを使用して要約して最終的な短いビデオを生成します。 Zhipu AI はまた、CogVLM2-Video と Llama 3 に基づいて CogVLM2-Caption モデルを微調整し、ビデオ字幕生成プロセスを高速化するために高密度の字幕データを使用してトレーニングしました。

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

性能

为了评估文本到视频生成的质量，智谱 AI 使用了 VBench 中的多个指标，如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，这些工具专注于视频的动态特性。如下表所示。

智谱 AI 已经验证了 scaling law 在视频生成方面的有效性，未来会在不断 scale up 数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

最后，我们看看「清影」的效果。

提示语：「一艘精致的木制玩具船，桅杆和船帆雕刻精美，平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色，有小窗户。地毯柔软而有质感，提供了完美的背景，类似于广阔的海洋。船周围还有各种玩具和儿童用品，暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力，玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」

提示语：「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV，它在陡峭的山坡上沿着松树环绕的土路加速行驶，轮胎扬起尘土，阳光照射在沿着土路飞驰的 SUV 身上，为场景投下温暖的光芒。土路缓缓弯曲向远方延伸，看不到其他汽车或车辆。道路两旁的树木都是红杉，点缀着一片片绿植。从后面看，汽车轻松地顺着弯道行驶，让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉，头顶是湛蓝的天空，上面飘着薄薄的云彩。」

提示语：「一片白雪皑皑的森林景观，一条土路穿过其中。道路两旁是被白雪覆盖的树木，地面也被白雪覆盖。阳光灿烂，营造出明亮而宁静的氛围。道路上空无一人，视频中看不到任何人或动物。视频的风格是自然风景拍摄，重点是白雪皑皑的森林之美和道路的宁静。」

提示语：「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」

以上がSora のオープンソースバージョンは人気です。4K Star が利用可能で、1 枚のカードで 4090 が実行され、A6000 は微調整可能です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Google Guilty Again、Meta on Trial、Openai Social、IRロールアップタッチキャストAIApr 18, 2025 am 11:10 AM

2025年4月17日、米国地区裁判官のレオニー・ブリンケマは、Googleがデジタル広告市場の重要なセグメントを違法に独占していると裁定しました。裁判所は、Googleが出版社の広告サーバーと広告交換を結びつけることでその支配を乱用したと判断しました。

AVバイト：SearchGpt、Llama 3.1などをフィーチャーした毎週のAIイノベーションApr 18, 2025 am 11:06 AM

今週、AIの分野での大きなブレークスルー！ AVバイトは、AIフィールドで最新の進歩をもたらします。興奮は見逃せません！検索エンジンの未来？ OpenaiのSearchGpt、Meta's Llama 3.1、およびMistral AIの大きな2モデルはすべて、すべてAIを新たな高みに押し上げます。さらに、AIは数学オリンピアードでメダルを獲得し、医療診断の分野で人間の医師を超えた可能性を示しました。これはすべて、サイエンスフィクションが徐々に現実になっていることを示しています！今週のハイライト： OpenaiのSearchGpt：高度な自然言語処理テクノロジーを使用して情報検索効率を向上させる新しい検索エンジンプロトタイプ。メタのllama 3.1：embrace

迅速なエンジニアリングの密度の連鎖は何ですか？ - 分析VidhyaApr 18, 2025 am 11:04 AM

プロンプトエンジニアリングで密度チェーンをマスターする：簡潔で効果的なプロンプトを作成する自然言語処理（NLP）と人工知能では、迅速なエンジニアリングのマスタリングが重要になっています。このスキルは科学と芸術を組み合わせており、AIモデルをガイドして目的の結果を生成するための正確な指示を慎重に設計することが含まれます。多くの技術の中で、密度の連鎖は、簡潔で効果的なヒントを作成する強力な方法として際立っています。この記事では、TIPSエンジニアリングにおける密度チェーンの概念、およびAI駆動型コンテンツ作成におけるそれらの重要性を深く探ります。概要エンジニアリングにおける密度チェーン法に関するヒントは、NLPおよびAIで非常に重要です。関連情報を圧縮して追加することにより、幅広い要約を繰り返し改善します。

ElevenLabs API：音声合成、クローニングなどのガイドApr 18, 2025 am 10:59 AM

ElevenLabs：AIを使用した音声合成の革命テキストを、ElevenLabsの最先端のAI音声合成とオーディオソリューションで簡単に魅惑的な声に変換します。このガイドでは、ElevenLabsの主要な機能を調査し、実用的なAPIデモを提供します

VGG16およびFAISによる効率的な画像の類似性検索の構築Apr 18, 2025 am 10:56 AM

迅速な画像検索：VGG16とFAISSを使用して高速類似性検索システムの構築数え切れないほどの写真を手動で検索して特定の画像を見つけることを想像してみてください。この記事では、解決策を探ります。稲妻の構築

Flame Guardian：ディープラーニングベースの火災検出システムApr 18, 2025 am 10:54 AM

導入あなたがあなたの家族の安全を確保するので、煙の匂い、心臓のレースに目覚めることを想像してください。早期発見は非常に重要であり、深い学習駆動の火災検出システムである「Flame Guardian」は、

TFIDFVectorizerを使用して、テキストドキュメントをTF-IDFマトリックスに変換しますApr 18, 2025 am 10:26 AM

この記事では、テキストデータを分析するための自然言語処理（NLP）の重要なツールである周波数逆文書頻度（TF-IDF）手法について説明します。 TF-IDFは、TEを重み付けすることにより、基本的なワードバッグアプローチの限界を上回ります

Langchainを使用したスマートAIエージェントの構築：実用的なガイドApr 18, 2025 am 10:18 AM

LangchainでAIエージェントの力を解き放つ：初心者向けガイド祖母にchatgptとチャットすることで人工知能の不思議を示すことを想像してみてください。 th

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。