ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー-AI-php.cn

ホームページ

テクノロジー周辺機器

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 01, 2024 pm 08:13 PM

業界ビデオ編集ビデオ生成

モナリザはあくびをし、ニワトリはアイロンの持ち上げ方を学びます... Google VideoPoet の大型モデルは非常に優れたパフォーマンスを発揮します。

2023 年末、テクノロジー企業は AI ビデオ生成の最後のレベルに影響を与えています。

#火曜日、Google が提案した大規模ビデオ生成モデルがオンラインに公開され、すぐに人々の注目を集めました。 VideoPoet と呼ばれるこの大規模な言語モデルは、革新的なゼロショットビデオ生成ツールと考えられています。

VideoPoet は、テキストや画像からビデオを生成できるだけでなく、スタイル転送やビデオからスピーチを生成することもできます。結果として、多様でスムーズな動きを構築することができます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

このニュースが発表されるとすぐに、多くの人がそれを歓迎しました。良好な結果をもたらした現在の少数の完成品を見てみると、大型モデル技術の開発は速すぎます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

この大規模なモデルによって生成されたビデオの長さに驚きを表明した人もいます:

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

^{出典: https://twitter.com/cybersphere_ai/status/1737257729167966353}

#こんなことを言う人もいますこれは革命ですセックスの大規模な言語モデル。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

#Google に対し、VideoPoet をできるだけ早くオープンソースにするよう呼びかけている人もいます。一般的な傾向は誰も待ってくれません。

生成 AI の進歩に伴い、最近、驚くべき画質を実証する新しいビデオ生成モデルが次々と登場しています。ビデオ生成における現在のボトルネックの 1 つは、一貫した大きな動きを生成することです。しかし、多くの場合、主要なモデルであっても小さなモーションしか生成できなかったり、大きなモーションを生成するときに顕著なアーティファクトが発生したりすることがあります。

動画生成における言語モデルの応用を探るため、Google の研究者は、次のようなさまざまな動画生成タスクを実行できる大規模言語モデル (LLM) VideoPoet を導入しました。テキストからビデオへ、画像からビデオへ、ビデオのスタイル化、ビデオの修復と拡張、ビデオからオーディオへ。

#VideoPoet エフェクト表示

テキスト生成ビデオ

ヒント: 犬は、詳細が豊富な 8K のヘッドフォンで音楽を聴きます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

ヒント (左から右へ): 口からレーザー光線を放つサメ、雨の日に 5 番街を手をつないで歩くテディベア、鉄リフターのひよこ。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

キュー (左から右へ): 黄色いタンポポの花びらでできた咆哮するライオン、地表での大爆発、ゴッホの星月夜に疾走する馬。鎧を着たリスがガチョウに乗り、パンダが自撮り写真を撮ります。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

#画像からビデオを生成する

画像からビデオへの場合、VideoPoet は入力を受け取ることができます。画像を作成し、プロンプトを使用してアニメーション化します。

#モナリザのあくびを開始するには、画像とプロンプトを入力するだけです: 女性があくびをします。以下のような効果が得られます。

ヒント (左から右へ): 雷雨と稲妻が発生する荒海を航行する船、油絵風、たくさんの星がきらめく星雲の上を飛ぶ、風の強い日に崖の上に杖をついて立つ男性放浪者は眼下に浮かぶ雲海を見下ろした。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

#ビデオのスタイルを設定する

##VideoPoet は、テキストプロンプトに基づいて入力ビデオをスタイル設定することもできます。。

キュー (左から右へ): テディベアがきれいな氷の湖の上でスケートをし、金属製のライオンが炉の輝きの中で吠えます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

オーディオの生成

VideoPoet はオーディオを生成することもできます。モデルは最初に 2 秒のクリップを生成するように求められ、次にテキストによるガイダンスなしでフレームの音声を予測しようとします。このようにして、VideoPoet は単一のモデルからビデオとオーディオを生成できます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

#長いビデオ

##VideoPoet は長いビデオも生成できます。デフォルトは 2 秒です。このプロセスを無限に繰り返すことで、ビデオの最後の 1 秒を調整し、次の 1 秒を予測することで、任意の長さのビデオを生成できます。以下は、テキスト入力から長いビデオを生成する VideoPoet のデモの例です。ヒント: FPV 映像には、明るい青色の川、滝、大きくて垂直に切り立った崖のある、ジャングルの中にある非常に鮮明なエルフストーンの都市が示されています。

ビデオの拡張ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

ユーザーはプロンプトを変更して、ビデオを拡張できます。松の木に囲まれた山道をバイクに乗る 2 頭のアライグマのオリジナルビデオ (8k)。拡大されたビデオには、バイクに乗った2頭のアライグマが映っており、アライグマの後ろから隕石が落ち、その隕石が地球に衝突して爆発する様子が映っています。

インタラクティブなビデオ編集ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

提供された入力ビデオ (左端) については、ユーザーオブジェクトの動きを変更して、さまざまなアクションを実行できます。以下に示すように、真ん中の 3 つはテキストプロンプトがなく、最後のテキストプロンプトは「煙の背景で開始」です。

#ビデオ修復

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

##VideoPoet は、ビデオの不明瞭な部分に詳細を追加できます。テキストガイダンスを通じて修復を選択することもできます。

VideoPoet の機能を実証するために、Google は VideoPoet によって生成された複数の短いクリップで構成されるショートフィルムも作成しました。バードが書いたこの脚本は、旅するアライグマについての短編小説で、シーンごとの詳細と付随するプロンプトリストが含まれています。その後、Google はプロンプトごとにビデオクリップを生成し、生成されたすべてのクリップをつなぎ合わせて、以下の最終的なビデオを作成しました。ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

メソッドの紹介

下図に示すように、VideoPoet は入力をアニメーション化できます。画像を使用してビデオを生成し、ビデオを編集または拡張できます。

様式化の観点から、モデルは奥行きとオプティカルフローを表すビデオを受け取り、テキストガイドスタイルでコンテンツを描画します。

ビデオジェネレーター

LLM をトレーニングに使用する主な利点は、多くのビデオを再利用できることです。既存の LLM トレーニングインフラストラクチャに導入されたスケーラブルな効率の向上。ただし、LLM は個別のトークンで動作するため、ビデオの生成が困難になります。ビデオおよびオーディオのトークナイザーを使用して、ビデオおよびオーディオクリップを個別のトークンのシーケンスにエンコードしたり、元の表現に変換して戻すこともできます。

複数のトークナイザー (ビデオと画像には MAGVIT V2、オーディオには SoundStream) を使用することで、VideoPoet は自己回帰言語モデルをトレーニングして、ビデオ、画像、オーディオの複数のモダリティを学習します。文章。モデルが何らかのコンテキストに基づいてトークンを生成すると、トークナイザーデコーダーを使用してトークンを視覚的な表現に変換し直すことができます。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

評価結果

研究チームは、さまざまなベンチマークを使用して、VideoPoet をテキストで評価しました。ビデオ生成のパフォーマンスを他の方法と比較します。中立的な評価を保証するために、この研究では、サンプルを厳選することなく、さまざまなプロンプトの下ですべてのモデルを実行し、人間の評価者に好みの評価を提供するよう依頼しました。

ビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジー

VideoPoet の例の 24 ～ 35% は、次のプロンプトで競合モデルよりも優れていると考えられますが、この比率は競合モデルの場合は 8 ～ 11%。また、評価者は、他のモデルの 11 ～ 21% と比較して、ビデオを生成するアクションがより興味深いため、VideoPoet の例の 41 ～ 54% を好みました。

^{参考リンク:}

^{https://blog.research. google/2023/12/videopoet-large- language-model-for-zero.html}

^{https://sites.research.google/videopoet/stylization /}

以上がビデオの生成は無限に長くてもよいでしょうか? Google VideoPoet の大型モデルがオンライン、ネチズン: 革新的なテクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

DSA如何弯道超车NVIDIA GPU？Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点：1.跟着NVIDIA的技术路线，可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA，但目前的状况是DSA濒临消亡，看不到任何希望另一方面，我们都知道现在大模型正处于风口位置，业界很多人想做大模型芯片，也有很多人想投大模型芯片。但是，大模型芯片的设计关键在哪，大带宽大内存的重要性好像大家都知道，但做出来的芯片跟NVIDIA相比，又有何不同？带着问题，本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义，我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源！性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日，阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat，并且可以免费商用。Qwen-14B在多个权威评测中表现出色，超过了同等规模的模型，甚至有些指标接近Llama2-70B。此前，阿里云还开源了70亿参数模型Qwen-7B，仅一个多月的时间下载量就突破了100万，成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型，相比同类模型使用了更多的高质量数据，整体训练数据超过3万亿Token，使得模型具备更强大的推

ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV（InternationalConferenceonComputerVision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今年的论文数据：本届ICCV共有8068篇投稿，其中有2160篇被接收，录用率为26.8%，略高于上一届ICCV2021的录用率25.9%在论文主题方面，官方也公布了相关数据：多视角和传感器的3D技术热度最高在今天的开

百度文心一言全面向全社会开放，率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日，文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”（https://yiyan.baidu.com）进行体验据报道，百度计划推出一系列经过全新重构的AI原生应用，以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日，文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品，文心一言的基础模型文心大模型早在2019年就在国内率先发布，近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示，当文心

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起，智能化方法驱动的智能法律系统有望惠及不同群体。例如，为法律专业人员减轻文书工作，为普通民众提供法律咨询服务，为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性，此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法，难以满足对司法领域提供支撑性服务的需求，离应用落地有不小的距离。而大型语言模型（LLMs）在不同的传统任务上展示出强大的能力，为智能法律系统的进一步发展带来希望。近日，复旦大学数据智能与社会计算实验室（FudanDISC）发布大语言模型驱动的中

AI技术在蚂蚁集团保险业务中的应用：革新保险服务，带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具，保险为人民群众提供保障和福利，推动经济的稳定和可持续发展。在新的时代背景下，保险行业面临着新的机遇和挑战，需要不断创新和转型，以适应社会需求的变化和经济结构的调整近年来，中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段，积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平，以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力，使保险产品更贴近人民群众的实际

致敬TempleOS，有开发者创建了启动Llama 2的操作系统，网友：8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说，Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来，围绕着该模型的「二创」项目便多了起来。此前7月，特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间，做了一个关于Llama2的有趣项目llama2.c，让用户在PyTorch中训练一个babyLlama2模型，然后使用近500行纯C、无任何依赖性的文件进行推理。今天，在Karpathyllama2.c项目的基础上，又有开发者创建了一个启动Llama2的演示操作系统，以及一个

快手黑科技“子弹时间”赋能亚运转播，打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会，更是一场精彩绝伦的中国科技盛宴。本届亚运会中，快手StreamLake与杭州电信深度合作，联合打造智慧观赛新体验，在击剑赛事的转播中，全面应用了快手StreamLake六自由度技术，其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示，依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网，通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频，

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、