Douyin ダンスでは、実際の人間がカメラに映る必要はなく、写真だけで高品質のビデオを生成できます。偉そうなCTOもByteの新技術を体験している
###見て!今、あなたの目の前では 4 人の若い女性が熱いダンスを披露しています。
画像
にのみ依存しています。
実際の開始方法は次のとおりです:
これはシンガポール国立大学と ByteDance からの最新情報ですMagicAnimate
その機能は、違反の意味を持たずに、単純な式で要約できます: 写真
とアクション のセット = ビデオ . .
このテクノロジーの発表により、テクノロジー界は大騒ぎになり、多くのテクノロジー巨人やオタクが次々と参加しました
HuggingFace CTO
彼らは全員、自分のアバターでそれを試しました:
ちなみに、彼らはユーモラスな方法でジョークも言いました:
これはフィットネスとみなされますか?今週はジムを休んでもいいです。
新しくリリースされた
GTA6
(グランド セフト オート 6) のトレーラーのキャラクターで遊んでいる、時代に敏感なネチズンもいます。 一握り:
絵文字さえもネチズンの選択の対象になっています...
# #MagicAnimateテクノロジー界の注目をそれ自体に集中させたと言えるので、一部のネチズンは「
OpenAI は休んでもいい」と冗談を言いました。
#火事、本当に火事。
#操作は非常に簡単で、必要な手順は 3 つのステップだけです:
- キャラクターの静止写真をアップロードします
- 生成したいアクション デモ ビデオをアップロードします
- #パラメータを調整して「アニメーション」をクリックします
ページの下部にあるテンプレートを選択して体験することもできます:
......
(その通りです!記事執筆時点では、まだ結果を待っていません!)
さらに、MagicAnimate は GitHub でローカル体験メソッドも提供しています。興味のある友人はぜひ試してみてください~## #どうやってするの?
全体として、MagicAnimate は
拡散モデル(拡散) に基づくフレームワークを採用しています。その目的は、時間的一貫性を強化し、参照画像の信頼性を維持することです。アニメーションの忠実度。
この目的を達成するために、チームはまず、時間情報をエンコードするための
(時間的一貫性モデリング) を開発しました。 このモデルは、アニメーション内のフレーム間の時間的一貫性を確保するために、時間的注意モジュールを拡散ネットワークに追加することによって時間的情報をエンコードします。
第 2 に、フレーム間の外観の一貫性を維持するために、チームは新しい
Appearance Encoder(Appearance Encoder) を導入し、参照画像の複雑な詳細を保存しました。 このエンコーダは、CLIP エンコーディングを使用する以前の方法とは異なります。アニメーション制作をガイドするためにより高密度の視覚的特徴を抽出できるため、アイデンティティ、背景、服装などの情報をより適切に保存できます。
Basedこれら 2 つの革新的なテクノロジーに加えて、チームはさらに、長いビデオ アニメーションのスムーズな移行を促進するために、シンプルなビデオ フュージョン テクノロジー
(ビデオ フュージョン テクニック)を採用しました。 最後に、2 つのベンチマーク実験による検証の結果、MagicAnimate が以前の方法よりもはるかに効果的であることが結果からわかりました。
特に困難な TikTok ダンス データセットでは、MagicAnimate はビデオ保存において優れたパフォーマンスを発揮します。精度は最も強力なベースラインよりも 38% 以上高くなっています。
以下はチームによる定性的な比較です:
そして、クロス ID の最先端のベースライン モデルと比較すると、結果は次のとおりです:
One More Thing
MagicAnimate のようなプロジェクトは最近非常に人気があると言わざるを得ません
いいえ、その「デビュー」後は少し前です、Ali チームは、AnimateEveryone というプロジェクトもリリースしました。これも「画像」と「必要なアクション」のみが必要です:
その結果、一部のネチズンも疑問を提起しました:
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2311.16498これは MagicAnimate と AnimateAnyone の間の戦争のようです。 誰が優れていますか? #####################どう思いますか?
以上がDouyin ダンスでは、実際の人間がカメラに映る必要はなく、写真だけで高品質のビデオを生成できます。偉そうなCTOもByteの新技術を体験しているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

GoogleのGemini Advanced:Horizonの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

WebStorm Mac版
便利なJavaScript開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ホットトピック









