ホームページ > 記事 > テクノロジー周辺機器 > たった一言で絵が動きます。Apple は大きなモデルのアニメーションを生成し、その結果を直接編集できます。
現在、大規模モデルの驚くべき革新的機能は、クリエイティブ分野、特に Sora のようなビデオ生成テクノロジーの代表者に影響を与え続けています。新世代のトレンドを牽引してきたSoraだが、今こそAppleの最新の研究結果に注目してみる価値があるかもしれない。
Apple 研究者は最近、大規模な言語モデルを使用してアニメーションを生成できる「Keyframer」と呼ばれるフレームワークをリリースしました。このフレームワークを使用すると、ユーザーは自然言語プロンプトを通じて静的な 2D 画像のアニメーションを簡単に作成できます。この研究は、アニメーション設計における言語モデルの可能性を実証し、アニメーション設計者により効率的で直感的なツールを提供します。
論文アドレス: https://arxiv.org/pdf/2402.06071.pdf
特定の具体的には、この研究では、言語プロンプト設計アーティファクトに基づく新たな設計原則と LLM のコード生成機能を組み合わせて、新しい AI 駆動アニメーション ツール Keyframer を構築します。 Keyframer を使用すると、ユーザーは自然言語プロンプトを通じて静的な 2D 画像からアニメーション イラストを作成できます。 GPT-4 を使用すると、Keyframer は CSS アニメーション コードを生成して、入力 SVG (Scalable Vector Graphic) をアニメーション化できます。
さらに、Keyframer は、ユーザーが複数のエディター タイプを使用して生成されたアニメーションを直接編集できるようにします。
ユーザーは、プロンプトやリクエストを繰り返すことで LLM によって生成されたデザイン バリアントを使用してデザインを継続的に改善し、新しいデザインの方向性を考えることができます。ただし、Keyframerはまだ公開されていません。
この調査を行うにあたり、Apple は、アニメーションにおける LLM の応用は十分に検討されておらず、ユーザーが自然言語でモーションを効果的に記述する方法など、新たな課題をもたらしていると述べました。 Dall・E や Midjourney などの Vincentian グラフィック ツールは現在優れていますが、アニメーション デザインでは、タイミングや調整など、より複雑な考慮事項が必要であり、1 つのプロンプトで完全に要約するのは困難です。
ユーザーは画像をアップロードし、プロンプト ボックスに「星を瞬かせましょう」などと入力し、[生成] をクリックするだけで、この研究の効果を確認できます。
ユーザーは複数のアニメーション デザインをバッチで生成し、別のウィンドウでカラー コードやアニメーションの長さなどのプロパティを調整できます。 Keyframer はこれらの変更を自動的に CSS に変換するため、コーディングの経験は必要なく、コード自体は完全に編集可能です。この説明ベースのアプローチは、多くの場合、複数の異なるアプリケーションとある程度のコーディング経験を必要とする他の形式の AI 生成アニメーションよりもはるかに簡単です。
Keyframer は、静止画像からアニメーションを作成するように設計された LLM ベースのアプリケーションです。 Keyframer は、LLM のコード生成機能と静的ベクター グラフィックス (SVG) のセマンティック構造を利用して、ユーザーが提供する自然言語キューに基づいてアニメーションを生成します。
Input: システムは、ユーザーが必要な SVG 画像を貼り付けることができる入力領域を提供します。アニメーション化するコード (SVG は、拡張性と複数のプラットフォームでの互換性があるため、イラストでよく使用される標準的で人気のある画像形式です)。 Keyframer では、SVG のレンダリングがコード エディターの隣に表示されるため、ユーザーは画像のビジュアル デザインをプレビューできます。図 2 に示すように、土星のイラストの SVG コードには、空、リングなどの識別子が含まれています。 。
GPT プロンプト: このシステムを使用すると、ユーザーは自然言語プロンプトを入力してアニメーションを作成できます。ユーザーは、単一のデザイン (惑星を回転させる) または複数のデザインのバリエーション (3 つのきらめく星を含むデザインの作成) をリクエストし、[アニメーションの生成] ボタンをクリックしてリクエストを開始します。ユーザーリクエストを GPT に渡す前に、調査では完全な生の SVG XML を使用してプロンプトを調整し、LLM レスポンスの形式を指定します。
GPT 出力: プロンプト要求が開始されると、図 3 に示すように、GPT は 1 つ以上の CSS フラグメントで構成される応答を送信します。
レンダリング: レンダリング部分には、(1) 各アニメーションが視覚的にレンダリングされ、レンダリングされます。 LLM 生成された 1 文の説明 (2) デザインを変更するための一連のエディター。
コード エディターは CodeMirror を使用して実装されます。プロパティ エディターは、コードを編集するためのプロパティ固有の UI (たとえば、色を編集するため) を提供し、スタディにはカラー ピッカーが提供されます。図 5 は、コード エディターとプロパティ エディターのアイコンを示しています。
反復: ユーザーがアニメーション作成プロセスをさらに深く進めることをサポートするため (DG1) 探索、この研究では、ユーザーがプロンプトを使用して生成されたアニメーションを反復的に構築できる機能も提供しています。生成された各デザインの下には [新しいプロンプトの追加] ボタンがあります。このボタンをクリックすると、ページの下部に新しいフォームが開き、ユーザーは新しいプロンプトでデザインを拡張できます。
デザインしたサイドバーと概要 を保存します。図 6 の右側に示すように、このシステムを使用すると、ユーザーはデザインにスターを付けてサイドバーに追加できます。さらに、このシステムには、すべてのテキスト エディターを非表示にしてアニメーションとそのプロンプトを表示する概要モードがあり、ユーザーは以前のプロンプトとデザインをすぐに再確認できます。
実験中、Apple チームは Keyframer を試す 13 人の参加者 (女性 6 人、男性 7 人) を選択しました。表 1 は、参加者と参加者が習得したスキルに関する情報を示しています。
プロのモーション デザイナー「EP13」でさえ、Keyframer の機能を拡張できる可能性を認識しています。「その可能性は非常に大きいため、これらのツールが私たちの仕事に取って代わるのではないかと少し心配しています。しかし、よく考えてみると、この研究は私たちのスキルを向上させるだけです。それは喜ばしいことのはずです。」
全体的には、参加ユーザーはキーフレーマーのエクスペリエンスに満足しています。参加者は、満足 (4) から中立 (3) までの平均スコア 3.9 を与えました。参加者は 223 のデザインを作成しました。各参加者は平均して 17.2 個のデザインを作成しました。図 8 は、2 人の参加者の最終アニメーションの例を示しています。
技術的な詳細については、元の論文を参照してください。
以上がたった一言で絵が動きます。Apple は大きなモデルのアニメーションを生成し、その結果を直接編集できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。