現在、大規模モデルの驚くべき革新的機能は、クリエイティブ分野、特に Sora のようなビデオ生成テクノロジーの代表者に影響を与え続けています。新世代のトレンドを牽引してきたSoraだが、今こそAppleの最新の研究結果に注目してみる価値があるかもしれない。
Apple 研究者は最近、大規模な言語モデルを使用してアニメーションを生成できる「Keyframer」と呼ばれるフレームワークをリリースしました。このフレームワークを使用すると、ユーザーは自然言語プロンプトを通じて静的な 2D 画像のアニメーションを簡単に作成できます。この研究は、アニメーション設計における言語モデルの可能性を実証し、アニメーション設計者により効率的で直感的なツールを提供します。
論文アドレス: https://arxiv.org/pdf/2402.06071.pdf
特定の具体的には、この研究では、言語プロンプト設計アーティファクトに基づく新たな設計原則と LLM のコード生成機能を組み合わせて、新しい AI 駆動アニメーション ツール Keyframer を構築します。 Keyframer を使用すると、ユーザーは自然言語プロンプトを通じて静的な 2D 画像からアニメーション イラストを作成できます。 GPT-4 を使用すると、Keyframer は CSS アニメーション コードを生成して、入力 SVG (Scalable Vector Graphic) をアニメーション化できます。
さらに、Keyframer は、ユーザーが複数のエディター タイプを使用して生成されたアニメーションを直接編集できるようにします。
ユーザーは、プロンプトやリクエストを繰り返すことで LLM によって生成されたデザイン バリアントを使用してデザインを継続的に改善し、新しいデザインの方向性を考えることができます。ただし、Keyframerはまだ公開されていません。
この調査を行うにあたり、Apple は、アニメーションにおける LLM の応用は十分に検討されておらず、ユーザーが自然言語でモーションを効果的に記述する方法など、新たな課題をもたらしていると述べました。 Dall・E や Midjourney などの Vincentian グラフィック ツールは現在優れていますが、アニメーション デザインでは、タイミングや調整など、より複雑な考慮事項が必要であり、1 つのプロンプトで完全に要約するのは困難です。
ユーザーは画像をアップロードし、プロンプト ボックスに「星を瞬かせましょう」などと入力し、[生成] をクリックするだけで、この研究の効果を確認できます。
ユーザーは複数のアニメーション デザインをバッチで生成し、別のウィンドウでカラー コードやアニメーションの長さなどのプロパティを調整できます。 Keyframer はこれらの変更を自動的に CSS に変換するため、コーディングの経験は必要なく、コード自体は完全に編集可能です。この説明ベースのアプローチは、多くの場合、複数の異なるアプリケーションとある程度のコーディング経験を必要とする他の形式の AI 生成アニメーションよりもはるかに簡単です。
Keyframer の概要
Keyframer は、静止画像からアニメーションを作成するように設計された LLM ベースのアプリケーションです。 Keyframer は、LLM のコード生成機能と静的ベクター グラフィックス (SVG) のセマンティック構造を利用して、ユーザーが提供する自然言語キューに基づいてアニメーションを生成します。
Input: システムは、ユーザーが必要な SVG 画像を貼り付けることができる入力領域を提供します。アニメーション化するコード (SVG は、拡張性と複数のプラットフォームでの互換性があるため、イラストでよく使用される標準的で人気のある画像形式です)。 Keyframer では、SVG のレンダリングがコード エディターの隣に表示されるため、ユーザーは画像のビジュアル デザインをプレビューできます。図 2 に示すように、土星のイラストの SVG コードには、空、リングなどの識別子が含まれています。 。
GPT プロンプト: このシステムを使用すると、ユーザーは自然言語プロンプトを入力してアニメーションを作成できます。ユーザーは、単一のデザイン (惑星を回転させる) または複数のデザインのバリエーション (3 つのきらめく星を含むデザインの作成) をリクエストし、[アニメーションの生成] ボタンをクリックしてリクエストを開始します。ユーザーリクエストを GPT に渡す前に、調査では完全な生の SVG XML を使用してプロンプトを調整し、LLM レスポンスの形式を指定します。
GPT 出力: プロンプト要求が開始されると、図 3 に示すように、GPT は 1 つ以上の CSS フラグメントで構成される応答を送信します。
レンダリング: レンダリング部分には、(1) 各アニメーションが視覚的にレンダリングされ、レンダリングされます。 LLM 生成された 1 文の説明 (2) デザインを変更するための一連のエディター。
コード エディターは CodeMirror を使用して実装されます。プロパティ エディターは、コードを編集するためのプロパティ固有の UI (たとえば、色を編集するため) を提供し、スタディにはカラー ピッカーが提供されます。図 5 は、コード エディターとプロパティ エディターのアイコンを示しています。
反復: ユーザーがアニメーション作成プロセスをさらに深く進めることをサポートするため (DG1) 探索、この研究では、ユーザーがプロンプトを使用して生成されたアニメーションを反復的に構築できる機能も提供しています。生成された各デザインの下には [新しいプロンプトの追加] ボタンがあります。このボタンをクリックすると、ページの下部に新しいフォームが開き、ユーザーは新しいプロンプトでデザインを拡張できます。
デザインしたサイドバーと概要 を保存します。図 6 の右側に示すように、このシステムを使用すると、ユーザーはデザインにスターを付けてサイドバーに追加できます。さらに、このシステムには、すべてのテキスト エディターを非表示にしてアニメーションとそのプロンプトを表示する概要モードがあり、ユーザーは以前のプロンプトとデザインをすぐに再確認できます。
実験中、Apple チームは Keyframer を試す 13 人の参加者 (女性 6 人、男性 7 人) を選択しました。表 1 は、参加者と参加者が習得したスキルに関する情報を示しています。
プロのモーション デザイナー「EP13」でさえ、Keyframer の機能を拡張できる可能性を認識しています。「その可能性は非常に大きいため、これらのツールが私たちの仕事に取って代わるのではないかと少し心配しています。しかし、よく考えてみると、この研究は私たちのスキルを向上させるだけです。それは喜ばしいことのはずです。」
全体的には、参加ユーザーはキーフレーマーのエクスペリエンスに満足しています。参加者は、満足 (4) から中立 (3) までの平均スコア 3.9 を与えました。参加者は 223 のデザインを作成しました。各参加者は平均して 17.2 個のデザインを作成しました。図 8 は、2 人の参加者の最終アニメーションの例を示しています。
技術的な詳細については、元の論文を参照してください。
以上がたった一言で絵が動きます。Apple は大きなモデルのアニメーションを生成し、その結果を直接編集できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ホットトピック









