ホームページ >テクノロジー周辺機器 >AI >ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

WBOY
WBOY転載
2024-03-11 13:00:15757ブラウズ

たった今、Pika が新機能をリリースしました:

申し訳ありませんが、以前はミュートされていました。

今日から、誰でも ビデオ用のサウンドエフェクト をシームレスに生成できるようになります - サウンドエフェクト !

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

生成には 2 つの方法があります:

  • プロンプトを表示して必要なサウンドを説明する;
  • または直接生成するPika にビデオ コンテンツに基づいて自動的に生成させます。

そして、ピカは自信満々にこう言いました。「効果音が素晴らしいと思うなら、それは素晴らしい効果だからです。」

車の音、ラジオの音、鷲の音、剣の音、歓声…その音は数え切れないほどあり、効果という意味でも映像との整合性も高いです。

プロモーションビデオが公開されているだけでなく、Pika の公式 Web サイトでは複数のデモも公開されています。

たとえば、何のプロンプトも表示せずに、AI はベーコンを焼くビデオを見ただけで、何の違反感もなく効果音を一致させることができます。

別のプロンプト:

超飽和色、日没時のフィールド上の花火。

超飽和色、日没時のフィールド上の花火。

Pika は動画の生成と音の追加を同時に行うことができ、花火が咲く瞬間に貼り付けられた音も非常に正確であることがエフェクトからもわかります。

このような新機能は、大型週末にリリースされました。ネチズンはピカ

「とてもカーリーで素晴らしい」 と叫んでいましたが、一部の人々は次のように考えていました:

マルチモーダル AI 作成のための「インフィニティ ストーン」をすべて集めています。

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

それでは、Pika の効果音の操作方法を見ていきましょう。

動画で「音を立てる」

Pika の動画効果音生成操作も

エクストリームです!それ!単純! 1つ!

たとえば、プロンプトを 1 つだけ使用すると、ビデオとサウンド効果を

「1 つのポットで作成」できます。

中世のトランペット奏者 .

中世のトランペット奏者。

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

#以前のビデオ生成操作と比較して、今は下の「効果音」ボタンをオンにするだけです。

2つ目の操作方法は、ビデオを生成した後に別途ダビングする方法です。

たとえば、以下のビデオでは、下の

「編集」 をクリックし、「サウンドエフェクト」## を選択します。 #:

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!次に、希望するサウンドを説明できます。例:

レースカーがエンジンを回転させています。
その車はエンジンを始動します。


その後、わずか数秒で、Pika は説明とビデオに基づいて効果音を生成できます。

6 種類のサウンドから選択できます。! サウンドエフェクト機能は現在、Super Collaborator

(Super Collaborator)

と Pro ユーザーに対してのみテスト用に公開されていることに注意してください。 しかし、Pika 氏は次のようにも言いました。「この機能をすぐにすべてのユーザーに公開します!」

今、ネチズンのグループがこのベータ版のテストを開始し、次のように述べています:

音響効果はビデオに非常に適しており、多くの雰囲気を加えています。

原理とは何ですか?

効果音の原理については、Pikaは今回は公表していませんが、Soraが人気になった後、音声スタートアップ企業のEvenLabsが同様の吹き替え機能を制作しています。

当時、NVIDIA のシニア サイエンティスト Jim Fan がこれについてさらに詳細な分析を行いました。

彼は、AI が正確な ビデオからオーディオへのマッピングを学習するには、潜在空間における「暗黙の」物理のモデル化も必要であると考えています。

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!

彼は、音波をシミュレートする際にエンドツーエンドのトランスフォーマーが解決する必要がある問題について詳しく説明しました。

    カテゴリ、材質、および空間的な位置。
  1. オブジェクト間の高次の相互作用を認識します。たとえば、それはスティック、金属、またはドラムヘッドですか?どのくらいの速度でぶつかりますか?
  2. 環境を特定します: それはレストラン、宇宙ステーション、またはイエローストーンパークですか?
  3. オブジェクトや環境の典型的なサウンド パターンをモデルの内部メモリから取得します。
  4. 「ソフト」を使用して、学習した物理的ルールを使用して、サウンド パターンのパラメータを組み合わせて調整し、その場でまったく新しいサウンドを作成することもできます。これは、ゲーム エンジンの「プロシージャル オーディオ」に似ています。
  5. シーンが複雑な場合、モデルはオブジェクトの空間位置に応じて複数のサウンド トラックを重ね合わせる必要があります。
これはすべて明示的なモジュールではありませんが、ほとんどのインターネット ビデオで自然に見られる多数の (ビデオ、オーディオ) ペアからの勾配降下学習によって実現されます。アテンション レイヤーは、拡散目標を達成するために、これらのアルゴリズムを重み付けして実装します。

さらに、Jim Fan 氏は当時、Nvidia の関連研究にはそれほど高品質の AI オーディオ エンジンがなかったと述べましたが、5 年前の MIT の論文

The Sound of Pixels## を推奨しました#:

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!興味のあるお友達は、記事の最後にあるリンクをクリックして詳細をご覧ください。

One More Thing

マルチモーダル

に関して、最新のインタビューでの LeCun の見解も非常に人気があります。彼は次のように信じています:

言語 (テキスト) は低帯域幅

: 12 バイト/秒未満です。最新の LLM は通常、トレーニングに 1x10^13 の 2 バイト トークン (つまり 2x10^13 バイト) を使用します。人間が本を読むには約10万年(1日12時間)かかります。

ビジュアル帯域幅ははるかに高くなります

: 約 20MB/秒。 2 本の視神経にはそれぞれ 100 万本の神経線維があり、それぞれが 1 秒あたり約 10 バイトを伝送します。 4 歳児は約 16,000 時間を覚醒状態で過ごします。これはバイトに換算すると約 1x10^15 になります。 視覚のデータ帯域幅は、テキスト言語のデータ帯域幅の約 1,600 万倍です。

4 歳児が目にするデータは、インターネット上で公開されているすべてのテキスト トレーニングの最大の LLM データの 50 倍です。

ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!したがって、LeCun は次のように結論付けました:

機械が高帯域幅の感覚入力 (視覚など) から学習することができない場合, 人間レベルの人工知能を実現することは絶対に不可能です。

それでは、この見解に同意しますか?

以上がピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。