ホームページ >テクノロジー周辺機器 >AI >ピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!
たった今、Pika が新機能をリリースしました:
申し訳ありませんが、以前はミュートされていました。
今日から、誰でも ビデオ用のサウンドエフェクト をシームレスに生成できるようになります - サウンドエフェクト !
生成には 2 つの方法があります:
そして、ピカは自信満々にこう言いました。「効果音が素晴らしいと思うなら、それは素晴らしい効果だからです。」
車の音、ラジオの音、鷲の音、剣の音、歓声…その音は数え切れないほどあり、効果という意味でも映像との整合性も高いです。
プロモーションビデオが公開されているだけでなく、Pika の公式 Web サイトでは複数のデモも公開されています。
たとえば、何のプロンプトも表示せずに、AI はベーコンを焼くビデオを見ただけで、何の違反感もなく効果音を一致させることができます。
別のプロンプト: 超飽和色、日没時のフィールド上の花火。超飽和色、日没時のフィールド上の花火。
「とてもカーリーで素晴らしい」 と叫んでいましたが、一部の人々は次のように考えていました:
マルチモーダル AI 作成のための「インフィニティ ストーン」をすべて集めています。それでは、Pika の効果音の操作方法を見ていきましょう。 動画で「音を立てる」Pika の動画効果音生成操作も
エクストリームです!それ!単純! 1つ!
たとえば、プロンプトを 1 つだけ使用すると、ビデオとサウンド効果を「1 つのポットで作成」できます。:
中世のトランペット奏者 .#以前のビデオ生成操作と比較して、今は下の「効果音」ボタンをオンにするだけです。 2つ目の操作方法は、ビデオを生成した後に別途ダビングする方法です。 たとえば、以下のビデオでは、下の中世のトランペット奏者。
「編集」 をクリックし、「サウンドエフェクト」## を選択します。 #:
次に、希望するサウンドを説明できます。例:
レースカーがエンジンを回転させています。その車はエンジンを始動します。その後、わずか数秒で、Pika は説明とビデオに基づいて効果音を生成できます。
6 種類のサウンドから選択できます。! サウンドエフェクト機能は現在、Super Collaborator
(Super Collaborator)と Pro ユーザーに対してのみテスト用に公開されていることに注意してください。 しかし、Pika 氏は次のようにも言いました。「この機能をすぐにすべてのユーザーに公開します!」
今、ネチズンのグループがこのベータ版のテストを開始し、次のように述べています:
音響効果はビデオに非常に適しており、多くの雰囲気を加えています。
効果音の原理については、Pikaは今回は公表していませんが、Soraが人気になった後、音声スタートアップ企業のEvenLabsが同様の吹き替え機能を制作しています。
当時、NVIDIA のシニア サイエンティスト Jim Fan がこれについてさらに詳細な分析を行いました。
彼は、AI が正確な ビデオからオーディオへのマッピングを学習するには、潜在空間における「暗黙の」物理のモデル化も必要であると考えています。
彼は、音波をシミュレートする際にエンドツーエンドのトランスフォーマーが解決する必要がある問題について詳しく説明しました。The Sound of Pixels## を推奨しました#:
興味のあるお友達は、記事の最後にあるリンクをクリックして詳細をご覧ください。
One More Thing
マルチモーダルに関して、最新のインタビューでの LeCun の見解も非常に人気があります。彼は次のように信じています:
言語 (テキスト) は低帯域幅: 12 バイト/秒未満です。最新の LLM は通常、トレーニングに 1x10^13 の 2 バイト トークン (つまり 2x10^13 バイト) を使用します。人間が本を読むには約10万年(1日12時間)かかります。
ビジュアル帯域幅ははるかに高くなります: 約 20MB/秒。 2 本の視神経にはそれぞれ 100 万本の神経線維があり、それぞれが 1 秒あたり約 10 バイトを伝送します。 4 歳児は約 16,000 時間を覚醒状態で過ごします。これはバイトに換算すると約 1x10^15 になります。 視覚のデータ帯域幅は、テキスト言語のデータ帯域幅の約 1,600 万倍です。
4 歳児が目にするデータは、インターネット上で公開されているすべてのテキスト トレーニングの最大の LLM データの 50 倍です。
したがって、LeCun は次のように結論付けました:
機械が高帯域幅の感覚入力 (視覚など) から学習することができない場合, 人間レベルの人工知能を実現することは絶対に不可能です。それでは、この見解に同意しますか?
以上がピカの増幅ワザ:今日から映像も効果音も「ワンポット」で制作可能!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。