首頁 >科技週邊 >人工智慧 >Pika放大招:今天起,影片和音效可以「一鍋出來」了!

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

WBOY
WBOY轉載
2024-03-11 13:00:15757瀏覽

就在剛剛,Pika發布了一項新功能:

很抱歉我們之前一直處於靜音狀態。

今天起,大家可以給影片無縫產生音效了-Sound Effects

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

產生的方式有兩種:

  • 要么給一句Prompt,描述你想要的聲音;
  • #要么直接讓Pika根據影片內容自動產生。

並且Pika非常自信地說:「如果你覺得音效聽起來很棒,那是因為它確實如此」。

車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,並且從效果上來看,也是高度與視頻畫面匹配。

不僅是發布的宣傳片,Pika官網現在也放出了多個demo。

例如無需任何prompt,AI只是看了眼烤培根的視頻,便可以配出毫無違和感的音效。

再如給一句prompt:

Super saturated color, fireworks over a field at sunset.
超飽和色彩,日落時田野上的煙火。

Pika可以在生成影片的同時配上聲音,從效果中不難看出,煙火綻放的瞬間,聲音卡點也是相當的精準。

大週末的發布這樣一個新功能,網友們在高呼Pika「夠卷、夠Awesome」的同時,也有人認為:

它正在為多模態AI創作收集所有的“無限寶石”。

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

那麼Pika的Sound Effects具體要如何操作,我們繼續往下看。

給影片「make some noise」

Pika給影片產生音效的動作也是極!其!簡!單!

例如只需一句prompt,視訊和音效就能「一鍋出」

Mdieval trumpet player .
中世紀小號手。

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

比起先前產生影片的動作,現在只需開啟下方「Sound effects」按鈕。

第二種操作方式,就是在生成了影片過後,可以單獨為它配音。

例如在下面這個視頻,點擊下方的“Edit”#,再選擇“Sound Effects”

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

然後可以描述自己想要的聲音,例如:

Race car revving its engine.
賽車正在發動引擎。

然後短短幾秒鐘後,Pika可以根據描述和影片產生音效,而且還是6種聲音可選的那種!

值得一提的是,Sound Effects功能目前只對超級合作者(Super Collaborator)和Pro使用者開放測試。

不過Pika也表示:「我們很快就會向所有用戶推出該功能!」

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

接著現在已經有一群網友在開始測試這個Beta版本了,並且表示:

音效聽起來和影片很相配,而且增加了很多氣氛。

什麼原理?

至於Sound Effects背後的原理,雖然Pika此次並沒有公開,但在先前Sora大火之後,語音新創公司ElevenLabs就出過類似的配音功能。

當時,英偉達資深科學家Jim Fan就對此做過較為深入的分析。

他認為,AI學習準確的視訊到音訊映射還需要對潛在空間中的一些「隱式」物理進行建模。

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

他詳細說明了端對端Transformer在模擬聲波時需要解決的問題:

  1. 識別每個物件的類別、材料和空間位置。
  2. 辨識物體間的高階互動:例如,是木棍、金屬還是鼓面?以什麼速度擊打?
  3. 識別環境:是餐廳、太空站、還是黃石公園?
  4. 從模型的內在記憶中檢索物件和環境的典型聲音模式。
  5. 使用「軟性」的、透過學習得到的物理規則來組合和調整聲音模式的參數,甚至即時創造全新的聲音。這有點像遊戲引擎中的「程式化音訊」。
  6. 如果場景很複雜,模型需要根據物件的空間位置疊加多個聲音軌道。

所有這些都不是顯式的模組,而是透過大量的(視頻,音頻)對的梯度下降學習來實現的,這些視頻和音頻對在大多數互聯網視頻中自然地時間對齊。注意力層將在它們的權重中實現這些演算法,以滿足擴散目標。

除此之外,Jim Fan當時表示英偉達的相關工作並沒有這樣高品質的AI音訊引擎,不過他推薦了一篇MIT五年前的論文The Sound of Pixels

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

有興趣的小夥伴可以戳文末連結詳細了解。

One More Thing

多模態這件事上,LeCun在最新訪談中的觀點也很火爆,他認為:

語言(文字)是低寬頻的:小於12位元組/秒。現代LLM通常使用1x10^13個雙位元組標記(即 2x10^13 位元組)進行訓練。一個人閱讀大約需要 100000 年(每天 12 小時)。

視覺的頻寬高很多:約20MB/s。兩條視神經中的每一條都有 100 萬根神經纖維,每根神經纖維每秒攜帶約10個位元組。一個4歲的孩子在清醒狀態下大約是16000小時,換算成位元組大約是1x10^15。

視覺感知的資料頻寬大約是文字語言資料頻寬的1600萬倍。

一個4歲孩子看到的數據,是網路上公開的所有文字訓練的最大LLM數據的50倍。

Pika放大招:今天起,影片和音效可以「一鍋出來」了!

因此,LeCun總結到:

如果不讓機器從高頻寬的感官輸入(如視覺)中學習,我們絕對不可能達到人類等級的人工智慧。

那麼,你贊成這種看法嗎?

#

以上是Pika放大招:今天起,影片和音效可以「一鍋出來」了!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除