首頁  >  文章  >  Luma首席科學家宋嘉明談圖像視訊模型的歷史和多模態模型的未來

Luma首席科學家宋嘉明談圖像視訊模型的歷史和多模態模型的未來

王林
王林原創
2024-07-18 09:42:30750瀏覽

在本期AI + a16z 播客中,Luma 首席科學家宋嘉明與a16z 普通合夥人Anjney Midha 一起討論嘉明在視頻模型領域的令人尊敬的職業生涯

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

本期首席AI + a16z AI + a16uma科學家宋嘉明主持與a16z 普通合夥人Anjney Midha 談論家明在視頻模型領域令人印象深刻的職業生涯,最終發布了Luma 的Dream Machine 3D 視頻模型,展示了其跨多個維度推理世界的能力。家明討論了圖像和視訊模型的演變、他對多模態模型未來的願景,以及他對 Dream Machine 展示緊急推理能力的推理。根據 Jiaming 的說法,該模型是在大量高品質視訊資料上進行訓練的,如果根據語言資料來衡量,這些資料將達到數百萬億個代幣。

這是他們討論的一個片段,其中Jiaming 解釋了「慘痛的教訓」在訓練生成模型的背景下,並在此過程中總結了為什麼Dream Machine 可以通過使用上下文豐富的視頻數據來完成它所做的事情的一個關鍵組成部分:

「對於許多與人工智慧相關的問題,從長遠來看,使用更簡單的方法但更多的計算通常會更有效率,[而不是]嘗試開發先驗,然後嘗試利用先驗,以便可以使用更少的計算。但最終這些任務開始被大型語言模型取代。類似的情況也發生在視覺領域。 。 。現在人們已經在幾乎所有任務中使用深度學習功能。這清楚地證明瞭如何使用更多的計算和更少的先驗是好的。

「但是它如何與語言一起工作?語言本身也是人類的構造。當然,這是一種非常好的、高度壓縮的知識,但它絕對比人類每天從現實世界中獲取的數據要少得多。我們已經快用完了。 。 。我們在世界上擁有的高品質語言資源。人類產生語言的速度絕對不足以跟上縮放定律的要求。因此,即使我們有一個可以為此擴展計算基礎設施的世界,我們實際上也沒有擴展數據工作的基礎設施。 。 .

「儘管人們會認為大型語言模型的出現已經是縮放定律的證據。 。 。與語言理解中基於規則的方法相反,我們認為,面對物理世界中發生的更多更豐富的數據信號,語言本身也是先驗的。

以上是Luma首席科學家宋嘉明談圖像視訊模型的歷史和多模態模型的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn