首頁 >科技週邊 >人工智慧 >讓魯迅說繞口令、赫本玩嘻哈，又一視訊模型火了，史丹佛華人博士創立

讓魯迅說繞口令、赫本玩嘻哈，又一視訊模型火了，史丹佛華人博士創立

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原創: 2024-06-16 22:52:40593瀏覽

團隊成員都來自史丹佛大學，CTO還是泰勒絲的鐵粉。

AI影片領域卷瘋了。

Luma引發的狂歡還沒結束，AI影片圈又來了個挑戰者－

史丹佛由大學團隊出品的Proteus。

讓魯迅說繞口令、赫本玩嘻哈，又一視訊模型火了，史丹佛華人博士創立

據介紹，Proteus 是一款低延遲基礎模型，可以產生高度真實且富有表現力的人物。

例如，讓世界名畫中的主角——蒙娜麗莎或帶著珍珠耳環的女孩——肆無忌憚地大笑，面部表情自然流暢：

讓奧黛麗赫本一改往日淑女形象，玩起嘻哈饒舌：

也讓《哈利波特》中的斯內普教授唱《Despacito》：

Proteus剛發布，一眾大佬發來「賀信」：

##AI科學家賈揚清稱讚，即時人工智慧頭像品質出奇得好。

英偉達科學家Jim Fan則表示，這項計畫令人印象深刻。

早期投資人Brian Zhan發文稱，現有AI視頻工具，例如Runway和Pika，最大的問題就是會產生幻覺，尤其是在生成含有人類的視頻時。而Apparate Labs透過解決時間連貫性和物件恆定性等問題，使AI視訊生成步入下一個階段。

離譜！魯迅說起了繞口令

Proteus是新一代的基礎模型，用於人類的即時表情生成。

要知道，目前即使是最先進、最強大的生成模型，也無法完全實現人類表情的即時生成。讓魯迅說繞口令、赫本玩嘻哈，又一視訊模型火了，史丹佛華人博士創立

現有的模型運行速度緩慢，無法提供對生成人物的複雜面部表情和身體動作的直觀控制，而且它們在逼真度和表現力方面仍有所欠缺。

而Proteus採用了最先進的transformer 架構的潛在擴散模型，其創新性的潛在空間設計確保了即時的高效率，並且隨著架構和演算法的持續優化，Proteus能夠實現每秒100幀以上（100+ FPS）的視訊串流。

#########換句話說，只需一張簡單的照片，Proteus不僅能夠模仿人類的笑聲、饒舌、唱歌、眨眼、微笑和對話，還能執行更多生動的表情和動作。 ###############比如說，一向嚴肅的魯迅說起了繞口令：###############或讓居禮夫人清唱《Le Festin》： ############根據Proteus研發團隊介紹，他們期望Proteus可以成為一個聲音可控的視覺化身，為人工智慧對話實體提供一個直覺的互動介面，同時能夠與眾多多模態大語言模型無縫兼容，為各種不同的應用場景提供客製化服務。

对此，不少网友脑洞大开——

「只需要用爱因斯坦的数据对大语言模型进行微调，再配上他生动的面部表情，就能让伟大的爱因斯坦化身教学助手，来亲自教授物理课，青少年再也不用愁学不好科学了。」