搜尋
首頁科技週邊人工智慧AI寫小說、繪畫、剪視頻,生成式AI更火了!

近日,生成式AI又火了!一個叫做「盜夢師」的微信小程序,上線一鳴驚人,達成了日增5萬新用戶的紀錄。

盜夢師是一個能根據輸入文字產生圖片的AI平台,屬於AIGC(AI-Generated Content,即人工智慧產生內容)的分支。

在使用者發揮想像,輸入文字描述後,盜夢師便可生成1:1、9:16和16:9三種比例的圖片,還有24種繪畫風格可以選擇-除了基礎的油畫、水彩、素描等繪畫種類,還包括賽博龐克、蒸氣波、像素藝術、吉卜力和CG 渲染等特別風格。

AI寫小說、繪畫、剪視頻,生成式AI更火了!

圖:科技雲端報告編輯用「盜夢師」微信小程式產生

事實上,這並不是第一款「以文生圖」的AI軟體。從Midjourney到Stable Diffusion,生成式AI一直是近兩年最炙手可熱的話題。

作為AI發展的重要方向,生成式AI具有非常大的發展潛力。

根據Gartner上半年的數據,預計到 2025 年,生成式AI將佔所有產生數據的10%,目前這一比例不到1%。

有觀點認為,2022年將是生成式AI從技術成熟到深入社會基本面的元年。

 生成式AI爆發式成長:從圖片到影片

#最近幾年,AI科技在視覺領域的發展可謂是「神速」。

去年1月,致力於「用通用人工智慧造福全人類」的OpenAI公司,基於GPT-3模型發布了劃時代的DALL-E,實現了從文本生成圖像。

今年4月份,OpenAI發布的第二代DALL-E 2模型,再次為影像生成領域樹立了全新標竿。

使用者可以透過簡短的文字描述(prompt)來產生對應的圖像,使得不會畫畫的人也可以將自己的想像力變為藝術創作,例如「羊駝打籃球」這句話生成的四張圖片,看起來就非常符合大家預期的想像。

AI寫小說、繪畫、剪視頻,生成式AI更火了!

DALL-E 2模型產生圖片範例

#不僅如此,隨著文字描述的顆粒度不斷細化,產生的圖像也會越來越精準,效果在非專業人士看來已經相當震撼。

但DALL-E 2這樣的模型仍停留在二維創作即圖片產生領域,無法產生360度無死角的3D模型。

不過這依舊難不住極具創意的演算法研究員,Google Research的一項最新成果-DreamFusion模型,即可透過輸入簡單的文字提示產生3D模型,不僅能夠在不同的光照條件下進行渲染,產生的3D模型還具有密度、顏色等特性,甚至可以把生成的多個3D模型融合到一個場景裡。

在產生3D圖片之後,Meta的演算法人員將想法進一步打開,向更高難度發起挑戰,開始探索用文字提示直接產生影片。

雖然本質上來說,影片就是一系列影像的疊加,但相較於生成影像,用文字來產生影片時,不僅需要產生相同場景下的多個幀,還要確保相鄰幀之間的連貫性。由於訓練模型時可用的高品質視訊資料非常少,但計算量卻很大,大大增加了視訊生成任務的複雜性。

今年9月,來自Meta的研究人員發布了Make-A-Video,這是一個基於人工智慧的高品質短片生成模型,相當於視訊版的DALL-E,也被戲稱為“用嘴巴做影片”,即可以透過文字提示創建新的影片內容,其背後使用的關鍵技術,也同樣來自DALL-E等圖像生成器所使用的“文字-圖像”合成技術。

僅1週之後,GoogleCEO皮查伊就接連官宣了兩個模型,來正面挑戰Meta的Make-A-Video,分別是Imagen Video與Phenaki。

與Make-A-Video相比,Imagen Video更突顯影片的高畫質特性,能產生1280*768解析度、每秒24格的影片片段,也能理解並產生不同藝術風格的作品;

理解物體的3D結構,在旋轉展示中不會變形;

甚至還繼承了Imagen準確描繪文字的能力,在此基礎上僅靠簡單描述產生各種創意動畫。

AI寫小說、繪畫、剪視頻,生成式AI更火了!

Imagen Video生成影片範例

而Phenaki則能根據200個字左右的提示語產生2分鐘以上的較低解析度長鏡頭,講述一個相對完整的故事。

AI寫小說、繪畫、剪視頻,生成式AI更火了!

Phenaki生成影片範例

目前,國內也有不少生成式AI的應用。

例如,位元組跳動旗下的剪映APP提供AI生成影片功能,並可免費使用。

剪映的圖文成片功能和Google類似,創作者可以透過幾個關鍵字或一小段文字,產生一段創意小影片。

剪輯也可以根據文字描述智慧配對影片素材,將影片包裝為更垂直的內容作品,包括財經、歷史、人文等類別。

2022年1月,網易推出一站式AI音樂創作平台“網易天音”,將用戶編輯的新年祝福AI生成為歌曲,並在上半年推出了web端專業版。

2021年9月,彩雲小夢APP上線,能夠進行各種類型文字創作,用戶只需要給出一個1-1000字的開頭,彩雲小夢就能續寫出後面的故事。

事實上,AI創作還有多種形式。當生成式AI技術應用於寫稿,可以誕生機器版的記者、小說家、詩人、編劇等,而當它應用於繪畫、音樂和舞蹈領域時,則可以「培養」出畫家、作曲家和編舞人員。

生成式AI爆發的背後

過去一年裡,生成式AI發展得更好了。谷歌、微軟、Meta等AI領域的軟體巨頭們已在內部推進該技術,讓生成式AI整合到自己的產品中。

為什麼生成式AI突然就火紅了?

其實生成式AI技術一直在快速發展中,只不過之前因過高的技術門檻,多囿於科技界的小圈層。

回顧AI技術的發展歷程,會發現生成式AI的爆發離不開三個因素:更好的模型、更多的數據,和更多的計算。

2015年以前,小模型被認為是理解語言的「最先進技術」。這些小模型,擅長分析任務,並部署在從預測交付時間到詐欺分類的工作中。

然而,對於通用的生成任務,它們的表達能力還不夠強。生成人類層次的寫作或程式碼,仍只是一個夢想。

2017年,Google研究院發布了一篇里程碑式的論文(Attention is All You Need),描述了一種用於自然語言理解的新神經網路架構,稱為transformers,可以生成質量上乘的語言模型,同時,具有更高的可並行性,所需的訓練時間也大大減少。

當然,隨著模型越來越大,它們開始顯現出超越人類的層次。從2015年到2020年,用於訓練這些模型的計算量增加了6個數量級,其結果在手寫、語音和圖像識別、閱讀理解以及語言理解方面,超過了人類性能的基準。

其中,OpenAI的GPT-3脫穎而出,該模型的性能比GPT-2有了巨大飛躍,從程式碼生成到冷笑話寫作,顯示了更優秀的能力。

儘管有所有基礎研究領域的進展,這些模型並不普遍。

它們體積大、運作困難(需要GPU協調),不能廣泛使用(不可用或僅有封閉的測試版),而且作為雲端服務使用的費用昂貴。

但儘管有這些限制,最早的生成性AI應用開始進入戰場。

之後,隨著計算變得更便宜,業界繼續開發更好的演算法和更大的模型。

開發者的權限從封閉測試版擴大到了開放測試版,或者在某些情況下,開放原始碼。

如今,平台層的穩固,加上模型繼續變得更好、更快、更便宜,以及模型的訪問趨向於免費和開源,AI應用層的創造力爆發時機已經成熟。

例如,今年8月,文字-圖像生成模型Stable Diffusion開源,後繼者能更好地借助這一開源工具,挖掘出更豐富的內容生態,為向更廣泛的C端用戶普及起到至關重要的作用。

Stable Diffusion的火爆,本質上就是開源釋放了創造力。

生成式AI面臨現實挑戰

風投機構紅杉資本在官網上的一篇部落格文章中提到:「生成式AI有潛力產生數萬億美元的經濟價值。

」根據紅杉資本預測,生成式AI可以改變每個需要人類創造原創作品的行業,從遊戲到廣告再到法律。

具體而言,未來生成式AI的應用場景非常廣闊,除了文創、新聞等內容生產產業外,生成式AI在醫療保健、數位商業、製造業、農業等多個行業都有豐富的應用前景,如幫助醫生檢測X光、CT等設備掃描中的病變、創建商品的數位孿生體、輔助檢測產品品質等。

在XR、數位孿生、自動駕駛汽車等熱門技術上也有豐富的應用空間。

但值得注意的是,目前生成式AI仍有許多問題需要解決。

如在文娛領域,不少人採用生成式AI進行創作的一個原因,就是可以避免版權問題,但這並不代表沒有隱患。

一方面,AI的創作也是將學習到數據按照要求重新組合起來,雖然顆粒度越來越細,但難免還是有眼尖的人會看出可能是參考了哪些作品,甚至有網友在社群平台上表示曾在某AI生成圖片上隱約看到疑似簽名的痕跡。

另一方面,目前大部分AI生成平台多不主張版權或明確表示可以進行商用,但隨著生成式AI逐步商業化,這樣的版權環境是否存在,是否會出現新的版權問題也是需要討論的。

生成式AI的邏輯與安全性也有待提升。目前的生成式AI很容易犯一些常識性的錯誤,在一些需要長期記憶的地方也容易出現問題。

如在AI生成小說的過程中,常會因為篇幅較長而出現前後矛盾的地方。

因此,即使生成式AI已經可以在許多領域得到應用,真要讓生成式AI投入工作,還要透過大量的訓練來避免因AI的「錯誤」造成的重大損失。

畢竟醫療、製造業這些應用場景沒有文創產業那樣的試誤空間。

結語

儘管生成式AI目前還離不開人工幹預,但不可否認的是,生成式AI仍具有非常大的發展潛力。

生成式AI的出現,意味著AI開始在現實內容中,承擔從「觀察、預測」拓展到「直接生成、決策」的新角色。換句話說,生成式AI是在創造,而不僅僅是分析。

正如OpenAI CEO Sam Altman所說:「生成式AI提醒我們,很難做出有關於人工智慧的預測。

###################################################十年前傳統觀點認為:人工智慧首先會影響體力勞動;然後,是認知勞動;然後,也許有一天它可以做創造性的工作。現在看起來,它會以相反的順序進行。」### ###

以上是AI寫小說、繪畫、剪視頻,生成式AI更火了!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]無法使用chatgpt!解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問?本文提供多種實用解決方案!許多用戶在日常使用ChatGPT時,可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況,逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查 首先,我們需要確定問題是出在OpenAI服務器端,還是用戶自身網絡或設備問題。 請按照以下步驟進行排查: 步驟1:檢查OpenAI官方狀態 訪問OpenAI Status頁面 (status.openai.com),查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報,則表示Open

計算ASI的風險始於人類的思想計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工學院物理學家Max Tegmark告訴《衛報》,AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數',這是一場比賽的可能性

易於理解的解釋如何編寫和撰寫歌詞和推薦工具易於理解的解釋如何編寫和撰寫歌詞和推薦工具May 14, 2025 am 05:01 AM

AI音樂創作技術日新月異,本文將以ChatGPT等AI模型為例,詳細講解如何利用AI輔助音樂創作,並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。 通過這些技術,每個人都能輕鬆創作原創音樂。但需注意,AI生成內容的版權問題不容忽視,使用時務必謹慎。 讓我們一起探索AI在音樂領域的無限可能! OpenAI最新AI代理“OpenAI Deep Research”介紹: [ChatGPT]Ope

什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!什麼是chatgpt-4?對您可以做什麼,定價以及與GPT-3.5的差異的詳盡解釋!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显著提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序!日本支持和語音對話功能解釋如何使用chatgpt應用程序!日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序:與AI助手釋放您的創造力!初學者指南 ChatGpt應用程序是一位創新的AI助手,可處理各種任務,包括寫作,翻譯和答案。它是一種具有無限可能性的工具,可用於創意活動和信息收集。 在本文中,我們將以一種易於理解的方式解釋初學者,從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能,以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt?註冊程序和費用的說明如何使用中文版Chatgpt?註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版:解鎖中文AI對話新體驗 ChatGPT風靡全球,您知道它也提供中文版本嗎?這款強大的AI工具不僅支持日常對話,還能處理專業內容,並兼容簡體中文和繁體中文。無論是中國地區的使用者,還是正在學習中文的朋友,都能從中受益。 本文將詳細介紹ChatGPT中文版的使用方法,包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇,並分析潛在風險及應對策略。此外,我們還將對比ChatGPT中文版和其他中文AI工具,幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話,您需要停止相信5 AI代理神話,您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍,這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動,而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋! Chatgpt在各種情況下都使用,但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶,使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點,例如業務和私人使用差異,並遵守OpenAI的使用條款,並提供指南,以幫助您安全地利用多個帳戶。 Openai

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。