搜索
首页科技周边人工智能AI写小说、绘画、剪视频,生成式AI更火了!

​近日,生成式AI又火了!一个叫做「盗梦师」的微信小程序,上线一鸣惊人,达成了日增5万新用户的纪录。

盗梦师是一个能根据输入文本生成AI写小说、绘画、剪视频,生成式AI更火了!的AI平台,属于AIGC(AI-Generated Content,即人工智能生成内容)的分支。

在用户发挥想象,输入文字描述后,盗梦师便可生成1:1、9:16和16:9三种比例的AI写小说、绘画、剪视频,生成式AI更火了!,还有24种绘画风格可以选择——除了基础的油画、水彩、素描等绘画种类,还包括赛博朋克、蒸汽波、像素艺术、吉卜力和 CG 渲染等特别风格。

AI写小说、绘画、剪视频,生成式AI更火了!

图:科技云报道编辑用「盗梦师」微信小程序生成​

事实上,这并不是第一款“以文生图”的AI软件。从Midjourney到Stable Diffusion,生成式AI一直是近两年最炙手可热的话题。

作为AI发展的一个重要方向,生成式AI具有非常大的发展潜力。

据Gartner上半年的数据,预计到 2025 年,生成式AI将占所有生成数据的10%,当前这一比例不到1%。

有观点认为,2022年将是生成式AI从技术成熟到深入社会基本面的元年。

 生成式AI爆发式增长:从AI写小说、绘画、剪视频,生成式AI更火了!到视频

最近几年,AI技术在视觉领域的发展可谓是“神速”。

去年1月,致力于“用通用人工智能造福全人类”的OpenAI公司,基于GPT-3模型发布了划时代的DALL-E,实现了从文本生成图像。

今年4月份,OpenAI发布的第二代DALL-E 2模型,再次为图像生成领域树立了全新标杆。

用户可以通过简短的文本描述(prompt)来生成相应的图像,使得不会画画的人也可以将自己的想象力变为艺术创作,例如“羊驼打篮球”这句话生成的四张AI写小说、绘画、剪视频,生成式AI更火了!,看起来就非常符合大家预期的想象。

AI写小说、绘画、剪视频,生成式AI更火了!

DALL-E 2模型生成AI写小说、绘画、剪视频,生成式AI更火了!示例

不仅如此,随着文字描述的颗粒度不断细化,生成的图像也会越来越精准,效果在非专业人士看来已经相当震撼。

但DALL-E 2这样的模型仍然停留在二维创作即AI写小说、绘画、剪视频,生成式AI更火了!生成领域,无法生成360度无死角的3D模型。

不过这依旧难不住极具创意的算法研究员,Google Research的一项最新成果——DreamFusion模型,即可通过输入简单的文本提示生成3D模型,不仅能够在不同的光照条件下进行渲染,而且生成的3D模型还具有密度、颜色等特性,甚至可以把生成的多个3D模型融合到一个场景里。

在生成3DAI写小说、绘画、剪视频,生成式AI更火了!之后,Meta的算法人员将思路进一步打开,向更高难度发起挑战,开始探索用文字提示来直接生成视频。

虽然本质上来说,视频就是一系列图像的叠加,但相比于生成图像,用文字来生成视频时,不仅需要生成相同场景下的多个帧,还要保证相邻帧之间的连贯性。由于训练模型时可用的高质量视频数据非常少,但计算量却很大,大大增加了视频生成任务的复杂性。

今年9月,来自Meta的研究人员发布了Make-A-Video,这是一个基于人工智能的高质量短视频生成模型,相当于视频版的DALL-E,也被戏称为“用嘴做视频”,即可以通过文本提示创建新的视频内容,其背后使用的关键技术,也同样来自DALL-E等图像生成器所使用的“文本-图像”合成技术。

仅1周之后,谷歌CEO皮查伊就接连官宣了两个模型,来正面挑战Meta的Make-A-Video,分别是Imagen Video与Phenaki。

与Make-A-Video相比,Imagen Video更加突出视频的高清特性,能生成1280*768分辨率、每秒24帧的视频片段,还能理解并生成不同艺术风格的作品;

理解物体的3D结构,在旋转展示中不会变形;

甚至还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画。

AI写小说、绘画、剪视频,生成式AI更火了!

​Imagen Video生成视频示例

而Phenaki则能根据200个词左右的提示语生成2分钟以上的较低分辨率长镜头,讲述一个相对完整的故事。

AI写小说、绘画、剪视频,生成式AI更火了!

Phenaki生成视频示例

目前,国内也有不少生成式AI的应用。

例如,字节跳动旗下的剪映APP提供AI生成视频功能,并可以免费使用。

剪映的图文成片功能和谷歌类似,创作者可以通过几个关键词或一小段文字,生成一段创意小视频。

剪映还可以根据文字描述智能匹配视频素材,将视频包装为更垂直的内容作品,包括财经、历史、人文等类别。

2022年1月,网易推出一站式AI音乐创作平台“网易天音”,将用户编辑的新年祝福AI生成为歌曲,并在上半年推出了web端专业版。

2021年9月,彩云小梦APP上线,能够进行各种类型文本创作,用户只需要给出一个1-1000字的开头,彩云小梦就能续写出后面的故事。

事实上,AI创作还有多种形式。当生成式AI技术应用于写稿,可以诞生机器版的记者、小说家、诗人、编剧等,而当它应用于绘画、音乐和舞蹈领域时,则可以“培养”出画家、作曲家和编舞人员。

生成式AI爆发的背后

过去一年里,生成式AI发展得更好了。谷歌、微软、Meta等AI领域的软件巨头们已在内部推进该技术,让生成式AI融合到自己的产品里。

为什么生成式AI突然就火了?

其实生成式AI技术一直在快速发展中,只不过之前因过高的技术门槛,多囿于科技界的小圈层。

回顾AI技术的发展历程,会发现生成式AI的爆发离不开三个因素:更好的模型、更多的数据,和更多的计算。

2015年以前,小模型被认为是理解语言的“最先进技术”。这些小模型,擅长分析任务,并被部署在从预测交付时间到欺诈分类的工作中。

然而,对于通用的生成任务,它们的表达能力还不够强。生成人类水平的写作或者代码,仍只是一个梦想。

2017年,谷歌研究院发布了一篇里程碑式的论文(Attention is All You Need),描述了一种用于自然语言理解的新神经网络架构,称为 transformers,可以生成质量上乘的语言模型,同时,具有更高的可并行性,需要的训练时间也大大减少。

当然,随着模型越来越大,它们开始显现出超越人类的水平。从2015年到2020年,用于训练这些模型的计算量增加了6个数量级,其结果在手写、语音和图像识别、阅读理解以及语言理解方面,超过了人类性能的基准。

其中,OpenAI的GPT-3脱颖而出,该模型的性能比GPT-2有了巨大飞跃,从代码生成到冷笑话写作,显示了更优秀的能力。

尽管有所有基础研究领域的进展,这些模型并不普遍。

它们体积大、运行困难(需要GPU协调),不能广泛使用(不可用或仅有封闭的测试版),而且作为云服务使用的费用昂贵。

但是尽管有这些限制,最早的生成性AI应用开始进入战场。

之后,随着计算变得更便宜,业界继续开发更好的算法和更大的模型。

开发者的权限从封闭测试版扩大到了开放测试版,或者在某些情况下,开放源代码。

如今,平台层的稳固,加上模型继续变得更好、更快、更便宜,以及模型的访问趋向于免费和开源,AI应用层的创造力爆发时机已经成熟。

比如,今年8月,文本-图像生成模型Stable Diffusion开源,后继者能更好地借助这一开源工具,挖掘出更丰富的内容生态,为向更广泛的C端用户普及起到至关重要的作用。

Stable Diffusion的火爆,本质上就是开源释放了创造力。

生成式AI面临现实挑战

风投机构红杉资本在官网上的一篇博客文章中提到:“生成式AI​有潜力产生数万亿美元的经济价值。

”据红杉资本预测,生成式AI可以改变每个需要人类创造原创作品的行业,从游戏到广告再到法律。

具体而言,未来生成式AI的应用场景非常广阔,除了文创、新闻等内容生产行业外,生成式AI在医疗保健、数字商业、制造业、农业等多个行业都有丰富的应用前景,如帮助医生检测X射线、CT等设备扫描中的病变、创建商品的数字孪生体、辅助检测产品质量等。

在XR、数字孪生、自动驾驶汽车等热门技术上也有丰富的应用空间。

但值得注意的是,当前生成式AI仍有很多问题需要解决。

如在文娱领域,不少人采用生成式AI进行创作的一个原因,就是可以避免版权问题,但这并不代表没有隐患。

一方面,AI的创作也是将学习到数据按照要求重新组合起来,虽然颗粒度越来越细,但难免还是有眼尖的人会看出可能是参考了哪些作品,甚至有网友在社交平台上表示曾在某AI生成AI写小说、绘画、剪视频,生成式AI更火了!上隐约看到疑似签名的痕迹。

另一方面,当前大部分AI生成平台多不主张版权或明确表示可以进行商用,但随着生成式AI逐步商业化,这样的版权环境是否存在,是否会出现新的版权问题也是需要讨论的。

生成式AI的逻辑与安全性也有待提升。当前的生成式AI很容易犯一些常识性的错误,在一些需要长期记忆的地方也容易出现问题。

如在AI生成小说的过程中,经常会因为篇幅较长而出现前后矛盾的地方。

因此,即便生成式AI已经可以在很多领域得到应用,真要让生成式AI投入工作,还要通过大量的训练来避免因AI的“错误”造成的重大损失。

毕竟医疗、制造业这些应用场景没有文创行业那样的试错空间。

结语

尽管生成式AI当前还离不开人工干预,但不可否认的是,生成式AI仍具有非常大的发展潜力。

生成式AI的出现,意味着AI开始在现实内容中,承担从“观察、预测”拓展到“直接生成、决策”的新角色。换句话说,生成式AI是在创造,而不仅仅是分析。

正如OpenAI CEO Sam Altman所说:“生成式AI提醒我们,很难做出有关于人工智能的预测。

十年前传统观点认为:人工智能首先会影响体力劳动;然后,是认知劳动;然后,也许有一天它可以做创造性的工作。现在看起来,它会以相反的顺序进行。”

以上是AI写小说、绘画、剪视频,生成式AI更火了!的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石Apr 22, 2025 am 11:48 AM

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

Sam俱乐部在AI上押注以消除收据检查并增强零售Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

探索Google的功能探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

下一波《 Genai:与Kirk Borne博士的观点》 -Analytics Vidhya下一波《 Genai:与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员:我们取得了出色的进步AI适合跑步者和运动员:我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型杰米·恩格斯特罗姆(Jamie Engstrom)关于卡特彼勒的技术,人才和转型Apr 22, 2025 am 11:10 AM

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

新的Google照片更新使任何具有Ultra HDR质量的照片流行新的Google照片更新使任何具有Ultra HDR质量的照片流行Apr 22, 2025 am 11:09 AM

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中