近期,谷歌和OpenAI发布的全新图像生成模型引发广泛关注,其核心技术与以往模型截然不同。 Ethan Mollick在One Useful Thing发表的文章深入探讨了这些新模型的工作机制及其对人类用户的影响。本文将对Mollick的观点进行解读。
多模态图像生成的潜力
Mollick指出,传统的图像生成系统是多个模型协同工作的产物,并非单一模型完成所有任务。
他写道:“以往,大型语言模型(LLM)生成图像并非由LLM直接完成。AI会将文本提示发送给独立的图像生成工具,然后显示结果。AI负责创建文本提示,而另一个能力较弱的系统负责生成图像。”
扩散模型已成过去式
旧模型主要依赖扩散模型工作。扩散模型的工作原理是:将图像引入噪声,进行抽象处理,然后再去除噪声,生成与计算机已知图像库中匹配提示的图像。
然而,这种方法的局限性在于:生成的图像缺乏模型自身的推理和判断,只是对现有图像库的简单组合,无法提供有价值的信息。
多模态控制的优势
如今,多模态控制技术的出现彻底改变了这一现状。
Mollick举例说明:提示模型生成“没有大象的房间,并标注原因”。传统模型会生成包含大象的图像,因为它无法理解提示的语境。生成的文本也可能毫无意义甚至包含虚构字符,因为模型对字母的理解也源于训练数据。
而多模态模型则能精准地生成符合要求的图像,并添加注释,例如“门太小”,解释为什么房间里没有大象。
传统模型的提示挑战
传统模型的一个显著缺陷是:一旦要求其排除某个元素,它反而会包含该元素,因为它无法理解指令。此外,每次修改或调整都会改变图像的基本结构。例如,修改人物的帽子可能会导致人物形象完全改变。
多模态图像生成模型则能够在保留原有结果的基础上进行细微调整。
环境的保持
Mollick还展示了另一个例子:一只手里拿着特定物品的水獭,然后在不同环境和不同风格的背景下出现。这展现了多模态图像生成器的精细整合能力。
完整的演示文稿
Mollick还展示了如何利用多模态模型设计完整的演示文稿,例如关于鳄梨酱的推介。只需提供简单的指令,模型就能搜索互联网上的相关信息,进行整合,并生成最终结果。
正如Mollick所言,这将迅速导致许多人类工作被取代。我们需要认真考虑建立相应的框架。
以上是Mollick介绍了新图像生成模型的含义的详细内容。更多信息请关注PHP中文网其他相关文章!

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载
最流行的的开源编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。