重点强调:
研究人员提出了一项名为StableRep的新技术,该技术利用由人工智能生成的图像来训练高度详细的人工智能图像模型
StableRep通过使用数百万标记的合成图像进行训练,采用“多正对比学习方法”来提高学习过程,并将其应用于开源文本到图像模型Stable Diffusion
- ⚙️ 尽管StableRep在ImageNet分类上取得了显著成就,但其生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。
站长之家(ChinaZ.com) 11月28日消息:MIT和Google的研究人员近期开发了一项名为StableRep的新技术,旨在利用由AI生成的图像来训练更加详细和高效的AI图像模型。这项技术被应用于开源文本到图像模型Stable Diffusion,取得了一系列显着的成就。
StableRep使用了一种称为“多正对比学习方法”的独特方式。在这种方法中,多个源自同一文本提示的图像被视为彼此的正对比,以增强学习过程。例如,针对风景文本提示,模型会将生成的多个风景图像与所有相关描述进行比较,以找出基于这些图像的微小差异,并将其应用于最终输出,从而创造出高度详细的图像
研究人员指出,他们的方法在将多个图像视为同一底层事物的表达方面表现出色,而不仅仅将其视为像素的集合。实验证明,StableRep在ImageNet分类任务中,使用Vision Transformer模型,达到了76.7%的线性准确度。此外,通过引入语言监督,在2000万合成图像上训练的StableRep模型超越了使用5000万真实图像训练的CLIP模型的表现
然而,稳定生成器并非没有缺陷。它生成图像的速度较慢,同时在文本提示和生成图像之间存在语义不匹配的问题。此外,稳定生成器的底层模型稳定扩散需要在真实数据上进行初始训练,因此使用稳定生成器生成图像将需要更长时间且成本可能更高
StableRep已经在GitHub上开源,并可用于商业用途。它采用Apache2.0许可证,用户可以使用并生成衍生作品,但需要在重新分发的作品或衍生作品中提供Apache许可证的副本,并包含对更改的通知。许可证还包括对贡献者不对使用许可作品引起的任何损害负责的责任限制。 稳定副本(StableRep)已在GitHub上以开源方式发布,可用于商业目的。其采用了Apache2.0许可证,允许用户使用和创建衍生作品。然而,在重新分发或衍生作品中,用户需要提供Apache许可证的副本,并通知对所做的更改。该许可证还对贡献者对使用许可作品所造成的任何损害免责
麻省理工学院和谷歌的这项研究成果代表了人工智能图像生成领域的一次创新。尽管存在一些缺陷,但它提供了一种新的方法和思路来生成高质量的图像
以上是MIT和Google联合研究StableRep新技术:利用合成图像训练AI图像模型的详细内容。更多信息请关注PHP中文网其他相关文章!