随着大模型的落地按下加速键,文生图无疑是最火热的应用方向之一。
自从 Stable Diffusion 诞生以来,海内外的文生图大模型层出不穷,一时有「神仙打架」之感。短短几个月,「最强 AI 画师」的称号几次易主。每一次技术迭代,都不断刷新着AI图像生成质量和速度的上限。
于是现在,我们输入几个文字就能得到任何想要的画面。无论是专业级别的商业海报,还是超写实画风的写真照片,AI 制图的逼真程度已经让我们叹为观止。甚至 AI 赢下了 2023 年度的索尼世界摄影奖。在大奖公布之前,这幅「照片」已经在伦敦萨默赛特宫进行展览——如果作者不公开说明,可能没有人会发现这张照片实际出自 AI 之手。
Eldagse和他的AI生成作品《电工》
如何让 AI 画出来的图片更具美感,这离不开 AI 技术人员持之以恒的付出。第六期的《AIGC体验派》就邀请到了豆包文生图技术专家李亮、NVIDIA 解决方案架构师赵一嘉,为我们深入剖析了文生图模型出图更美、更快、更懂用户心意背后的技术链路。
直播开始,李亮首先详细拆解了近期国产大模型「顶流」—— 字节跳动豆包大模型在文生图模型方面的技术升级。
李亮表示,豆包团队想解决的问题主要包含三个方面:一是如何实现更强的图文匹配来满足用户的想法设计;第二个是如何生成更具美感的图像来提供更极致的用户体验;第三个是如何更快速地出图来满足超大规模的服务调用。
在图文匹配方面,豆包团队从数据入手,对海量图文数据做精细化筛选和过滤,最终入库了千亿量级的高质量图像。此外,团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图像的物理关系。
有了高质量高细节的图文对数据之后,想要更好地发挥出模型的实力,还需要提升文本理解模块的能力。团队采用原生双语大语言模型作为文本编码器,显著提升了模型理解中文的能力,因此,面对「唐代」、「元宵节」等国风元素,豆包・文生图模型也展现出了更加深刻的理解力。
对于 Diffsuion 模型架构,豆包团队也注入了独门秘籍,他们 UNet 进行了有效地scaling,通过增加参数量,豆包・文生图模型进一步地提升了图像文本对的理解和高保真的生成能力。
针对用户直观感受最明显的美学风格,豆包团队引入了专业的美学指导,也时刻关注用户和大众审美的偏好。与此同时,团队也在数据和模型架构上下了一番功夫。很多时候,用户得到的图像和 demo 展示的效果对比好比「买家秀」和「卖家秀」,实际上是给出的 prompt 对于模型来说不够详细和明确,而豆包·文生图模型引入了一个「Rephraser」,在遵循用户原始意图的同时,为提示词增加更多的细节描述,所有用户也将因此体验到更完美的生成效果。
为了让模型出图速度更快,每张图消耗的成本更低,豆包团队在模型的蒸馏方式上也给出了新的解题思路,一项代表性的成果是 Hyber-SD,这是一种新颖的扩散模型蒸馏框架,在压缩去噪步数的同时可保持接近无损的性能。
Als nächstes ging der NVIDIA-Lösungsarchitekt Zhao Yijia von der zugrunde liegenden Technologie aus und erläuterte die beiden gängigsten Unet-basierten SD- und DIT-Modellarchitekturen von Vincent Graph und ihre entsprechenden Eigenschaften und stellte NVIDIAs Tensorrt- und Tensorrt-How-Tools wie LLM vor , Triton und Nemo Megatron unterstützen die Bereitstellung von Modellen und helfen großen Modellen, effizienter zu argumentieren.
Zhao Yijia gab zunächst eine detaillierte Erklärung der Prinzipien hinter dem Modell der stabilen Diffusion und erläuterte die Funktionsprinzipien von Schlüsselkomponenten wie Clip, VAE und Unet. Mit der Popularität von Sora wurde auch die dahinter stehende DiT-Architektur (Diffusion Transformer) immer beliebter. Zhao Yijia führte außerdem einen umfassenden Vergleich der Vorteile von SD und DiT unter drei Aspekten durch: Modellstruktur, Eigenschaften und Rechenleistungsverbrauch.
Wenn Sie die stabile Diffusion zum Generieren von Bildern verwenden, haben Sie oft das Gefühl, dass der Inhalt der Eingabeaufforderungswörter in den generierten Ergebnissen dargestellt wird, das Bild jedoch nicht Ihren Wünschen entspricht. Dies liegt daran, dass die stabile Diffusion auf der Grundlage der Textwiedergabe nicht der Fall ist gut darin, Bilddetails wie Komposition, Bewegung, Gesichtszüge, räumliche Beziehungen usw. zu kontrollieren. Basierend auf dem Arbeitsprinzip der stabilen Diffusion haben Forscher daher viele Steuermodule entwickelt, um die Mängel der stabilen Diffusion auszugleichen. Zhao Yijia fügte den repräsentativen IP-Adapter und ControlNet hinzu.
Wenn wir die Inferenzgeschwindigkeit des rechenintensiven Vincent-Graphmodells beschleunigen wollen, spielt der technische Support von NVIDIA eine Schlüsselrolle. Zhao Yijia stellte die Nvidia TensorRT- und TensorRT-LLM-Tools vor, die den Inferenzprozess von Bild- und Textgenerierungsmodellen durch leistungsstarke Faltung, effiziente Planung und verteilte Bereitstellungstechnologien optimieren. Gleichzeitig unterstützen NVIDIAs Ada, Hopper und die kommende BlackWell-Hardwarearchitektur bereits FP8-Training und -Inferenz, was für ein reibungsloseres Modelltraining sorgen wird.
Nach sechs wunderbaren Live-Übertragungen ist die gemeinsam von Volcano Engine, NVIDIA, dieser Seite und CMO CLUB ins Leben gerufene „AIGC Experience Party“ zu einem erfolgreichen Abschluss gekommen. Ich glaube, durch diese sechs Episoden hat jeder ein tieferes Verständnis dafür, wie sich AIGC von „interessant“ zu „nützlich“ verändert. Wir freuen uns auch darauf, dass die „AIGC Experience School“ nicht nur in der Diskussion des Programms bleibt, sondern auch den Prozess der intelligenten Weiterentwicklung im Marketingbereich in der Praxis beschleunigt.
Rezensionsadresse aller sechs Ausgaben von „AIGC Experience School“: https://vtizr.xetlk.com/s/7CjTy
以上是AI出图更快、更美、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?的详细内容。更多信息请关注PHP中文网其他相关文章!