首页 >科技周边 >人工智能 >如何使用稳定的扩散3 API

如何使用稳定的扩散3 API

Joseph Gordon-Levitt
Joseph Gordon-Levitt原创
2025-03-07 09:05:09284浏览

>稳定性AI宣布了2024年2月的稳定扩散3的早期预览。AI模型仍在预览中,但是在2024年4月,该团队宣布,他们将在与Faster -Fast -fast Pastiale and fastect and faste faste Plaste Carket in and稳定的AI开发人员平台上提供稳定的扩散3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮增压3涡轮。

请注意,稳定扩散3只是一系列文本到图像生成的AI模型。根据稳定性AI的团队的说法,该模型为“等于或跑得超越或跑得超越或跑得超越或跑步”。

在本教程中,您将学习实用的步骤以开始使用API​​,因此您可以开始生成自己的图像。 为什么稳定扩散3?> 稳定的扩散3引入了几种进步和功能,使其与前任区分开来,并在文本到图像生成空间中具有很高的竞争力,尤其是在改进的文本生成和迅速跟踪功能方面。 让我们探索这些进步:

>增强提示

  • 上下文理解:稳定的扩散3结合了最先进的自然语言处理(NLP)技术,从而使其能够更好地理解并解释用户提示。这使得对用户输入的更准确和上下文相关的响应。
  • >
  • 提示连续性:与以前的版本不同,稳定扩散3在以下提示中保持了更好的连续性,确保生成的文本保持一致并与用户在整个对话中的输入保持一致。
  • >

改进的文本生成

  • 微调语言模型:
  • 稳定的扩散3利用了对大型数据集进行了广泛培训的微调语言模型,从而增强了文本生成功能。这些模型可以更好地了解语法,语法和语义,从而产生更连贯和自然的响应。
  • 降低响应变异性:通过改进的训练方法和模型架构,稳定的扩散3可降低响应变异性,在不同的提示和上下文中产生更一致和高质量的输出。
高级提示扩展

  • 多转向对话支持:稳定的扩散3可以更有效地处理多转化对话,从而在用户与AI模型之间进行多个交流之间保持连贯性和上下文。 提示扩展技术:
  • 该模型采用高级提示扩展技术来产生更有信息和上下文相关的响应,丰富了对话,并为用户提供了对其查询的全面答案。
  • 微调控制机制

参数调整:

稳定的扩散3具有微调控制机制,使用户可以调整参数,例如响应长度,创造力级别和主题相关性,从而启用更自定义的交互体验。
  • 偏差缓解:该模型结合了减轻文本生成偏见的措施,在其对用户提示的响应中促进公平性和包容性。
  • 开始使用稳定扩散3 API 本节将通过稳定性API开始的步骤。
  • >
步骤1:创建您的帐户。

>您需要创建一个帐户,然后才能使用稳定性AI的API。您可以使用用户名和密码注册,但是新用户使用他们的Google帐户获得25个免费积分。

>

步骤2:要求您的API键。

创建帐户后,您将需要一个API。这可以在API键页面上找到。在文档中,稳定性AI指出“本网站上记录的所有API都使用相同的身份验证机制:通过授权标头传递API键。

步骤3:充满信心。 >您必须有学分才能请求API。信用是在调用API时消耗的货币单位 - 各种模型和模式的消耗量各不相同。使用所有积分后,您可以通过计费仪表板以每100个积分$ 1美元的价格购买更多。

> 在本教程中,我们将使用Google Colab和comfyui来演示如何使用稳定的扩散3 API生成图像。在下一部分中,我们将介绍使用每个工具开始使用的步骤。

>

使用Google Colab

使用稳定的扩散3 API

要开始使用Google Colab,您必须创建一个Google帐户 - 单击链接并按照说明。

如果您已经有了Google帐户,请打开新笔记本并按照以下步骤操作。

>

注意:此示例中使用的代码是从稳定性AI的SD3_API教程中获取的 步骤1:安装要求。

>

>步骤2:连接到稳定性API。

from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output

步骤3。定义函数

import getpass
# To get your API key, visit https://platform.stability.ai/account/keys
STABILITY_KEY = getpass.getpass('Enter your API Key')

步骤4。生成图像。>

根据文档,稳定的图像服务仅包括目前正在生产的产品:>
def send_generation_request(
    host,
    params,
):
    headers = {
        "Accept": "image/*",
        "Authorization": f"Bearer {STABILITY_KEY}"
    }

    # Encode parameters
    files = {}
    image = params.pop("image", None)
    mask = params.pop("mask", None)
    if image is not None and image != '':
        files["image"] = open(image, 'rb')
    if mask is not None and mask != '':
        files["mask"] = open(mask, 'rb')
    if len(files)==0:
        files["none"] = ''

    # Send request
    print(f"Sending REST request to {host}...")
    response = requests.post(
        host,
        headers=headers,
        files=files,
        data=params
    )
    if not response.ok:
        raise Exception(f"HTTP {response.status_code}: {response.text}")

    return response

> sd3:>使用6.5 Credits

SD3 Turbo:

使用4个学分
  • 让我们测试它们。
  • 在此示例中,我们将在低地热带地区创建一只Toucan鸟的图像。
  • 这是它创建的:

作者使用稳定扩散3

# SD3

prompt = "This dreamlike digital art captures a vibrant, Toucan bird in a lowland tropic area" #@param {type:"string"}
negative_prompt = "" #@param {type:"string"}
aspect_ratio = "1:1" #@param ["21:9", "16:9", "3:2", "5:4", "1:1", "4:5", "2:3", "9:16", "9:21"]
seed = 0 #@param {type:"integer"}
output_format = "jpeg" #@param ["jpeg", "png"]

host = f"https://api.stability.ai/v2beta/stable-image/generate/sd3"

params = {
    "prompt" : prompt,
    "negative_prompt" : negative_prompt,
    "aspect_ratio" : aspect_ratio,
    "seed" : seed,
    "output_format" : output_format,
    "model" : "sd3",
    "mode" : "text-to-image"
}

response = send_generation_request(
    host,
    params
)

# Decode response
output_image = response.content
finish_reason = response.headers.get("finish-reason")
seed = response.headers.get("seed")

# Check for NSFW classification
if finish_reason == 'CONTENT_FILTERED':
    raise Warning("Generation failed NSFW classifier")

# Save and display result
generated = f"generated_{seed}.{output_format}"
with open(generated, "wb") as f:
    f.write(output_image)
print(f"Saved image {generated}")

output.no_vertical_scroll()
print("Result image:")
IPython.display.display(Image.open(generated))
创建的图像

现在,让我们使用SD3 Turbo创建由水果制成的汽车的图像:

如何使用稳定的扩散3 API运行此代码产生以下图像:>

作者使用稳定扩散3涡轮

使用comfyui

的API comfyui是用于稳定扩散的强大且灵活的图形用户界面(GUI)。它具有基于图的接口,并使用流程图式设计来使用户能够创建和运行复杂的,稳定的扩散工作流程。

系统要求:

  • 图形处理单元(GPU):>具有至少8GB VRAM的足够的NVIDIA GPU,例如RTX 3060 TI或更高。
  • 中央处理单元(CPU): 随机访问存储器(RAM):
  • 16GB或更大。
  • 操作系统:
  • Windows 10/11或Linux。
  • >计算机上的足够存储空间用于型号和生成的图像。 >步骤1:安装comfyui >在Windows上安装Comfyui的最简单方法涉及使用版本页面上的独立安装程序。该安装程序包括诸如Pytorch和拥抱脸部变压器之类的基本依赖项,从而消除了对单独安装的需求。 它提供了一个综合的软件包,可以在Windows上快速设置Comfyui,而无需复杂的配置。
  • >
  • 只需下载,提取,添加模型并启动!
>

步骤1.1:

>从此github存储库中下载comfyui的独立版本 - 单击链接将启动下载。>

>

步骤1.2:

>您下载了最新的comfyui-windows.zip文件后,请使用诸如7-zip或winrar等实用程序提取它。

>

步骤1.3:开始使用comfyui需要一个检查点模型。您可以从稳定扩散或拥抱面下载检查点模型。将模型放入文件夹中:

>步骤1.4:现在,只需运行run_nvidia_gpu.bat(推荐)或run_cpu.bat即可。这应该在浏览器上自动启动comfyui。>

命令行将执行并生成URL http://127.0.0.0.1:8188/您现在可以在浏览器中打开。

> >步骤2:安装Comfyui Manager 在文件资源管理器应用程序中,找到您刚安装的目录。鉴于您使用的是Windows,应将其命名为“ comfyui_windows_portable”。从这里导航到comfyui,然后从这里导航。在此位置,在地址栏中键入CMD,然后按Enter。

这应该打开命令提示符终端,您必须在其中插入以下命令:>
from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output

完成后,重新启动comfyui。新的“管理器”按钮应显示在浮动面板上。

步骤3:安装稳定性AI API节点

选择“管理”按钮并导航到“

> install stern custom节点”。

>找到“ comfyui的稳定性API节点”节点,然后单击位于右侧的安装按钮以启动安装过程。之后,将看到一个“

重新启动”按钮。单击重新启动comfyui。

步骤4:定义系统范围的API键

此步骤是可选的,但建议使用。即,您可以为稳定性AI自定义节点中的每个节点设置稳定性AI API键。这防止了需要在每个工作流程中反复输入API密钥,并降低了共享工作流JSON文件时无意性共享API密钥的风险。

> 为此,请导航到自定义节点目录:

>创建一个名为sai_platform_key.txt的新文件。将您的API键粘贴到文件中,保存文档,然后重新启动Comfyui。
from io import BytesIO
import IPython
import json
import os
from PIL import Image
import requests
import time
from google.colab import output
>步骤5:加载并运行工作流

>安装稳定的扩散3文本对图像工作流,然后将其放入comfyui。

您现在很好!

>

>故障排除和提示

与任何工具一样,总是有可能在此过程中遇到一些问题。这是针对API或设置过程面临问题的用户的最常见挑战和故障排除步骤。

>

> API密钥和身份验证问题

挑战:

>由于不正确的API键或错误的身份验证,用户在访问API时可能会遇到身份验证错误。

>

>>故障排除:>双检查API键,并确保它被正确复制和粘贴。验证钥匙中没有其他空间或字符。确保通过稳定的扩散3服务器对API密钥正确身份验证。

信用管理问题

> 挑战:

>用户可能会遇到与信用管理有关的问题,例如信用管理不足或计费错误。

>

>故障排除:>在稳定的扩散3仪表板中检查您的信用余额,以确保您拥有足够的信用。验证您的计费信息,并解决与支持团队的任何计费错误或差异。

连接和网络问题

> 挑战:

>用户可能会遇到连接问题或网络中断,以阻止他们访问API。

>

>故障排除:

确保您具有稳定的Internet连接,并且没有网络中断。要隔离问题,请尝试从其他网络或设备访问API。如果您继续遇到连接问题,请与您的互联网服务提供商联系。 兼容性和依赖性错误

>挑战:用户在安装或使用所需的工具和库时可能会遇到兼容性问题或依赖性错误。>

故障排除:

检查稳定扩散3 API的兼容性要求,并确保您使用兼容的工具和库的版本。更新或重新安装任何引起错误的依赖项。请参阅文档和社区论坛以进行故障排除指导。

>性能和响应时间

>挑战:>用户在与API互动时,尤其是在使用高峰时段时可能会遇到缓慢的响应时间或性能问题。

>

>故障排除:>监视API的性能和跟踪响应时间以识别模式或趋势。考虑升级到高级订阅计划,以提高性能和优先级访问。如果您始终遇到缓慢的响应时间,请与支持团队联系。

>

文档和支持

> 挑战:>用户可能会遇到困难理解API文档,或者需要对特定问题进行故障排除。

>

故障排除:有关API使用,故障排除和最佳实践的指南,请参阅稳定的扩散3文档。如果您有任何尚未解决的问题或问题,请联系支持团队或社区论坛。

结论

>稳定的扩散3是一系列文本到图像生成的AI模型。本文介绍了开始使用Google Colab和Comfyui使用API​​的实用步骤。现在,您拥有创建自己的图像的技能;请确保尽快应用您学到的知识,以免忘记。

>

感谢您的阅读!

进一步学习 >稳定的扩散Web UI:初学者的综合用户指南
    与Dreambooth和Lora
  • 的微调稳定扩散XL
  • 如何运行稳定的扩散
  • 使用与python中的扩散器的AI生成逼真的图像
  • >
  • FAQS
  • >有效使用稳定扩散3 API的最佳实践是什么? 使用稳定的扩散3 API包括提供清晰而特定的提示,尝试不同的参数以实现所需的结果,监视耗尽并保持最新文档和功能。
什么是稳定扩散3?

稳定的扩散包含集合的AI模型集合,这些模型致力于从文本提示中生成图像。用户提供了所需图像的描述,该模型根据这些提示生成相应的视觉表示。

>稳定的扩散如何工作?

稳定的扩散3采用类似于Sora的扩散变压器体系结构,与SORA类似于Sora,与使用AIS的扩散模型AIS的扩散模型不同。这项创新融合了在大型语言模型(例如GPT)与扩散模型中常用的变压器体系结构,从而提供了利用这两种体系结构的优势的潜力。

以上是如何使用稳定的扩散3 API的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn