搜索
首页科技周边人工智能如何使用OpenAI GPT-Image-1 API生成和编辑图像

Openai的最新多模式模型GPT-Image-1彻底改变了Chatgpt和API的形象生成。本文探讨了其功能,用法和应用程序。

目录

  • 了解gpt-image-1
    • gpt-image-1的关键功能
    • 可访问性
  • gpt-image-1定价结构
  • 访问gpt-image-1
  • gpt-image-1的实际应用
    • GPT-image-1的图像生成
    • 使用GPT-image-1编辑图像编辑
  • 最佳结果的最佳实践
  • gpt-image-1的不同应用
  • gpt-image-1的局限性
  • 模型比较
  • 结论

了解gpt-image-1

GPT-Image-1是OpenAI的高级多式模型,生成了以现实世界知识告知的高质量图像。虽然建议使用GPT-Image-1,但图像API还支持DALL·E 2和Dall·E 3。

如何使用OpenAI GPT-Image-1 API生成和编辑图像

图像API提供了三个关键功能:

  • 图像创建:从文本提示中生成图像。
  • 图像修改:使用新提示编辑现有图像。
  • 图像变化:生成现有图像的变化(仅dall·e 2)。

如何使用OpenAI GPT-Image-1 API生成和编辑图像

另请阅读:Imagen 3和Dall·E 3的比较

gpt-image-1的关键功能

gpt-image-1拥有:

  • 高保真输出:详细而准确的视觉效果。
  • 多功能风格:支持从逼真到抽象的各种美学。
  • 精确编辑:允许目标图像修改。
  • 上下文理解:准确解释复杂提示。
  • 可靠的文本渲染:始终呈现图像中的文本。

可访问性

OpenAI的API允许使用GPT Image或DALL·E模型生成图像和编辑。当前,图像生成仅通过图像API进行,并具有正在开发的响应API支持。

有关GPT-Image-1的更多详细信息,请单击此处。

gpt-image-1定价结构

了解定价对于有效且具有成本效益的用法至关重要。

gpt-image-1的定价为每个令牌:

  • 文本提示:每100万代币$ 5
  • 上传图像:每100万$ 10
  • 生成的图像:每100万代币$ 40

这大约是:

  • 低质量图像〜$ 0.02
  • 〜$ 0.07,用于中等质量的图像
  • 高质量图像〜$ 0.19

此处的官方定价页面可用详细的定价信息(按图像质量和分辨率)。

如何使用OpenAI GPT-Image-1 API生成和编辑图像

注意:图像产生涉及创建专业的令牌,从而影响处理时间和成本。较大的图像和更高质量的设置都增加了。

访问gpt-image-1

获取您的GPT-image-1 API密钥:

  1. 登录到OpenAI平台。
  2. 导航到项目> API密钥。
  3. 验证您的帐户(可能需要KYC验证)。

请访问https://www.php.cn/link/c7f409723f7655153ec02c23b87b31a9以获取帐户验证详细信息。

GPT-Image-1:实际应用

让我们使用GPT-Image-1 API探索图像生成和编辑。

使用gpt-image-1产生图像

我们将使用文本提示使用图像生成端点。 API默认为单个图像,但是“ N'参数允许每个请求生成多个图像。

在运行主代码之前,请设置环境:

 <code>!pip install openai import os os.environ['OPENAI_API_KEY'] = "<your-openai-api-key> "</your-openai-api-key></code>

输入代码(示例):

来自Openai Import Openai
导入基础64
客户端= OpenAi()

提示=“”“一个宁静的公园场景,人类和友好的机器人都享受这一天。”“”

结果= client.images.generate(model =“ gpt-image-1”,提示=提示)

image_base64 = result.data [0] .b64_json
image_bytes = base64.b64decode(image_base64)

开放(“ park_scene.png”,“ wb”)为f:
    F.Write(image_bytes)

输出:

如何使用OpenAI GPT-Image-1 API生成和编辑图像

使用gpt-image-1编辑图像编辑

gpt-image-1允许进行各种图像编辑:

  • 编辑现有图像。
  • 使用其他图像作为参考。
  • 介入(使用口罩编辑特定的图像区域)。

用面具编辑(示例):

如何使用OpenAI GPT-Image-1 API生成和编辑图像

根据提示,更换透明面具区域;彩色区域保持不变。

输入代码(例如 - 添加Elon Musk):

来自Openai Import Openai
客户端= OpenAi()

结果= client.images.edit(
    型号=“ gpt-image-1”,
    image = open(“/content/image.png”,“ rb”),
    mask = open(“/content/mask.png”,“ rb”),
    提示=“埃隆·马斯克(Elon Musk)添加到图像中”
)

#...(保存图像的其余代码保持不变)

输出:

如何使用OpenAI GPT-Image-1 API生成和编辑图像

(注意:替换/content/image.png/content/mask.png带有您的实际文件路径。)记住图像和掩码必须是相同的格式,尺寸,尺寸和25mb以下。黑白面具需要添加一个alpha通道。

最佳结果的最佳实践

  1. 自定义图像设置(尺寸,质量,格式,压缩)。
  2. 使用方形图像(1024x1024)和速度标准质量。
  3. API返回基本64编码的数据;默认格式为PNG,但JPEG或WebP也是选项。
  4. 对于JPEG/WebP,使用output_compression (0-100%)控制压缩。

gpt-image-1的不同应用

GPT-Image-1在各个领域都有广泛的应用:游戏,创意工具,教育,企业软件,广告,医疗保健,建筑和娱乐。

gpt-image-1的局限性

  • 延迟:复杂的提示最多可能需要2分钟。
  • 文本渲染:尽管有所改进,但文本清晰度和对齐方式可能是不一致的。
  • 一致性:在多个图像之间保持统一性可能具有挑战性。
  • 组成控制:精确的元素放置可能并不总是完美的。

模型比较

模型 端点 特征
dall·e 2 世代,编辑,变体 较低的成本,并发请求,介入
dall·e 3 几代人 分辨率更高,质量优于dall·e 2
gpt-image-1 几代人,编辑(响应API即将推出) 出色的指导跟随,详细的编辑,现实世界的意识

结论

GPT-Image-1通过文本提示提供了强大的图像生成和编辑功能。虽然处理时间可能会有所不同,但其质量和控制时间使其成为有价值的工具。它有助于更​​快的内容创建和原型制作。在增强人类创造力的同时,考虑道德含义和原始人类作品的价值很重要。

以上是如何使用OpenAI GPT-Image-1 API生成和编辑图像的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
让我们跳舞:结构化运动以微调我们的人类神经网让我们跳舞:结构化运动以微调我们的人类神经网Apr 27, 2025 am 11:09 AM

科学家已经广泛研究了人类和更简单的神经网络(如秀丽隐杆线虫中的神经网络),以了解其功能。 但是,出现了一个关键问题:我们如何使自己的神经网络与新颖的AI一起有效地工作

新的Google泄漏揭示了双子AI的订阅更改新的Google泄漏揭示了双子AI的订阅更改Apr 27, 2025 am 11:08 AM

Google的双子座高级:新的订阅层即将到来 目前,访问Gemini Advanced需要$ 19.99/月Google One AI高级计划。 但是,Android Authority报告暗示了即将发生的变化。 最新的Google P中的代码

数据分析加速度如何求解AI的隐藏瓶颈数据分析加速度如何求解AI的隐藏瓶颈Apr 27, 2025 am 11:07 AM

尽管围绕高级AI功能炒作,但企业AI部署中潜伏的巨大挑战:数据处理瓶颈。首席执行官庆祝AI的进步时,工程师努力应对缓慢的查询时间,管道超载,一个

Markitdown MCP可以将任何文档转换为Markdowns!Markitdown MCP可以将任何文档转换为Markdowns!Apr 27, 2025 am 09:47 AM

处理文档不再只是在您的AI项目中打开文件,而是将混乱变成清晰度。诸如PDF,PowerPoints和Word之类的文档以各种形状和大小淹没了我们的工作流程。检索结构化

如何使用Google ADK进行建筑代理? - 分析Vidhya如何使用Google ADK进行建筑代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理开发套件(ADK)的力量创建具有现实世界功能的智能代理!该教程通过使用ADK来构建对话代理,并支持Gemini和GPT等各种语言模型。 w

在LLM上使用SLM进行有效解决问题-Analytics Vidhya在LLM上使用SLM进行有效解决问题-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型语言模型 (SLM) 专为效率而设计。在资源匮乏、实时性和隐私敏感的环境中,它们比大型语言模型 (LLM) 更胜一筹。 最适合专注型任务,尤其是在领域特异性、控制性和可解释性比通用知识或创造力更重要的情况下。 SLM 并非 LLMs 的替代品,但在精度、速度和成本效益至关重要时,它们是理想之选。 技术帮助我们用更少的资源取得更多成就。它一直是推动者,而非驱动者。从蒸汽机时代到互联网泡沫时期,技术的威力在于它帮助我们解决问题的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何将Google Gemini模型用于计算机视觉任务? - 分析Vidhya如何将Google Gemini模型用于计算机视觉任务? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google双子座的力量用于计算机视觉:综合指南 领先的AI聊天机器人Google Gemini扩展了其功能,超越了对话,以涵盖强大的计算机视觉功能。 本指南详细说明了如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好吗?Apr 27, 2025 am 09:20 AM

2025年的AI景观正在充满活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到来。 这些尖端的车型分开了几周,具有可比的高级功能和令人印象深刻的基准分数。这个深入的比较

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具