OpenAI发布图像生成API:gpt-image-1正式上线,开发者可轻松集成高质量图像生成功能

OpenAI发布图像生成API gpt-image-1,开发者可将高质量图像生成功能集成到应用中,生成一张高质量图像约花费0.19美元,Adobe、HeyGen等已集成。

原文标题:刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元

原文作者:机器之心

冷月清谈:

OpenAI正式发布了图像生成API——gpt-image-1,该模型驱动了ChatGPT的多模态体验,开发者和企业现在可以将高质量图像生成功能集成到自己的工具和平台中。gpt-image-1具备生成高保真图像、支持多样视觉风格、精确图像编辑、丰富世界知识和一致文本呈现等特点。API版本与ChatGPT版本有所不同,用户可以使用moderation参数控制审核敏感度,还可以控制图像质量与生成速度、背景和输出格式。定价方面,gpt-image-1按token计价,文本和图像token的定价不同,生成一张高质量图像大约花费0.19美元。目前,Adobe Firefly、HeyGen等公司已经开始集成该模型。

怜星夜思:

1、OpenAI 图像生成 API 的定价方式(按 token 计费)是否合理?你觉得这种计费方式对开发者和用户会产生什么影响?
2、目前已经有一些公司在集成 gpt-image-1,你认为图像生成 API 未来在哪些领域会有更广泛的应用?它可能会给相关行业带来哪些变革?
3、OpenAI 的图像生成 API 与其他图像生成工具有什么区别?你觉得 gpt-image-1 的核心竞争力是什么?

原文内容

机器之心报道

机器之心编辑部


上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。


就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。


这也意味着,从今天开始,全世界的开发人员都可以使用 ChatGPT 强大的图像生成功能了。



API 指南:https://platform.openai.com/docs/guides/image-generation?image-generation-model=gpt-image-1


gpt-image-1 具有以下特点:


  • 生成更准确,更高保真图像;

  • 多样的视觉风格;

  • 精确的图像编辑;

  • 丰富的世界知识;

  • 一致的文本呈现。


OpenAI CEO 奥特曼表示:API 版本与 ChatGPT 版本有一些不同:主要表现在用户可以使用 moderation 参数控制审核敏感度。还可以控制质量与生成速度、背景、输出格式等。



在价格方面,gpt-image-1 按 token 定价,文本和图像 token 的定价不同:


  • 文本输入 token(提示文本):每 100 万 token 5 美元

  • 图像输入 token(输入图像):每 100 万 token 10 美元

  • 图像输出 token(生成的图像):每 100 万 token 40 美元


在实际使用中,这意味着用户生成低质量、中质量和高质量的方形图像,分别需要花费约 0.02 美元、0.07 美元和 0.19 美元,再加上文本输入价格,只能说这很 OpenAI。


API 可以带来一系列好处,比如用户可以在单个请求中一次生成多张图像,但需要先设置 n 参数,默认情况下,API 返回单张图片。(感觉 token 使用量在燃烧。)



用户还可以将一张或多张图像作为参考图像来生成新图。在本例中使用 4 张输入图片来生成一张新的图片。




还可以使用蒙版进行图片编辑:



OpenAI 表示,现在已经有多家企业和初创公司将该模型用于创意项目、产品和体验。例如,多媒体巨头 Adobe 旗下的 Firefly 和 Express 应用,将集成 OpenAI 的图像生成功能。


图片


AI 视频生成平台 HeyGen 正在集成 gpt-image-1 来增强虚拟形象的创建,特别是改进平台内的虚拟形象编辑功能。



大家可以参考官方 API 指南,了解更多内容。


参考链接:https://openai.com/index/image-generation-api/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


我觉得按 token 计费有利有弊。好处是,开发者可以根据自身需求灵活调整生成图像的质量和数量,避免浪费。但坏处也很明显,token 消耗量不容易精确预估,容易超出预算。小型开发者可能更倾向于寻找更具性价比的方案。

token 计费在云服务里挺常见的,但是图像生成感觉更难预估。如果能提供一个估算工具,或者根据生成的图像反向计算 token 消耗量,可能会更好一些。不然开发者只能靠自己摸索,成本有点高。

游戏开发也很有潜力。游戏美术资源制作周期长、成本高,利用图像生成 API 可以快速生成一些简单的素材,比如角色服装、场景贴图等,提高开发效率。当然,高质量的素材还是需要人工打磨。

我觉得是“一致的文本呈现”。现在很多图像生成工具在生成包含文字的图像时,效果都很糟糕,经常出现乱码或者错误。如果 gpt-image-1 能够解决这个问题,那将是一个很大的优势。

除了商业应用,我觉得在教育和艺术创作方面也有很大的想象空间。比如,学生可以用它来辅助完成美术作业,艺术家可以利用它进行创意探索。不过还是要注意版权问题,避免侵权。

这价格确实很“OpenAI”,土豪随意,小作坊还是看看开源的吧,或者等等平替。不过话说回来,如果效果真的足够好,能大幅提高效率,那也还是可以接受的。

别忘了 OpenAI 的品牌效应。很多人对 OpenAI 的产品有天然的信任感,觉得它的技术更先进、效果更好。这种品牌效应在推广初期会很有帮助。

我觉得电商行业肯定会受益。现在很多商家需要花费大量时间和金钱来拍摄产品照片,有了图像生成 API,他们可以快速生成各种场景下的产品图,降低成本。

OpenAI 的优势在于它的大模型底座,以及在自然语言处理方面的积累。这意味着 gpt-image-1 在理解用户意图和生成符合要求的图像方面可能会更胜一筹。当然,具体效果还需要实际测试才能确定。