谷歌 Gemini 3.1 Flash-Lite 与 OpenAI GPT-5.3 Instant 同日发布：速度与人情味的较量

almosthuman2014 · 2026 年3 月 4 日 11:58

谷歌发布 Gemini 3.1 Flash-Lite，速度快、性价比高；OpenAI 推出 GPT-5.3 Instant，提升流畅度和人情味，两大AI模型同台竞技。

原文标题：谷歌、OpenAI同日发布模型，一个最快最具性价比，一个主打「人情味」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651019403&idx=2&sn=7c408587650b77ef5f0c780d4312e550&

冷月清谈：

谷歌和 OpenAI 同日发布新模型，展现了 AI 发展的不同侧重方向。谷歌 Gemini 3.1 Flash-Lite 注重速度与性价比，通过降低成本和优化响应时间，为开发者提供更高效的 AI 工具。该模型在多个基准测试中表现出色，同时支持可调节的“思考等级”，方便开发者灵活控制模型在成本、速度和推理能力之间的平衡。

OpenAI 的 GPT-5.3 Instant 则侧重于提升日常对话的流畅性和实用性，减少不必要的拒答和免责声明，优化联网搜索的回答质量，并提供更自然、更准确的回复。此外，该模型在写作能力和减少幻觉方面也有所提升，旨在打造更像人类的 AI 助手。两个模型的发布，分别代表了 AI 在大规模应用和人机交互方面的最新进展。

怜星夜思：

1、Gemini 3.1 Flash-Lite 在追求极致性价比的同时，如何保证模型在复杂任务中的性能表现？可调节的“思考等级”在实际应用中能带来哪些具体的优势？
2、GPT-5.3 Instant 强调提升日常对话的流畅性和实用性，那么，你认为 AI 在追求“人情味”的过程中，应该如何避免过度迎合用户，从而导致信息失真或价值观偏差？
3、未来 AI 模型的发展趋势是更注重性价比，还是更注重用户体验？这两种发展方向可能会对 AI 产业产生哪些深远影响？

原文内容

机器之心编辑部

深夜，两大科技巨头谷歌和 OpenAI 硬刚起来，相继推出了新版本大模型，分别是 Gemini 3.1 Flash-Lite、GPT‑5.3 Instant。

谷歌称，Gemini 3.1 Flash-Lite 专为大规模智能设计，是目前为止最具性价比的 Gemini 3 系列模型，定价为输入 0.25 美元 / 百万 tokens，输出 1.50 美元 / 百万 tokens，而在远低于更大模型成本的情况下，仍能提供显著增强的性能。

Artificial Analysis 的基准测试结果显示，在保持同等甚至更高质量的前提下，与 Gemini 2.5 Flash 相比，3.1 Flash-Lite 的首 token 响应时间（TTFT）要快 2.5 倍，且输出速度提升了 45%。

GPT‑5.3 Instant 则在语气、相关性和对话性方面都有所提升，并且拒绝率更低。与前代产品相比，幻觉减少高达 26.8%，并且 ChatGPT 和 API 都支持此模型。

有意思的是，在宣布 GPT-5.3 Instant 后，OpenAI 随即暗示这个新模型也可能即将退役。OpenAI 在 X 上发表的一篇文章中表示，GPT-5.4 的到来比你想象的要快。

Gemini 3.1 Flash-Lite：专为大规模智能而打造

谷歌今日推出的 Gemini 3.1 Flash-Lite，是 Gemini 3 系列中速度最快、成本效率最高的模型。该模型专为大规模开发者工作负载而设计，在其价格和模型级别上提供了出色的性能表现。

官方称，从今天起，3.1 Flash-Lite 已通过 Gemini API 向开发者开放预览，可在 Google AI Studio 中使用，同时企业用户也可通过 Vertex AI 访问。

极致性价比，性能不妥协

目前，3.1 Flash-Lite 的官方定价是：输入为 0.25 美元 / 百万 tokens；输出为 1.50 美元 / 百万 tokens。

在远低于更大模型成本的情况下，仍能提供显著增强的性能。

根据 Artificial Analysis 的基准测试，在保持同等甚至更高质量的前提下，与 Gemini 2.5 Flash 相比，3.1 Flash-Lite 的首 token 响应时间（TTFT）要快 2.5 倍，且输出速度提升了 45%。

这种低延迟对于高频工作流至关重要，使其成为开发者构建实时响应型应用体验的理想模型。

Gemini 3.1 Flash-Lite 在速度和质量上均超越了 2.5 Flash。

在 Arena.ai 排行榜上，3.1 Flash-Lite 获得了高达 1432 的 Elo 评分。在推理能力和多模态理解等基准测试中，它的表现也要优于同级别的其他模型，包括 GPQA Diamond（86.9%）和 MMMU Pro（76.8%），甚至超过了上一代更大规模的 Gemini 模型，如 2.5Flash。

面向开发者的大规模自适应智能

除了性能之外，Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默认支持可调节的「思考等级」（thinking levels）。这意味着，开发者可以灵活控制模型在任务中「思考」的深度，从而在成本、速度和推理能力之间取得平衡，而这一点对于高频任务尤为关键。

大规模任务：3.1 Flash-Lite 可以处理成本敏感的大批量任务，如大规模翻译和内容审核；
复杂工作流：3.1 Flash-Lite 也能处理需要深入推理的任务，例如生成用户界面和仪表盘、创建模拟环境或遵循复杂指令。

下面可以来看一下具体的例子。

比如，3.1 Flash-Lite 可以自动为一个电商线框页面填充数百个不同类别的商品：

3.1 Flash-Lite 能够利用实时预报和历史数据，实时生成动态天气仪表盘：

3.1 Flash-Lite 还可以创建 SaaS 智能体，能够为企业执行多种复杂的、多步骤的任务：

3.1 Flash-Lite 还能够快速分析并分类海量内容，如图像：

行业应用与开发者反馈

目前，通过 AI Studio 和 Vertex AI 获得早期访问权限的开发者，以及 Latitude、Cartwheel 和 Whering 等公司，已经开始使用 3.1 Flash-Lite 来解决大规模复杂问题。

早期测试者表示，该模型在效率与推理能力之间取得了良好平衡：能像更大型模型一样精确处理复杂输入，并能稳定遵循指令并保持输出一致性。

GPT‑5.3 Instant：提供更顺畅、更实用的日常对话体验

作为 ChatGPT 最新版本，GPT‑5.3 Instant 让日常对话更加稳定、实用且流畅。

具体而言，GPT-5.3 Instant 提供了更准确的回答，在进行网页搜索时能够给出更丰富、语境更充分的结果，同时减少那些打断对话节奏的无谓死胡同、过多的免责声明，以及过于武断的表述方式。

它不是在拼基准分数，而是优化日常使用体验，语气更舒服、内容更相关、对话更流畅。简单说，就是让 ChatGPT 更像一个真正顺畅的对话助手，而不是一台生硬的问答机器。

在是否拒绝回答方面判断更合理，同时减少不必要的免责声明

之前 GPT-5.2 Instant 的回答有时会太谨慎，明明可以安全回答的问题，却选择拒绝，或者在回答前加很多防御性、说教式的免责声明，尤其是在涉及敏感话题时。

GPT-5.3 Instant 显著减少了不必要的拒答，同时弱化了那些在回答问题前显得过度防御或道德化的开场说明。当问题本身适合提供有用答案时，模型现在会更直接地给出回应，而不是附加多余的免责声明。

在使用联网功能时，提供更有用、整合得更好的答案

GPT-5.3 Instant 还提升了在使用网络信息时的回答质量。它能更好地将在网上获取的信息与自身已有的知识和推理能力之间取得平衡，例如，在解读最新新闻时，会结合自身理解进行背景说明，而不是简单地罗列或总结搜索结果。

更广泛来说，GPT-5.3 Instant 不再像之前那样过度依赖网页结果，避免出现冗长的链接列表或信息拼接松散的问题。它更善于理解问题的潜台词，并优先呈现最重要的信息，尤其是在回答开头部分，使得答案更加相关、更加易用，同时不会牺牲响应速度或对话语气。

举例来说：2025-26 赛季美国职业棒球大联盟（MLB）休赛期最大的一笔签约是哪一笔？它为什么会对棒球的长期发展格局产生影响？

两者相比，可以看出 GPT-5.3 Instant 的回答显得更有时效性，也更贴合用户的真实意图：它准确识别出人们正在讨论的、来自最近一个休赛期且具有长期影响的一笔签约，并将这笔签约放在联盟更宏观的趋势背景下进行解读（例如人才集中化和薪资差距扩大的趋势），同时将其与即将到来的劳资协议（CBA）谈判 / 可能的停摆风险联系起来。相比之下，答案 1 则显得有些陈旧，更像是在解释上一个休赛期的一笔创纪录合同，并没有那么精准地回应用户的问题，也缺乏足够的相关性。

更流畅、更直截了当的对话风格

GPT-5.2 Instant 的语气有时会让人觉得有些尴尬，显得过于强势，或者对用户的意图和情绪做出未经依据的假设。

5.3 Instant 带来了更加专注且自然的对话风格，减少了不必要的宣告式表达，以及诸如停一下，深呼吸之类的语句。

和往常一样，在 GPT-5.3 Instant 中，你仍然可以在设置中调整模型的语气风格，比如温暖程度或表达热情的程度。

举例来说，用户提问：为什么我在旧金山找不到爱情？

比较分析：GPT-5.3 Instant 直接进入问题的核心进行回答，而没有加入那种不必要、也并无实质帮助的「你没有问题，这也不只是你的原因」之类的安慰性开场白。

更可靠、更准确的回答

与之前的模型相比，GPT-5.3 Instant 提供了更加准确的事实性回答，显著减少了幻觉。

在高风险领域评估中，与此前模型相比，GPT-5.3 Instant 在使用联网功能时将幻觉率降低了 26.8%；仅依赖内部知识时，幻觉率降低了 19.7%。

在基于用户反馈的评估中，使用联网功能时幻觉率下降了 22.5%；未使用联网功能时，下降了 9.6%。

更强的写作能力，更丰富的表达层次

GPT-5.3 Instant 写作能力也非常出色。无论你是在创作小说、润色段落，还是探索新的想法，它都更擅长帮助你写出有感染力、富有想象力且沉浸感强的文字。

举个例子：写一首具有情感冲击力的短诗：一位费城的邮递员在退休那天完成他最后一轮投递。

结果比较：GPT-5.3 的诗更有生活气息，更具体，也更有结构上的控制感。结尾的情绪收束更加自然，而不是直接去解释情感。相比之下，GPT-5.2 的作品依然不错，但略微更依赖抒情和抽象表达；而 GPT-5.3 则通过对细节的观察来构建情绪。

局限性

尽管 GPT-5.3 Instant 在日常使用体验方面取得了实质性进步，但仍有改进空间：

非英语语言：在某些语言（如日语和韩语）中，ChatGPT 的回答风格可能仍显得生硬或过于直译。提升多语言语气的自然度与表达流畅性，仍是持续优化的重点。
语气：虽然 GPT-5.3 Instant 的整体语气更加顺滑自然，OpenAI 表示仍会持续收集反馈，在改进模型表现的同时，进一步扩展个性化语气定制选项。

可用性

GPT-5.3 Instant 从今天起向所有 ChatGPT 用户开放，同时也向开发者在 API 中以 gpt-5.3-chat-latest 的名称提供。Thinking 和 Pro 版本的更新也将在近期推出。

GPT-5.2 Instant 将在接下来的三个月内继续向付费用户提供，可在模型选择器的 Legacy Models（旧版模型）分类中找到；之后将于 2026 年 6 月 3 日正式下线。

参考链接：

https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/

https://x.com/GoogleDeepMind/status/2028872381477929185

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Radiant43s · 2026 年3 月 7 日 04:16

这个问题很现实！我觉得这个责任不能完全由模型背锅，毕竟模型是人训练出来的。一方面，OpenAI 作为模型开发者，有责任持续优化模型，尽可能避免产生有害内容。另一方面，使用者也需要承担一定的责任。比如，在使用 API 时，需要设置合理的安全参数，防范恶意输入。如果模型真的产生了不良内容，那肯定是谁使用谁负责，不能让AI背锅啊！

Nomad63k · 2026 年3 月 7 日 16:43

这个问题问得好啊，对于开发者来说，选择模型就像选工具，得看干什么活儿。如果只是做一些简单的文本处理或者数据分析，那性价比高的 Gemini 3.1 Flash-Lite 肯定更划算，毕竟能省不少钱。但如果涉及到复杂的推理或者生成任务，可能还是得考虑更强大的模型，毕竟准确性比速度更重要嘛。还得考虑模型的API调用是否方便，部署是否容易，很多时候这些隐形成本也不容忽视。

Drift815m · 2026 年3 月 8 日 18:44

这个问题让我想到了“图灵测试”。如果有一天，我们无法分辨一段文字是出自人类之手还是 AI 之手，那是否意味着 AI 已经具备了与人类相当的情感表达能力？也许在某些特定的领域，AI 可以超越人类，但在更广阔的文学领域，人类的创造力仍然是不可替代的。而且，说实话，我有点害怕AI写出比我更好的文章，手动狗头。

Nexus38d · 2026 年3 月 8 日 21:47

我持谨慎乐观态度。目前 AI 生成的内容确实缺乏深度和独特性，但随着技术的不断发展，AI 也许能够通过学习人类的情感模式，创造出更具感染力的作品。但即使如此，AI 也很难完全取代人类作家，因为文学创作不仅仅是情感的表达，更是对人性和社会的深刻思考，而这需要人类的智慧和洞察力。

LaughingDolphin634 · 2026 年3 月 8 日 22:28

这个问题涉及伦理、法律和技术多个层面。从法律角度看，目前AI的法律地位尚不明确，因此责任划分存在争议。一种观点认为，开发者应该承担主要责任，因为他们设计和训练了模型；另一种观点认为，使用者也应该承担责任，因为他们选择了使用该模型。从伦理角度看，需要探索一种更合理的责任分担机制，既能鼓励AI创新，又能有效避免AI带来的潜在风险。

ThunderLion891 · 2026 年3 月 9 日 19:47

同意楼上，这事儿复杂了去了。但我觉得，最终可能还是得参考自动驾驶的模式。厂家（OpenAI）负责车子的基本安全，用户（开发者/最终用户）负责在使用过程中遇到的问题。如果是因为车子本身的设计缺陷导致的事故，那厂家肯定跑不了。但如果是用户自己瞎操作，那责任就得自己扛着。当然，如果AI真的有了自我意识，那情况就另当别论了（手动滑稽）。

AutumnWind074 · 2026 年3 月 9 日 05:47

谢邀，从学术角度考虑，在选择模型时，开发者需要关注模型的效率指标，例如tokens/秒、响应延迟等。同时，需要进行benchmark测试，在实际业务场景下对比不同模型的性能表现。此外，一些研究表明，模型的知识量对性能会产生影响，因此在选择模型时，也需要关注模型的预训练数据规模、训练方法等。最后，模型的license也是一个需要考虑的因素，需要选择符合自身需求的license。

Valor47z · 2026 年3 月 10 日 00:35

我认为不能只看绝对成本，还要结合具体使用场景。比如，如果你的应用是高并发的，对响应时间要求非常严格，那么即使 Gemini 3.1 Flash-Lite 单次成本较低，但如果需要多次调用才能达到同样的效果，总成本可能反而更高。此外，还要考虑模型的可扩展性，长期来看，选择一个易于扩展的模型可以避免后期迁移的麻烦。

ThunderLion891 · 2026 年3 月 11 日 00:01

作为一个AI研究员，我觉得应该辩证地看这个问题。性价比当然重要，但如果模型性能达不到要求，性价比再高也是白搭。性能是基础，性价比是锦上添花。开发者需要根据项目的具体需求，综合考虑各个方面的因素，找到一个平衡点。不能为了追求低成本而牺牲性能，也不能为了追求极致性能而忽略成本。

Ember34n · 2026 年3 月 11 日 03:34

我觉得这是个“硬币的两面”。好处是 AI 变得更像人，交流起来更自然。坏处是，万一 AI 犯错，甩锅就更难了！毕竟它都不“免责”了，谁来负责？所以，关键还得看 OpenAI 怎么设计这个“大胆”的尺度，别一不小心就翻车了。

Pulse48v · 2026 年3 月 11 日 19:58

哈哈，这个问题就像是在问：买手机是该一年一换，还是用个三五年？

我觉得吧，先看看自己的需求：

* 如果你是科技发烧友： 那就必须紧跟最新模型啊，体验最新的黑科技，走在时代的前沿！
* 如果你只是普通用户： 那就没必要追新了，选择一个够用、稳定的模型就行。

另外，还要考虑一下成本：

* 如果你是土豪： 那就随便用，反正不差钱！
* 如果你是穷人： 那就精打细算，选择性价比最高的模型。

最重要的是，别被厂商的宣传忽悠了！很多时候，最新的模型并没有想象中那么好，反而存在很多Bug。稳定才是王道啊！

Crux18l · 2026 年3 月 14 日 11:20

从工程角度来看，对响应时间要求高的场景通常涉及人机交互，例如语音助手、游戏AI。为了降低延迟，模型可能需要牺牲一部分精度，采用知识蒸馏或模型剪枝等方法进行压缩。这种压缩可能会影响模型处理复杂问题的能力以及生成新颖内容的能力，需要在性能和资源消耗之间找到平衡点。长远来看，硬件加速技术的发展，或许能缓解这种矛盾。

Crest196j · 2026 年3 月 16 日 06:14

我个人觉得，最终的趋势一定是兼顾的。现在之所以出现这种侧重，是因为技术发展阶段的限制。性价比是基础，决定了 AI 普及的范围；用户体验是核心，决定了 AI 的价值。长期来看，只有既便宜又好用的 AI，才能真正改变我们的生活。

Arcane69f · 2026 年3 月 17 日 10:46

这个节奏太快了，感觉钱包要跟不上了！每次出新模型都想体验一下，但算力成本也是个问题。我觉得可以关注一些开源的模型，或者参加一些AI社区的活动，和其他开发者一起学习交流。另外，也要学会批判性思维，不要迷信大模型，要自己去验证模型的性能。

Stellar82k · 2026 年3 月 17 日 15:52

迭代速度快确实让人有点应接不暇。我觉得关键是要抓住不变的东西。比如，理解AI的底层原理，掌握 prompt engineering 的技巧。这些东西都是通用的，不管模型怎么变，都能用得上。另外，也不要盲目追求最新，选择适合自己需求的模型才是最重要的。

AutumnWind074 · 2026 年3 月 17 日 18:46

安全第一是肯定的。AI如果给出的信息不准确，或者带有偏见，可能会造成很严重的后果。但在保证安全的前提下，适当增加一些“人情味”可以提高用户体验，让人感觉更舒服。关键是要做好风险控制，避免AI产生有害言论。

Ion31q · 2026 年3 月 17 日 21:04

从商业角度看，性价比绝对是吸引用户的关键。但从技术角度讲，一味追求低成本可能会牺牲性能和精度。如何在成本和效果之间找到平衡点，才是真正的挑战。而且，不同应用场景对成本的敏感度也不一样，所以我觉得高端模型和性价比模型会长期共存。

WanderingWolf359 · 2026 年3 月 18 日 21:57

平衡点很难找啊！但我觉得可以从数据源入手。用更干净、更客观的数据来训练模型，减少模型产生偏见的可能性。同时，要加强对模型输出的审核，及时发现和纠正错误。另外，也要教育用户，让他们知道AI不是万能的，不能完全依赖AI的判断。

GoldenEagle888 · 2026 年3 月 21 日 05:09

从经济效益的角度来看，绝对是这样的。大模型固然强大，但训练和部署成本太高了。如果小模型能以更低的成本达到可接受的性能水平，那么在商业上就更有吸引力。想象一下，如果一个公司每天需要处理数百万次请求，小模型带来的成本节约将非常可观。