OpenAI 发布增强版 ChatGPT 桌面应用,支持语音命令及30+应用集成

OpenAI 升级 ChatGPT 桌面应用,集成语音控制和 30 多个应用程序,向 AI Agent 方向迈进。

原文标题:OpenAI 推出适用于 Mac 和 Windows 的 ChatGPT 桌面应用程序

原文作者:AI前线

冷月清谈:

OpenAI 推出了增强版的 ChatGPT 桌面应用程序,适用于 Mac 和 Windows 系统。该版本重点提升了ChatGPT与其他应用程序的互操作性,目前已支持 Apple Notes、Notion、Warp、Xcode 等 30 多个应用程序。用户可以通过语音命令操控 ChatGPT 与这些应用进行交互,例如在Notion中获取选定内容并生成相关内容。这次更新体现了 OpenAI 将 ChatGPT 从对话助手向代理工具转变的策略,使其更具实用性,能够无缝融入用户的工作流程。此外,直播中还透露了 OpenAI 在 Agent 方面的研究进展,并暗示了名为“Operator”的新型 AI Agent 的开发计划,但具体细节尚未公布。 虽然此次更新没有太多突破性功能,但 OpenAI 强调了 Agent 技术的重要性,并表示将在 2025 年公布更多相关信息。

怜星夜思:

1、ChatGPT 集成更多应用后,对生产力提升的影响有多大?
2、OpenAI 一直在提 Agent,Agent 到底是什么?它和现在的 ChatGPT 有什么本质区别?
3、OpenAI 的 Agent 技术发展到什么程度了?真的像他们说的那么厉害吗?

原文内容


作者|冬梅

今天是 OpenAI“12 天马拉松发布”的倒数第二天,从直播中未见 Sam Altman 的身影就能猜到,今天又是没活硬整的一天!

本场直播,OpenAI 重点发布了有关其 MacOS 桌面应用程序及其与其他应用程序的互操作性的内容。由此可见,OpenAI 正在为 Agentic AI 的未来奠定基础,使 ChatGPT 功能更强大并无缝集成到用户的日常工作流程中。

OpenAI 把 ChatGPT“玩出”新花样

直播开始后,OpenAI CPO Kevin Weil 强调,他们在桌面应用程序上投入了大量精力,所以在大约 6 个月前,他们推出了 Mac 桌面应用程序,并在几个月前推出了 Windows 桌面应用程序。随着模型变得越来越强大,ChatGPT 更具代理性,也就是说 ChatGPT 将超越问答,去做更多更实际的工作。正如大家利用 Canvas 那样去改进创作和编写代码,这种转变将继续下去。

他们展示了 ChatGPT 桌面功能的进步,强调了 ChatGPT 从对话助手到代理工具的演变——随时准备承担任务并在您的桌面环境中无缝协作。

今天,ChatGPT 已经可以支持 Apple Notes、Notion、Warp、Xcode 等 30 多个应用程序。在直播中,他们还演示了 ChatGPT 如何与 Notion 应用程序配合使用,如何获取文档选定部分中的内容,以及如何生成其他相关内容。

此外,OpenAI 宣布将高级语音模式与此功能集成。这让 ChatGPT 能够根据您的语音命令与应用程序配合使用。

这一新进展是在 OpenAI 今年 11 月发布 ChatGPT 桌面版的背景下取得的,这是其进军计算机视觉和 Agent 控制领域的第一步。

掉落另一个 AGI 复活节彩蛋

像以往一样,今天的直播还是泄漏了一个“AGI 彩蛋”。在其中一个演示屏幕中,InfoQ 发现在 Xcode 项目中有一个名为“AGI_Interface.swift”的目录。

这并非过去 12 天以来的第一次,几天前 OpenAI 又放出了另一个引人注目的彩蛋,即名为“超级秘密 AGI ”的日历活动。但有网友对此评论,“OpenAI 只会玩这些小把戏!”

但从今天的发布可以看出,OpenAI 对于 Agent 的重视程度非同一般。

OpenAI 表示:“随着我们的模型越来越强大,ChatGPT 将变得越来越具有代理性”,他们还补充说,他们将在 2025 年对此有更多发言权。

几周前,有报道称 OpenAI 正在开发一款名为“Operator”的新型 AI Agent,但该公司在今天的活动中所做的只是确认了该计划,并没有更透露出更多内容。

事实上,和 OpenAI 一样,几乎所有科技巨头都在疯狂押宝 Agent。谷歌最近宣布了 Project Mariner,它可以代替导航并在网络浏览器选项卡上执行操作。同样,微软也宣布了 Copilot Vision,它可以查看用户的网络浏览器上的内容并提供相关信息。此外,还有 Anthropic 的 Computer Use,它比其他任何工具都早得多。

OpenAI 12 天活动只剩一天了,这前 11 天似乎并没有想象中精彩,他们是要 save the best for last?


 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇

从演示来看,OpenAI 的 Agent 确实能完成一些复杂的任务,比如操作应用程序、根据语音指令执行操作。但具体效果如何,还需要实际体验才能知道。

拭目以待吧,AGI 还有很长的路要走。现在这些 Agent 看起来更像是玩具,离真正的智能还有很大差距。

生产力提升肯定会有,但也要看个人使用习惯。如果只是简单的问答,那提升有限。关键在于怎么把 ChatGPT 集成到自己的工作流程里,发挥它的自动化和辅助作用。

我觉得影响会很大,尤其对文字工作者来说。可以直接用语音命令让 ChatGPT 处理一些琐碎的任务,比如整理笔记、生成报告等,能省不少时间。

针对“OpenAI 的 Agent 技术发展到什么程度了?真的像他们说的那么厉害吗?”这个问题,我感觉 OpenAI 有点过度营销了,现在很多公司都在搞 Agent,OpenAI 并没有表现出明显的优势。

emmm,感觉像是把各种小工具整合到一起,有点像瑞士军刀?好用是好用,但真正能用上的功能可能也就那几个。

Agent 可以理解为更主动的 AI,它不仅仅是被动回答问题,还能主动执行任务、帮你完成目标。比如订机票、写代码,甚至帮你管理日程。ChatGPT 更像是一个聊天机器人,Agent 则更像一个助手。

简单来说,ChatGPT 是个工具,Agent 是个会用工具的人。

关于“ChatGPT 集成更多应用后,对生产力提升的影响有多大?”这个问题,我觉得 Agent 的核心在于自主性和目标导向。它会根据你的目标,主动去调用各种工具和资源,而 ChatGPT 只是根据你的指令进行文本生成。