谷歌 Gemini Live 新功能上线:屏幕共享与实时视频问答

谷歌 Gemini Live 推出屏幕共享和实时视频问答功能,提升 AI 交互体验。苹果 Siri 升级受阻,AI 竞赛面临挑战。

原文标题:刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频

原文作者:机器之心

冷月清谈:

谷歌 Gemini Live 近期推出了两项重要新功能:屏幕共享和实时视频问答。用户可以通过屏幕共享功能,让 Gemini 实时了解并回答屏幕上的问题。实时视频功能则允许 Gemini 通过手机摄像头观察并解读画面,为用户提供实时的视觉信息支持和问题解答。这两项功能的推出是谷歌Project Astra项目的重要进展,旨在提供更自然、更实时的AI交互体验。与谷歌积极推进AI助手功能相比,苹果在Siri升级方面面临挑战,部分高级智能功能可能推迟发布。Gemini Live 的更新表明谷歌致力于在人工智能助手领域保持领先地位。

怜星夜思:

1、Gemini Live 的屏幕共享和实时视频问答功能,在实际使用中可能会有哪些意想不到的应用场景?
2、文章提到苹果 Siri 的升级遇到困难,你认为苹果在 AI 领域落后的原因是什么?
3、你觉得 Gemini Live 这类 AI 助手未来的发展方向会是什么?它会对我们的生活产生哪些深远的影响?

原文内容

机器之心报道

编辑:陈陈、蛋酱


好消息,谷歌在 MWC 上关于 Project Astra 与 Gemini Live 集成的承诺兑现了。


刚刚,谷歌发言人 Alex Joseph 在给 The Verge 的邮件中确认,谷歌已经开始向 Gemini Live 推出新的 AI 功能,能够共享用户的手机屏幕或者通过智能手机摄像头回答相关问题。这对于实时人工智能交互来说是一个重大进步。


这些功能的推出距离谷歌首次展示「Project Astra」项目已经过去一年时间。


有 Reddit 用户表示自己已经率先体验到了屏幕共享功能,该功能通过一个名为「Share screen with Live」的新按钮来实现。



这位用户还发布了一段视频来证明。


通过视频我们可以看出 Gemini 根据用户共享的屏幕,回答出了今天的日期、温度等信息。


图片

另外,Gemini Live 推出的另一项功能是实时视频功能,它可以让 Gemini 实时解读你手机摄像头的画面,并回答相关问题。

效果如何,我们通过示例来感受一下。在谷歌本月发布的一段演示视频中,用户使用该功能向 Gemini 求助,他们上釉的陶器选择什么颜色的颜料最合适。

图片

只见用户打开手机摄像头,对准物体进行实时拍摄,然后询问这些釉料中哪一种最适合?

图片

几乎是毫无延迟的 Gemini 给出了回答:

图片

一个问题回答完毕后,你也可以继续追问,Gemini 都能对答如流

图片

Project Astra 是谷歌去年发布的 AI 智能体项目,用户通过摄像头,可以与大模型进行实时的视觉与语音交互,也是谷歌对标 GPT-4o 的又一项重要研究。

Project Astra 有三个特点:

  • 实时对话可以进行实时音频和视频对话,低延迟,还掌握多种语言。
  • 记忆:通过记住过去对话的关键细节以及当前会话中最多 10 分钟的内容来完善其回答。
  • 工具调用:提出问题后,Project Astra 可以使用谷歌搜索、地图等来提供答案。


此外,Project Astra 还可以跨设备工作,用户可以在安卓手机或原型眼镜上使用 Project Astra 功能。


视频对话功能并非新概念。最早公开演示 AI 视频通话的 OpenAI,则在去年 12 月底就在自家产品上线了对应能力:在 ChatGPT 的移动端应用程序 App 中,高级语音模式 Advanced Voice 提供了视频和共享屏幕功能。目前该功能还没有免费开放,也是 Plus 用户和 Pro 用户才能使用。

谷歌此时推出这些功能,至少证明了 Gemini 在努力保持人工智能助手领域的「前排」地位。

与之形成鲜明对比的是,苹果推迟了 Siri 的升级。彭博社前几天报道,一份 Siri 团队内部会议的记录显示,我们期待的 Apple Intelligence 仍遥遥无期。

会议由负责该部门的高级主管 Robby Walker 主持。他称此次延迟是一个「糟糕的」情况,并同情那些可能因苹果的决定和 Siri 仍然不佳的声誉而感到疲惫或沮丧的员工。

Robby Walker 还表示,承诺过的 Siri 功能不一定会在今年出现在 iOS 19 中:「这是该公司目前的目标,但并不意味着我们会在那时推出。」

近几周,苹果一直无法摆脱有关其在 Siri 和人工智能方面进展缓慢的负面新闻。去年 6 月承诺过的高级智能功能至今无法兑现。几个月过去了,除了更漂亮的 Siri 动画外,几乎没有任何成果。

除此之外,苹果尚未公开评论此事。当时该公司表示,高级 Siri 功能「比预期耗时更长」。但 Robby Walker 告诉员工,公司的软件主管、人工智能主管等高管正在为这一困境承担「个人责任」,然而这一困境引发了广泛的、激烈的批评。

这些功能对于 Siri 的现代化、苹果在人工智能竞赛中的追赶其实非常重要。我们仍然不知道这些 Apple Intelligence 功能何时会到来。似乎,从最近这次全体会议的讨论内容来看的话,苹果本身也不知道。


参考链接:
https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out
https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

阴谋论一下,会不会是苹果在憋大招?可能他们正在研发一种颠覆性的 AI 技术,所以暂时放缓了 Siri 的升级步伐。期待苹果能给我们带来惊喜!

从技术角度来看,这种实时交互对算力的要求应该很高吧?不知道实际使用中会不会有延迟或者卡顿的情况,这直接影响用户体验。如果能把延迟控制在可接受范围内,那确实很有吸引力。

脑洞大开一下,如果 Gemini 能结合 AR 技术,是不是可以直接在现实场景中进行标注和指导?比如修理电器的时候,Gemini 直接在屏幕上告诉你哪个螺丝该拧,哪个线该接,那简直是神器!

我觉得未来的 AI 助手会更加个性化,能够根据用户的习惯和偏好进行定制化的服务。比如,Gemini 可能会记住我喜欢的菜谱,在我不知道吃什么的时候,给我推荐合适的方案。

个人觉得苹果在 AI 上的投入可能相对保守,或者策略上更注重隐私和安全,导致在数据积累和模型训练上不如谷歌和 OpenAI。毕竟,AI 很大程度上依赖于海量的数据喂养。

从更宏观的角度来看,AI 助手可能会重塑人机交互的方式。未来的设备可能不再需要复杂的界面,直接通过语音或者视觉就能完成所有操作。这对于老年人和残疾人来说,将是一个巨大的福音。

我觉得除了官方演示的场景,比如帮忙识别陶器颜色,在远程协助方面应该很有潜力。想象一下,爸妈不会用某个App,直接共享屏幕给 Gemini,它就能一步步指导,比我电话里说半天管用多了!

别忘了伦理问题!AI 助手越来越强大,会不会侵犯我们的隐私?AI 的决策是否公正?这些问题都需要我们认真思考和解决。否则,AI 的发展可能会带来意想不到的风险。

苹果的生态比较封闭,可能在整合第三方 AI 技术和服务方面存在障碍。而谷歌和 OpenAI 更加开放,更容易吸收外部的创新力量。Siri 的体验确实需要好好提升一下了!