谷歌推出Gemini Live,对抗OpenAI语音模式,争夺端侧AI霸权

原文标题:谷歌版Her抢跑!一键召唤Gemini,全球52亿终端被颠覆

原文作者:机器学习算法与Python学习

冷月清谈:

* 谷歌推出语音模型Gemini Live,可与用户进行自然对话,并与安卓、iOS设备中的应用程序无缝集成。 * 与OpenAI类似,Gemini Live支持多种声音、免提功能、打断和更改话题等功能。 * 谷歌计划将Gemini与Google应用程序和工具深度整合,从日常任务到扩展功能,全方位增强用户体验。 * 谷歌希望通过Gemini重新定义个人助理,使其更自然、直观,真正有用。 * 在Pixel 9系列手机上,Gemini与AI图像编辑能力相结合,带来更出色的拍照体验,包括「加我一个」、「重新构想」、「自动构图」和「放大增强」等功能。 * 谷歌Tensor G4处理器为Gemini和计算摄影功能提供强大动力,带来更快的网页浏览、更快的应用程序启动和更低的功耗。 * 谷歌此举表明有意与OpenAI竞争,抢占端侧AI市场份额,并重新定义智能手机的人工智能体验。

怜星夜思:

1、Gemini Live与OpenAI之间的比较?
2、Pixel 9系列手机中的AI功能有何亮点?
3、谷歌Tensor G4处理器有什么特别之处?

原文内容

新智元报道  

谷歌版Her,抢先OpenAI登场了?谷歌语音模型Gemini Live,即将在全球30亿安卓和22亿iOS设备中上线。虽然现场演示依旧小翻车了一下,但谷歌下定决心不等了,一心截胡OpenAI,还要对打苹果!

就在刚刚「谷歌制造」的主题演讲中,谷歌宣布推出语音模式Gemini Live。不久后,Gemini Live就会在Gemini移动应用程序中上线。
此外,在这次演讲中,谷歌还详细展示了Gemini会如何更深入地集成到安卓、应用程序和新的Pixel设备中。在一口气发布的Pixel 9系列手机中,谷歌也探索了「AI+手机」的新样态:Gemini、安卓、Pixel的融合,会孵化出怎样的端侧AI产品形态。

谷歌的「Her」,也来了

根据谷歌介绍,Gemini Live是一款全新的移动对话体验。


如果我们想要头脑风暴一下,根据自己的技能和学历能找到什么样的工作,Gemini可以立刻跟我们实时对话。
与OpenAI一样,谷歌的语音功能,同样可以让用户以自然的对话语言和它交流,它的回应也用的是真人般的声音和节奏。

请听下面这个音频,几种男声和女声的音色都很自然

为了让我们拥有最自然的体验,谷歌一口气推出了10种声音;还支持免提功能;还支持随时打断、更改话题。没错,OpenAI的语音能做的,它都有。

重新定义AI助手

在这次演讲中,谷歌表示:通过Gemini,他们重新构想了个人助手对人类真正有用的意义——更自然、对话式、更直观。

Gemini会跟所有谷歌应用程序和工具集成,完成大大小小的任务。而在未来几周,谷歌还会推出全新的扩展功能,包括Keep、Tasks、Utilities和YouTube Music

图片


一键召唤Gemini

现在,Gemini已经完全融入了安卓的用户体验。

如果正在使用YouTube,可以向Gemini询问有关视频的问题。比如,假设我们正在为出国旅行做攻略,刚看完一个旅游视频博客,点击「询问此视频」,让它列出视频中出现的所有餐馆、添加到谷歌地图中,Gemini就会一一照做。
再看下图,Gemini生成的图像,可以直接拖放到Gmail和Google Messages中。
图片

基于Imagen 3打造,2秒生图

谷歌还推出了一款全新的AI生图应用——Pixel Studio。仅需要几个提示词,就能生成一幅精美的图片。

同时,Imagen 3的技术报告也出炉了(地址:https://arxiv.org/pdf/2408.07009


首款AI手机,每月要氪20刀

谷歌一共发布了四款AI手机——Pixel 9、Pixel9 Pro、Pixel9 Pro XL,以及二代折叠屏Pixel 9 Pro Fold。

在Pixel 9系列新机上,一定不能错过AI加持的拍照能力。
谷歌表示,图像处理算法——HDR+pipeline,已完全重建,可以让拍摄的照片有更好的对比度、阴影、曝光、锐化、色彩等。
图片
以下是Pixel 9系手机新增的AI图像编辑能力:

Add Me

你是否常常遇到,家庭聚会、团建、家人旅行时,担起了拍照的重担,然而照片中唯独少了自己。

不过,以后就不用担心了。

谷歌「加我一个」(Add Me)功能,就能弥补你的遗憾。

图片

Reimagine

这是Magic Editor编辑器中的一项能力,直接在文本框中描述你想要的效果。

比如,修改照片中的背景,火山、日落、极光各种场景,随意发挥。
图片

Auto Frame

自动构图是Magic Editor中的一项新功能,可以为已拍摄好的照片重新构图。

甚至,它可以为你的照片扩图,通过AI生成空白区域的背景。
图片

Zoom Enhance

可以自动填充像素之间空隙,并精准预测细节,实现高质量的拍摄放大效果。

图片

最强AI处理器:Google Tensor G4

谷歌称,「Tensor G4芯片是我们迄今速度最快、功能最强大的芯片」。

图片
在去年Tensor G3的基础上,谷歌联手三星打造了基于4nm工艺的半定制处理器Tensor G4,利用了Arm提供的CPU和GPU核心。同时,它还用上了谷歌自家的模块,来增强AI、摄影和安全功能。
据悉,相比于前两代,G4在网页浏览速度提高了20%,APP启动提速17%,应用日常使用电池功耗提升多达20%。

加持全新AI功能,重新设计的Tensor G4,便是为了赋能最新Gemini和计算摄影功能。

图片
参考资料:
  • https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

  • https://x.com/TechCrunch/status/1823410187404743131

  • https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/

  • https://www.androidauthority.com/google-tensor-g4-explained-3466184/


往期推荐





商务合作 | 交流学习 | 送书活动

添加vx:yuliang-bj(备注姓名-单位)


整理不易,点赞

Gemini Live和OpenAI的语音模式在功能上非常相似,都支持自然对话、免提操作和打断等功能。然而,两者也有一些关键区别。首先,Gemini Live与谷歌的应用程序和服务更加紧密集成,例如YouTube、Gmail和Google Messages。其次,Gemini Live可能受益于谷歌庞大的训练数据集和在语言处理方面的领先优势。但最终,这两款产品都处于早期阶段,只有通过比较实际使用情况才能确定哪一款更胜一筹。

Tensor G4处理器最特别之处在于其定制化设计。谷歌根据自己的AI和机器学习需求对处理器进行了优化,这使得它能够在特定任务上实现更高的性能和效率。例如,G4的AI模块可以加速图像处理和语音识别任务,而其摄影模块可以增强照片和视频的质量。

目前来看,Gemini Live更像是OpenAI语音模式的追赶者,在功能上并没有太多创新。虽然与谷歌应用程序的集成是一个优势,但OpenAI在语言模型和生成式AI领域拥有强大的领先优势。如果谷歌想在端侧AI领域取得成功,还需要在核心技术上有所突破。

别忘了,Gemini Live是谷歌开发的,而OpenAI的语音模式则是微软支持的。这两家科技巨头之间的竞争将非常激烈,对我们这些用户来说,这可是好事啊!我们拭目以待两款产品如何发展,以及它们将如何改变我们与设备交互的方式。

Pixel 9系列手机中的AI功能亮点主要集中在图像编辑和摄影方面。例如,「加我一个」功能可以让你将自己添加到已经拍摄的照片中,「重新构想」功能允许你通过文本提示修改照片背景,「自动构图」可以重新构图已经拍摄的照片,而「放大增强」功能可以提高放大照片的质量。这些功能的背后都是谷歌强大的AI算法和Tensor G4处理器的支持。

除了图像编辑功能,Pixel 9系列手机还有一些其他有趣的AI功能,比如「实时翻译」,可以实时翻译你看到的文本和图像;「语音识别」,即使在嘈杂的环境中也能准确识别你的语音;以及「个性化推荐」,可以根据你的使用习惯和偏好为你推荐内容。

简而言之,Tensor G4处理器是一款针对AI和机器学习任务量身打造的高性能、低功耗芯片。它不仅为Pixel 9系列手机提供了强大的动力,还预示着谷歌在端侧AI领域的雄心壮志。

Pixel 9系列手机的AI功能虽然强大,但也不要忘了它们最酷炫的特点:它们是第一个配备谷歌全新Tensor G4处理器的手机!这款芯片专门针对AI和机器学习任务进行了优化,可以显著提升手机的性能和效率。所以,如果你正在寻找一部功能强大且智能的手机,Pixel 9系列绝对值得考虑。

Tensor G4处理器是谷歌与三星合作开发的,基于4nm工艺制造,采用了Arm最新的CPU和GPU核心,并集成了谷歌自研AI、摄影和安全模块。与前两代Tensor处理器相比,G4在网页浏览速度上提升了20%,应用程序启动速度提升了17%,日常使用电池功耗降低了20%。此外,G4还为Gemini和计算摄影功能提供了强大的动力,例如图像增强、对象识别和背景分割。