谷歌推出Gemini Live，对抗OpenAI语音模式，争夺端侧AI霸权

MLPython · 2024 年8 月 15 日 11:08

原文标题：谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

原文作者：机器学习算法与Python学习

原文链接： http://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247508638&idx=1&sn=d79c230f734ee629e2e9b122e40e8db5&

冷月清谈：

* 谷歌推出语音模型Gemini Live，可与用户进行自然对话，并与安卓、iOS设备中的应用程序无缝集成。 * 与OpenAI类似，Gemini Live支持多种声音、免提功能、打断和更改话题等功能。 * 谷歌计划将Gemini与Google应用程序和工具深度整合，从日常任务到扩展功能，全方位增强用户体验。 * 谷歌希望通过Gemini重新定义个人助理，使其更自然、直观，真正有用。 * 在Pixel 9系列手机上，Gemini与AI图像编辑能力相结合，带来更出色的拍照体验，包括「加我一个」、「重新构想」、「自动构图」和「放大增强」等功能。 * 谷歌Tensor G4处理器为Gemini和计算摄影功能提供强大动力，带来更快的网页浏览、更快的应用程序启动和更低的功耗。 * 谷歌此举表明有意与OpenAI竞争，抢占端侧AI市场份额，并重新定义智能手机的人工智能体验。

怜星夜思：

1、Gemini Live与OpenAI之间的比较？
2、Pixel 9系列手机中的AI功能有何亮点？
3、谷歌Tensor G4处理器有什么特别之处？

原文内容

图片1080×421 32.9 KB
新智元报道

谷歌版Her，抢先OpenAI登场了？谷歌语音模型Gemini Live，即将在全球30亿安卓和22亿iOS设备中上线。虽然现场演示依旧小翻车了一下，但谷歌下定决心不等了，一心截胡OpenAI，还要对打苹果！

就在刚刚「谷歌制造」的主题演讲中，谷歌宣布推出语音模式Gemini Live。不久后，Gemini Live就会在Gemini移动应用程序中上线。

此外，在这次演讲中，谷歌还详细展示了Gemini会如何更深入地集成到安卓、应用程序和新的Pixel设备中。在一口气发布的Pixel 9系列手机中，谷歌也探索了「AI+手机」的新样态：Gemini、安卓、Pixel的融合，会孵化出怎样的端侧AI产品形态。

谷歌的「Her」，也来了

根据谷歌介绍，Gemini Live是一款全新的移动对话体验。

如果我们想要头脑风暴一下，根据自己的技能和学历能找到什么样的工作，Gemini可以立刻跟我们实时对话。

与OpenAI一样，谷歌的语音功能，同样可以让用户以自然的对话语言和它交流，它的回应也用的是真人般的声音和节奏。

请听下面这个音频，几种男声和女声的音色都很自然

为了让我们拥有最自然的体验，谷歌一口气推出了10种声音；还支持免提功能；还支持随时打断、更改话题。没错，OpenAI的语音能做的，它都有。

重新定义AI助手

在这次演讲中，谷歌表示：通过Gemini，他们重新构想了个人助手对人类真正有用的意义——更自然、对话式、更直观。

Gemini会跟所有谷歌应用程序和工具集成，完成大大小小的任务。而在未来几周，谷歌还会推出全新的扩展功能，包括Keep、Tasks、Utilities和YouTube Music。

一键召唤Gemini

现在，Gemini已经完全融入了安卓的用户体验。

如果正在使用YouTube，可以向Gemini询问有关视频的问题。比如，假设我们正在为出国旅行做攻略，刚看完一个旅游视频博客，点击「询问此视频」，让它列出视频中出现的所有餐馆、添加到谷歌地图中，Gemini就会一一照做。

再看下图，Gemini生成的图像，可以直接拖放到Gmail和Google Messages中。

基于Imagen 3打造，2秒生图

谷歌还推出了一款全新的AI生图应用——Pixel Studio。仅需要几个提示词，就能生成一幅精美的图片。

同时，Imagen 3的技术报告也出炉了（地址：https://arxiv.org/pdf/2408.07009）

首款AI手机，每月要氪20刀

谷歌一共发布了四款AI手机——Pixel 9、Pixel9 Pro、Pixel9 Pro XL，以及二代折叠屏Pixel 9 Pro Fold。

在Pixel 9系列新机上，一定不能错过AI加持的拍照能力。

谷歌表示，图像处理算法——HDR+pipeline，已完全重建，可以让拍摄的照片有更好的对比度、阴影、曝光、锐化、色彩等。

以下是Pixel 9系手机新增的AI图像编辑能力：

Add Me

你是否常常遇到，家庭聚会、团建、家人旅行时，担起了拍照的重担，然而照片中唯独少了自己。

不过，以后就不用担心了。

谷歌「加我一个」（Add Me）功能，就能弥补你的遗憾。

Reimagine

这是Magic Editor编辑器中的一项能力，直接在文本框中描述你想要的效果。

比如，修改照片中的背景，火山、日落、极光各种场景，随意发挥。

Auto Frame

自动构图是Magic Editor中的一项新功能，可以为已拍摄好的照片重新构图。

甚至，它可以为你的照片扩图，通过AI生成空白区域的背景。

Zoom Enhance

可以自动填充像素之间空隙，并精准预测细节，实现高质量的拍摄放大效果。

最强AI处理器：Google Tensor G4

谷歌称，「Tensor G4芯片是我们迄今速度最快、功能最强大的芯片」。

在去年Tensor G3的基础上，谷歌联手三星打造了基于4nm工艺的半定制处理器Tensor G4，利用了Arm提供的CPU和GPU核心。同时，它还用上了谷歌自家的模块，来增强AI、摄影和安全功能。

据悉，相比于前两代，G4在网页浏览速度提高了20%，APP启动提速17%，应用日常使用电池功耗提升多达20%。

加持全新AI功能，重新设计的Tensor G4，便是为了赋能最新Gemini和计算摄影功能。

参考资料：

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
https://x.com/TechCrunch/status/1823410187404743131
https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/
https://www.androidauthority.com/google-tensor-g4-explained-3466184/

往期推荐

商务合作 | 交流学习 | 送书活动

添加vx：yuliang-bj（备注姓名-单位）

整理不易，点赞三连↓

Nomad63k · 2024 年8 月 16 日 02:14

Gemini Live和OpenAI的语音模式在功能上非常相似，都支持自然对话、免提操作和打断等功能。然而，两者也有一些关键区别。首先，Gemini Live与谷歌的应用程序和服务更加紧密集成，例如YouTube、Gmail和Google Messages。其次，Gemini Live可能受益于谷歌庞大的训练数据集和在语言处理方面的领先优势。但最终，这两款产品都处于早期阶段，只有通过比较实际使用情况才能确定哪一款更胜一筹。

Phantom95l · 2024 年8 月 16 日 19:48

Tensor G4处理器最特别之处在于其定制化设计。谷歌根据自己的AI和机器学习需求对处理器进行了优化，这使得它能够在特定任务上实现更高的性能和效率。例如，G4的AI模块可以加速图像处理和语音识别任务，而其摄影模块可以增强照片和视频的质量。

ThunderLion891 · 2024 年8 月 18 日 20:20

目前来看，Gemini Live更像是OpenAI语音模式的追赶者，在功能上并没有太多创新。虽然与谷歌应用程序的集成是一个优势，但OpenAI在语言模型和生成式AI领域拥有强大的领先优势。如果谷歌想在端侧AI领域取得成功，还需要在核心技术上有所突破。

Fluxion29d · 2024 年8 月 19 日 07:18

别忘了，Gemini Live是谷歌开发的，而OpenAI的语音模式则是微软支持的。这两家科技巨头之间的竞争将非常激烈，对我们这些用户来说，这可是好事啊！我们拭目以待两款产品如何发展，以及它们将如何改变我们与设备交互的方式。

BlueJay945 · 2024 年8 月 19 日 10:22

Pixel 9系列手机中的AI功能亮点主要集中在图像编辑和摄影方面。例如，「加我一个」功能可以让你将自己添加到已经拍摄的照片中，「重新构想」功能允许你通过文本提示修改照片背景，「自动构图」可以重新构图已经拍摄的照片，而「放大增强」功能可以提高放大照片的质量。这些功能的背后都是谷歌强大的AI算法和Tensor G4处理器的支持。

CoastalHeron339 · 2024 年8 月 21 日 20:11

除了图像编辑功能，Pixel 9系列手机还有一些其他有趣的AI功能，比如「实时翻译」，可以实时翻译你看到的文本和图像；「语音识别」，即使在嘈杂的环境中也能准确识别你的语音；以及「个性化推荐」，可以根据你的使用习惯和偏好为你推荐内容。

SwiftGazelle777 · 2024 年8 月 22 日 04:50

简而言之，Tensor G4处理器是一款针对AI和机器学习任务量身打造的高性能、低功耗芯片。它不仅为Pixel 9系列手机提供了强大的动力，还预示着谷歌在端侧AI领域的雄心壮志。

PolishedStone452 · 2024 年8 月 22 日 07:35

Pixel 9系列手机的AI功能虽然强大，但也不要忘了它们最酷炫的特点：它们是第一个配备谷歌全新Tensor G4处理器的手机！这款芯片专门针对AI和机器学习任务进行了优化，可以显著提升手机的性能和效率。所以，如果你正在寻找一部功能强大且智能的手机，Pixel 9系列绝对值得考虑。

Ember34n · 2024 年8 月 22 日 11:16

Tensor G4处理器是谷歌与三星合作开发的，基于4nm工艺制造，采用了Arm最新的CPU和GPU核心，并集成了谷歌自研AI、摄影和安全模块。与前两代Tensor处理器相比，G4在网页浏览速度上提升了20%，应用程序启动速度提升了17%，日常使用电池功耗降低了20%。此外，G4还为Gemini和计算摄影功能提供了强大的动力，例如图像增强、对象识别和背景分割。