5 月 21 日凌晨,Google I/O 2025 大会正式举办。
与一两年前相比,谷歌的 AI 进展显著加快,Gemini 2.5 此次也有较大更新。
但这些其实都不算重点,毕竟 Gemini 2.5 Pro 有多厉害我们早就见识过,谷歌追赶 OpenAI 也不是一天两天的事了。
这次更新动作几乎没有全新的产品,反而是前几天发布的 AlphaEvolve 更具突破性。
但,这样的谷歌还是会令竞争对手感到害怕,因为它似乎找到了真正适合自己的 AI 打法:不是往 AI 里加生态,而是往生态里加 AI。这是大部分AI公司不具备的能力,即便是 OpenAI( 或许是也是 OpenAI 这次没有选择狙击谷歌的原因)。
这个道理,就像国内的元宝,靠着自己腾讯的生态位直接把 kimi 打得干脆不投流一样。
Google I/O 2025 实质上是展示了谷歌如何借助生态广度将 AI 能力发挥到极致。过去一年,谷歌几乎是完全改变了一直以来的技术商业化节奏,AI 战略变得极为激进。
谷歌 CEO Sundar Pichai 在 Google I/O 2025 中表示,“ 在 Gemini 时代,我们很可能会在三月的某个周二发布我们最智能的模型,或者提前一周宣布像 AlphaEvolve 这样的酷炫突破。我们的发布速度比以往任何时候都快。”
对谷歌而言,现在每时每刻都处于紧张的竞争状态,来看看下图中展示的谷歌两年内的密集发布量便能体会。
图源:Google I/O 2025 Keynote
如今,谷歌的 Gemini 2.5 Pro 在很多方面都领先于各家竞争对手,Gemini 系列模型的 Elo 分数自第一代 Gemini Pro 模型以来已提升了 300 多分,并且它正在不断向自己的数十亿搜索用户( 而不只是 4 亿 Gemini 月活用户 )推出新的 AI 功能,这个规模几乎无可比拟。
深度思考模式也有进一步的增强,Gemini 2.5 Pro Deep Think 在数学和编程的高难度基准测试中都拿到了好成绩,超越了 OpenAI o3 和 o4-mini 。
图源:Google 官方 Blog
Gemini 2.5 Flash 则继续主打速度和低成本,综合来看,其成本目前和 DeepSeek R1 大致在同一个水平。
图源:Google 官方 Blog
Gemini 2.5 在深度思考模式中会展示思维链的摘要,新添加了对 MCP 工具的支持,并能控制思考预算( 该功能将在 Gemini 2.5 Pro Preview 中引入 ),除了没有展示完整思维链还是个槽点,也算是当前深度思考模型产品的顶配。
因为具有更强的并行性优势,除了图像、视频领域,扩散模型在语言方向的关注度也愈发高涨。谷歌也没有放过这个增长点,推出了 Gemini Diffusion,据称其 Demo 版生成速度是谷歌迄今为止最快模型的五倍,编码能力也没有缩水。
开发工具方面几乎实现了全栈支持,比如 Colab和Gemini Code Assist 用于快速实验和编码,Stitch 用于快速设计前端 UI,Firebase Studio 用于 Web 和移动应用开发,Jules 异步处理繁重无聊的任务( 比如 debug )等。
可以看出,谷歌早就不再是追赶者,它正走在重夺早期 AI 时代领导地位的路上。
基于强大的基础模型和早期构建起来的应用生态,谷歌开始发挥自己的独有优势,其将 AI 集成到如此多产品( 搜索、广告、云和设备等 )中的能力几乎无人能及。相比之下,OpenAI 拥有出色的技术,但可以说只有一款主要产品ChatGPT。
基础模型拼的是 AI 输出能力,但要打造好的产品应用,好的输入能力也很重要。
比如主流大模型产品原本普遍不支持直接的 URL 网页内容提取,只能被动地通过搜索功能实现。而谷歌正在实验的 “ URL 上下文 ” 支持能力,若能大规模落地,其利用谷歌搜索和互联网生态丰富上下文的能力不可小觑,价值相当于公开数据中的 MCP。
这其实就是将 AI 嵌入各个环境以构建 AI Agent 的操作,关键在于,谷歌还能通过应用生态将这些 AI Agent 再连接起来。
在搜索的时候顺便看一眼 AI 提供的摘要,如今估计已成为了大多数人的习惯,谷歌表示,“ 用户使用 AI 概览后,对搜索结果更加满意,搜索频率也更高。”
以搜索为立命之本的谷歌自然不会放过这一增长点,对搜索功能特别进行了加强,推出了 AI Mode 。
AI Mode 底层采用谷歌的 query fan-out 技术,可以将用户搜索问题分解为子主题,并同时发出多个查询。
深度搜索模式则采用相同的 query fan-out 技术,但能发起更多搜索,可多达数百次,直接对标 OpenAI Deep Research( 最多进行 100 次查询 )。
不仅如此,它还支持将公共数据与私人数据( 比如 PDF、图像等 )结合,这在模态上比 OpenAI 目前的 Deep Research 模式更加丰富。甚至很快,你就可以在 Google Drive 和 Gmail 上使用 Deep Research 。
搜索中还支持用摄像头实时互动( 基于 Project Astra 技术 ),以及更多 Agent 能力引入( 基于 Project Mariner 技术 ),支持比价买票这样的功能。
AI Mode 还会基于 Gmail 信息、搜索记录、餐厅预订记录等提供个性化体验,俨然是要把记忆和个性化推到极致。
可视化图表这类功能我们也在 Claude 的 Artifacts 中体验过不少,但只有嵌入到谷歌庞大的互联网内容生态中,你才能体会到这小小一步有多实用。
看来,谷歌是要将搜索作为一切的入口。
其推出的 AI Mode 购物模式在商业化意义上最为激进,通过和包含 500 亿条商品信息的购物图谱( Shopping Graph )结合来帮助用户选购商品,甚至还能结合 Google Pay 自动支付,图谱本身能保持时效,每小时更新超过 20 亿条。这其中,购物图谱才是谷歌积累的最大优势,至于试穿体验,虽然一眼惊艳,但只是多了一步计算而已。
这不仅是要革电商的命,也在革谷歌自己的命。谷歌有想过将搜索如此改造之后,对其基本盘即大量网站的流量可能带来的负面影响有多大吗?
据 MIT 科技评论报道,AI 概览原本已经减少了用户点击进入原始网站的需求,谷歌母公司 Alphabet 甚至因此在今年2月份受到了在线教育公司 Chegg 的起诉。
谷歌是真的豁出去了。
在生态整合方面,只有苹果可以匹敌谷歌。然而苹果的生成式 AI 功能目前远远落后,这种对比对于用户将更加明显,尤其是在欧盟正在推进用户可以替换掉 iPhone 中的 Siri 变成 Google Assistant 的当下。
Google 的实时语音接口 Live API 允许用户控制其语气、口音和说话风格,支持检测用户声音情感,支持主动式的响应( 忽略背景对话并知道何时做出回应 ),这些细节都暗示谷歌希望打造的应该是完全人性化的系统级 AI 助手,跟谁对标很明显了。
既然都要革搜索的命了,不如也把浏览器再改造一番。
谷歌将把 Gemini 嵌入到了 Chrome 浏览器中,提供网页摘要,这还是基操。甚至在未来,Gemini 能跨多个标签页工作以及自动浏览网页。Browser Use 过去只是个玩具,但 Chrome 不是。
不仅是浏览器,谷歌的 AI 将内置于人们日常使用的大部分平台中,从 Chrome 浏览器到 Android 手机再到 Workspace。其生态系统涵盖个人生活( 照片、家用设备)、工作(文档、Meet)、知识(搜索、YouTube)和娱乐( Android/Play )。这种产品生态系统创造了协同效应,从而放大了人工智能的影响力。
生态广度在 Gemini Live 中体现得淋漓尽致。Gemini Live 是跟 AI 实时对话的模式,对话中 AI 可以使用谷歌生态中的工具帮你完成任务,比如 Google 地图、日历、Tasks 和 Keep等,未来还计划连接更多 Google 生态工具。而且,它还是免费的,支持 Android 和 iOS 用户,支持摄像头和屏幕共享。
谷歌生态系统有其两面性,另一面则是谷歌实现 AGI 的布局,毕竟 Google DeepMind 的领军人,是理想主义的 Demis Hassabis,“ 我们正在将 Gemini 扩展为一个世界模型。”
Gemini 不会仅停留于谷歌生态系统,不会停留于浏览器,不会停留于手机,它会走向更大的虚拟世界,以及真实世界。
在这两点上,谷歌此前就通过 Genie 2 生成可实时交互的 3D 模拟环境,以及 Veo 系列视频生成模型在直觉物理上更突出,进行了初步展现。此外,Gemini 模型目前已经能够响应文本、图像、音频和视频。Gemini Robotics 还基于此增加了对物理空间进行推理的能力,使机器人能够与现实世界交互。
走向更大的虚拟世界,以可嵌入智能眼镜中的 Android XR 技术为代表。目前对于搭载 Android XR 的眼镜,谷歌已经演示了向好友发送消息、预约、查询路线、拍照以及两人对话的实时语言翻译字幕等场景。
进入世界不会限于日常生活,谷歌已经接连通过AI在量子计算( AlphaQubit )、数学( AlphaProof 和 AlphaGeometry 2 )、生命科学( AlphaProteo )和算法发现( AlphaEvolve )领域取得了重磅的成果。
相比之下,Veo 2 的视频控制和编辑能力( 比如参考生成、运镜控制、局部编辑、扩展等 ),Veo 3的音效和对话生成能力,Flow 的电影制作能力,这些东西与其它平台其实别无二致,对谷歌而言,或许只是由于视频生成工具当前效率低下而尚未能整合进生态的临时模式。
未来,我们很可能会看到一种加速融合的局面,所有大型科技公司都会在每条产品线上应用人工智能。竞争不再在于拥有人工智能,而在于谁的人工智能集成度更高、能为用户带来更多价值。
而像谷歌这样的巨头将先进的 AI 技术捆绑到其无处不在的服务中时,初创公司在通用 AI 助手或基本功能方面展开竞争可能会很尴尬。
训练并运行大型模型的成本高昂,但谷歌可以通过其众多收入来源( 搜索广告、云合同等 )以及现在甚至直接订阅来抵消这笔成本。芯片到数据中心的垂直整合能力也意味着谷歌能够比许多竞争对手更快、更经济地训练更大的模型。
谷歌正式推出了第七代 TPU Ironwood,性能是上一代的 10 倍,每个 Pod 的计算能力高达 42.5 exaflops,是全球最大超级计算机 El Capitan 的 24 倍以上,Google Cloud 上的 Pathways 还支持将数十万个 Ironwood 芯片组合在一起使用。
如今,Gemini 2.5 和诺贝尔奖成果 AlphaFold 都在 TPU 上运行。
谷歌表示,之所以能长期提供如此实惠的模型价格,并持续提升模型速度,就是因为拥有强大的基础设施,使其在经济效益上始终处于最优。
价格优势不仅体现在模型层,也体现在应用层。
一个深远的影响是用户期望如何被重新设定:既然 Gmail 可以起草电子邮件,搜索可以进行对话,这些功能价格低廉甚至可能免费,人们就会将这些功能视为标准配置,这提高了任何竞争对手吸引用户的门槛。
垂直行业比如医疗、法律、金融等尚有难以匹敌的数据护城河,但套壳公司的生存空间越来越狭小,可能需要极具创意的产品能力才能维持生存或异军突起。
至于 OpenAI ,它最佳的防御策略,或许是继续做自己最擅长的事情:快速创新核心模型,至于生态这件事,还是让其它公司代劳吧。
还没有评论,来说两句吧...