被OpenAI抢先一天后,科技巨头谷歌不甘示弱,推出了自己的最新多模态AI(人工智能)产品。
当地时间5月14日,谷歌召开年度Google I/O开发者大会。虽然被OpenAI抢在前面发布了重磅新品演示,但谷歌发布了几十款Google和 AI 结合产品,堪称“全家桶”级别。其中包括OpenAI还没能做到的人工智能(AI)搜索引擎、由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片等。
与预期一致,谷歌的这场发布会基本都是在谈AI。根据发布会最后的官方统计,整场Keynote的演讲稿里总共提了120次AI。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,谷歌的所有工作都在围绕生成式AI模型Gemini展开,“我们希望每个人都能从Gemini所做的事情中受益”。
AI搜索支持视频输入,Gemini、Gemma上新
作为搜索引擎巨头,AI搜索正是谷歌所做工作中的一部分。
据介绍,在最新Gemini的加持下,谷歌搜索将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴,并支持视频搜索,让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。
谷歌的Gemini以超长的上下文窗口而出名。在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最新模型、拥有100万个token的Gemini 1.5 Pro,支持超过35种语言,定价为每100万token 3.5美元。
据皮查伊介绍,Gemini 1.5会提供“迄今为止所有基础模型中最长的上下文窗口”。Gemini 1.5 Pro将在今年晚些时候将会把窗口进一步扩大至200万token,拓展同步处理多模态信息的边界。
从今年夏天开始,Gemini将支持语音实时交互,并在今年晚些时候上线实时视频交互。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手功能,名为Gems,可以与整套“谷歌全家桶”联动。
另外,对于一些需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。Flash将是API中速度最快的Gemini模型,针对大规模、大批量的高配任务进行了优化,也具有100万token的长上下文窗口。
谷歌也在发布会上带来了旗下开源大模型Gemma的最新版本Gemma 2。据介绍,Gemma 2采用全新架构,参数上达到27B,拥有突破性的性能和效率。
AI助手Project Astra叫板GPT-4o
在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra也重磅登场。
在演示视频中,Astra能够通过手机摄像头或智能眼镜看到的内容来分析响应语音命令。它成功地识别出代码序列、为电路图提出改进建议、能够通过镜头“看到”伦敦国王十字区,并提醒用户智能眼镜的放置位置。
来源:谷歌
来源:谷歌
据介绍,谷歌在Gemini的基础上开发了Astra的原型,可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中以实现更快地处理信息。通过语音模型,谷歌也强化了智能助手的说话能力,让其能够给出更快速的回应。
不过,在演示视频中,谷歌AI助手的回应速度似乎还是会比GPT-4o稍慢一些,语音所表现出的感情色彩也平淡一些。
皮查伊表示,谷歌计划从今年开始将Astra的功能添加到其Gemini应用程序及其产品中。不过,他也强调,虽然最终目标是“让Astra在公司的软件中实现无缝连接”,但该产品将被谨慎推出,并且“商业化之路将由质量驱动”。
除了在AI助手领域的竞争外,谷歌还通过文生视频模型Veo来反击OpenAI的Sora。Veo能够根据文字、图片和视频的提示来生成高质量的1080p视频,创作“一致且连贯”的镜头,用户可以对光照、镜头语言、视频颜色风格等进行自定义设置。不过,谷歌没有宣布Veo的具体推出时间。
来源:谷歌I/O主题演讲
此外,谷歌还宣布了一系列与图像、音乐有关的生成式AI工具,包括能够表现更高细节水平的文生图工具Imagen 3,还有与Youtube以及音乐家合作的AI音乐工具“AI音乐沙盒”。
在硬件方面,谷歌将于今年晚些时候推出交付第六代数据中心AI芯片TPU Trillium。皮查伊表示,每块芯片的计算性能将比第五代提升4.7倍,谷歌通过扩大芯片的矩阵乘法单元(MXU)和提高整体时钟速度来实现这一目标。此外,第六代将比第五代芯片节能67%,谷歌还将Trillium芯片的内存带宽提高了一倍。
最新AI项目撞车OpenAI?
最值得注意的是,谷歌刚刚官宣了新的人工智能模型,包括一款文生视频模型Veo,与OpenAI的Sora颇为类似。
同时,其万能AI助手项目Project Astra以及其AI语音聊天功能 Live,都与OpenAI前一日推出的GPT-4o功能颇为类似。
在前一日OpenAI发布的演示中,GPT-4o可以实时对音频、视觉和文本进行推理。而从谷歌的演示视频来看,谷歌的AI助手Project Astra也并不逊色于GPT-4o,可以通过视频画面接受信息、理解复杂多变的环境并做出回应。
皮查伊在谈到OpenAI时表示:“我认为他们还没有向用户提供演示。我不认为他们的这一功能将在产品中可用。”
OpenAI周一在一篇博客文章中表示,其ChatGPT Plus订阅的客户将能够在未来几周内试用GPT-4o的早期版本。而皮查伊也表示,谷歌的Project Astra多媒体聊天功能将在今年晚些时候出现在Gemini聊天机器人上。
Android 15已融入谷歌Gemini大模型
谷歌在此次I/O大会上宣布,Android 15已融入谷歌Gemini大模型,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2将在明天正式推出。
据悉,全新升级后的谷歌Gemini已经展现出较强的理解、推理、创作和实时互动能力,实现了对OpenAI多模态模型的全面超越。
来源:谷歌I/O主题演讲
不止于此,谷歌Gemini大模型与Android系统进一步整合,此前已通过三星Galaxy S24系列展示圈图搜索能力,该功能目前已在全球1亿台安卓设备使用,并且作为安卓独占功能,该能力计划在今年底扩展到2亿台设备。
来源:谷歌I/O主题演讲
除了融合谷歌Gemini大模型,Android 15还新增了多项功能,比如弱光增强功能,这是一种新的自动曝光模式,它与夜间模式相机创建静态图片的方式不同,后者会通过多张合成来提升夜景表现。
另外,Android 15扩展对卫星通信连接的平台支持,并添加了一些界面元素,以确保在卫星连接环境中提供一致的用户体验。并且Android 15支持短信和彩信应用以及预加载的RCS应用,以便使用卫星通信连接收发信息。