首页 > 资讯
重磅消息:OpenAI发布GPT-4o
2024-05-14

  距离GPT-4的发布已经过去了一年,当地时间5月13日上午10点,OpenAI在此次的「春季新品发布会」上通过直播展示了一款名为 GPT-4o 的新旗舰生成式人工智能模型。

新的 GPT-4o 模型

  GPT-4o 中的"o"代表“omni”,源自拉丁语“omnis”,表示“全部”或“所有”的概念,意味着模型的全能性。大模型可以接收文字、语音、图片和视频的任意组合作为输入,并实时生成任意组合输出。

  OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。

  与现有模型相比相比,它的响应时间更快,可以减少延时,更接近和真人对话的节奏:

  你在对话时可以随时打断

  可以根据场景生成多种音调,带有人类般的情绪和情感

  直接通过和 AI 视频通话让它在线解答各种问题

免费开放与 API 的经济优势

  据 OpenAI 官网消息,GPT-4o 的价格是 GPT-4-turbo 的50%,速度是 GPT-4-turbo 的两倍。

  此外,OpenAI表示,未来ChatGPT免费用户的默认模型将升级成GPT-4o,但会限制数量,当超过限额后就会切换回GPT-3.5模型。这个使用额度会根据当前需求实时变化,前提是优先保证付费用户的使用体验,付费用户能够在GPT-4o上每3小时最多发送80条消息。

多模态语音助手

  作为多模态大模型,GPT-4o的能力横跨听、说、读、写,可以同时理解文本、图像、音频等内容。而实时语音对话的过程,更是丝滑流畅毫无延迟,GPT-4o 可以在 232 毫秒内对音频输入做出反应,平均响应时间为 320 毫秒,与人类对话反应时间相似。相较于 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒,GPT-4o 的速度和质量都实现了大幅提升。

  为了展示这一点,研发负责人Mark Chen向它问道:「我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?」

  GPT-4o体贴地表示:「你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!」

  Mark疯狂地大喘气几次,问GPT-4o能给自己什么建议吗。它则惊讶地说道:「放松点Mark,慢点呼吸,你可不是个吸尘器!」

多场景应用展示

  在此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。

  演示者写出了一个方程式并通过手机摄像头展示给了 GPT-4o。它被指示帮助解决问题,但不泄露答案。果然,GPT-4o 指导演示者完成了求解简单方程的过程,几乎扮演了教师的角色。另外,它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题,解释二次方程如何帮助我们完成日常任务。

  演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用,还可以告诉您如果调整代码的特定部分会发生什么。

阅读:
分享
用微信扫描二维码分享
请点击右上角分享给微信朋友或朋友圈