重磅消息：OpenAI发布GPT-4o-众创网-数字赋能专家

重磅消息：OpenAI发布GPT-4o

2024-05-14

　　距离GPT-4的发布已经过去了一年，当地时间5月13日上午10点，OpenAI在此次的「春季新品发布会」上通过直播展示了一款名为 GPT-4o 的新旗舰生成式人工智能模型。

新的 GPT-4o 模型

　　GPT-4o 中的"o"代表“omni”，源自拉丁语“omnis”，表示“全部”或“所有”的概念，意味着模型的全能性。大模型可以接收文字、语音、图片和视频的任意组合作为输入，并实时生成任意组合输出。

　　OpenAI 首席技术官 Muri Murati 表示，GPT-4o 提供了“GPT-4 级别”的智能，但改进了 GPT-4 在文本、视觉以及音频方面的能力。

　　与现有模型相比相比，它的响应时间更快，可以减少延时，更接近和真人对话的节奏：

　　你在对话时可以随时打断

　　可以根据场景生成多种音调，带有人类般的情绪和情感

　　直接通过和 AI 视频通话让它在线解答各种问题

免费开放与 API 的经济优势

　　据 OpenAI 官网消息，GPT-4o 的价格是 GPT-4-turbo 的50%，速度是 GPT-4-turbo 的两倍。

　　此外，OpenAI表示，未来ChatGPT免费用户的默认模型将升级成GPT-4o，但会限制数量，当超过限额后就会切换回GPT-3.5模型。这个使用额度会根据当前需求实时变化，前提是优先保证付费用户的使用体验，付费用户能够在GPT-4o上每3小时最多发送80条消息。

多模态语音助手

　　作为多模态大模型，GPT-4o的能力横跨听、说、读、写，可以同时理解文本、图像、音频等内容。而实时语音对话的过程，更是丝滑流畅毫无延迟，GPT-4o 可以在 232 毫秒内对音频输入做出反应，平均响应时间为 320 毫秒，与人类对话反应时间相似。相较于 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒，GPT-4o 的速度和质量都实现了大幅提升。

　　为了展示这一点，研发负责人Mark Chen向它问道：「我正在台上，给大家做现场演示呢，我有点紧张，该怎么办呀?」

　　GPT-4o体贴地表示：「你在台上做演示吗，那你真的太棒了!深呼吸一下吧，记得你是个专家!」

　　Mark疯狂地大喘气几次，问GPT-4o能给自己什么建议吗。它则惊讶地说道：「放松点Mark，慢点呼吸，你可不是个吸尘器!」

多场景应用展示

　　在此次发布会上演示者们还展示了 GPT-4o 在数学方面的“才能”。

　　演示者写出了一个方程式并通过手机摄像头展示给了 GPT-4o。它被指示帮助解决问题，但不泄露答案。果然，GPT-4o 指导演示者完成了求解简单方程的过程，几乎扮演了教师的角色。另外，它甚至还回答了典型的“我什么时候才能在现实生活中使用它?”问题，解释二次方程如何帮助我们完成日常任务。

　　演示者还使用桌面版 GPT-4o 来检查他们拥有的一些代码。GPT-4o 不仅可以解释代码的作用，还可以告诉您如果调整代码的特定部分会发生什么。

阅读：