"OpenAI GPT-4o重磅升级!聚焦算力投资新风口,计算机行业大事件解读"
事件:
北京时间5月14日凌晨,OpenAI举办春季发布会,推出最新多模态大模型GPT-4o,实现文本、音频和图像任意组合的输入输出,展现强大的多模态交互能力。
点评:
OpenAI发布全能模型GPT-4o,互动丝滑如真人对话。OpenAI春季发布会上推出了全新多模态大模型GPT-4o,其中,“o”为“omni”缩写,代表全能的意思。根据官方表示,GPT-4o免费用户可以发送的消息数量有限制,达到限制后将自动切换到GPT-3.5,Plus用户可使用的消息限额比免费用户高出五倍。在交互能力方面,GPT-4o可以接收文本、音频和图像任意组合作为输入,并实时生成文本、音频和图像的任意组合输出,展现了模型强大的多模态交互能力。在交互速度方面,用户使用语音模式与ChatGPT进行对话时,GPT-3.5的平均延迟时间为2.8秒,GPT-4为5.4秒,而GPT-4o可以在232毫秒内对音频输入作出反应,与人类在对话中的反应速度非常相近,大幅提升了模型的响应速度。在交互体验方面,GPT-4o可以感知说话者的语音情绪,自身也可以表现出各种情感风格,变换语音语调、输出笑声等,达到与真人聊天的效果,显著改善了交流的体验感。例如,在现场演示视频中,当工程师表示自己在直播发布会现场有点紧张时,GPT-4o让其尝试深呼吸,工程师故意大口喘气时,GPT-4o会用幽默的语气指导其进行呼吸调整。此外,当工程师演示要求GPT-4o讲睡前故事时,可以像在现实交流中随时打断GPT-4o说话,并要求其讲故事时增加更多情感等。
模型性能显著提升,API成本降低50%。在模型性能方面,GPT-4o在文本、推理、编码等方面实现了与GPT-4Turbo相当的水平,在多语言、音频和视觉功能上实现了新高。在推理能力方面,GPT-4o在0-shotCOTMMLU(常识题)创下88.7%的新高分;在音频ASR性能方面,GPT-4o相比Whisper-v3显著提高了所有语言的语音识别能力,特别是对于资源匮乏的语言;在用于多语言和视觉能力评估的M3Exam测试方面,GPT-4o在所有语言基础测试的分数均比GPT-4更高。在API定价方面,GPT-4o仅为GPT-4Turbo的一半,速度则是GPT-4Turbo的两倍。
投资策略:以OpenAI为代表的多模态大模型军备竞赛愈演愈烈,将加快AI应用场景落地,进一步加大算力需求,建议关注AI应用、算力领域。
风险提示:AI技术发展不及预期;政策监管风险;行业竞争加剧风险等。