AI音频与视频技术融合,传媒互联网及海外行业开启声动未来新航程
本期内容提要:
OpenAIDevDayAI音频更新亮眼,有望催化AI语音交互应用成熟。2024年10月1日,OpenAI开发者大会上,公司公布了几大创新:实时API、提示词缓存、模型蒸馏、视觉微调。与ChatGPT的高级语音模式类似,RealtimeAPI支持使用六种预设声音进行自然的语音对语音对话。文本输入令牌的价格为5美元/1Mtokens,输出令牌的价格为20美元/1Mtokens。音频输入的价格100美元/1Mtokens,输出的价格为200美元/1Mtokens。这相当于每分钟音频输入约0.06美元,每分钟音频输出约0.24美元。
海外AI+音频代表性应用Duolingo股价历史新高,Duocon2024发布独特虚拟IP视频通话、虚拟世界探险学玩、扩展音乐课程等功能,订阅付费渗透率逐渐提升至8%以上。公司财务和经营数据均表现较为亮眼。24Q2公司实现营收1.78亿美元,比去年同期增长41%;调整后的EBITDA为4810万美元,去年同期为2090万美元,24Q2和23Q2调整后的EBITDA利润率分别为27.0%和16.5%;用户情况:24Q2Duolingo月活超过1亿,季度末付费用户总数达到800万,比去年同期增长52%,即目前Max产品付费率超过8%,本次产品更新有望进一步加速Max产品付费渗透率。
AI+视频迭代持续火热,Meta、字节发布新模型,美图MOKI一键成片产品正式上线,可灵、Pika迭代新版本。1)10月4日,Meta发布了MetaMovieGen模型,是一项针对图像、视频和音频的突破性生成式AI研究,MovieGen具有四种功能:视频生成、个性化视频生成、精确视频编辑和音频生成。2)字节豆包视频大模型PixelDance&Seaweed——主打时序性复杂动作指令和交互能力。字节跳动正式进军AI视频生成领域,其数据、技术和人才等储备深厚。9月25日,视频大模型赋能的字节C端产品——即梦正式开启内测邀请。3)2024年9月30日,快手可灵AI视频模型产品发布产品更新,产品重点新增「对口型」功能;4)Pika1.5引入了一套创新效果,称为Pikaffects,允许用户轻松大幅改变视频元素,例如:膨胀、爆炸、压碎、融化、挤压和蛋糕化;5)美图MOKI一键成片正式上线开放。
投资建议:
AI音频方面:在语音实时对话效果不断提升的基础上,相比之前的虚拟陪伴、虚拟人物的语音互动,OpenAIRealtimeAPI更有望催生一大批基于纯语音交互的AI应用,例如旅行规划、点餐、出游、语音学习、电商购物、教育等诸多方向。建议关注:盛天网络、中文在线、汤姆猫、昆仑万维等;
AI视频方面:远不止于视频生成,从AI生成到AI工作流,一站式AI视频生成+剪辑+故事创作有望成为产业核心发展方向。AI+视频时代来临,思考哪类公司存在商业化变现的可能性?我们认为,1)一站式平台型公司,如Adobe、美图公司;2)AI+视频技术头部服务商转型产品类公司,如Runway、商汤科技;3)视频剪辑类公司,如快手;4)广告营销类公司,如易点天下、蓝色光标、因赛集团、利欧股份;5)UGC社区类公司,如Bilibili;6)视频数据类公司,如捷成股份、华策影视、视觉中国、中广天择;7)IP类公司,如上海电影、阅文集团、汤姆猫、中文在线、果麦文化;8)探索AI视频工作流及其他创作方向类公司,如博纳影业、超讯通信、柠萌影视。9)其他建议关注猫眼娱乐、光线传媒、芒果超媒、万达电影等。
风险因素:AI大模型发展不及预期、AI视频产品付费率提升不及预期;