视频创作新篇章:开源技术助力传媒行业突破创新
投资要点
事件:12月3日,腾讯混元大模型正式上线视频生成功能并实现开源,参数量达130亿,并在综合评测中呈领先趋势。基于该开源模型,开发者有望显著实现降本增效,加速赋能行业技术创新和进步。
混元大模型功能上新,开源视频生成迎里程碑式突破。年初至今,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。此次文生视频发布,标志着腾讯混元系列大模型已实现全面开源。目前该模型已上线腾讯元宝APP,C端用户可在AI应用中的“AI视频”板块申请试用,B端企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。用户只需输入一段描述,即可生成视频。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。该模型可实现超写实画质、生成高度符合提示词的视频画面。面对大幅度运动画面的生成,该模型可生成非常流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在类似镜面的场景中,可做到镜面内外动作一致。同时,模型还可实现在画面主角保持不变的情况下自动切镜头,显著领先业界大部分模型。在与国内外多个顶尖模型的评测对比中,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色,总体评分41.30%,显著领先第二名(37.70%)和第三名(37.50%),位居第一。视频生成质量显著提升,开源视频生成技术实现突破,有望深度赋能内容生产和创作。
开源视频生成技术持续迭代,牵引配套技术升级,赋能下游多领域。除基础的视频生成能力外,腾讯在其基础上进行生态拓展,推出了视频配音与配乐功能,能够为生成的视频提供音效与背景音乐,进一步提升视频的完整性和表现。此外,腾讯还推出了驱动2D照片数字人的技术,支持通过语音、姿态和表情等多种驱动方式控制照片数字人的动态表现,以增强生成内容的自然度、一致性和可控性。主要技术突破带动次要功能升级,有望刺激视频剪辑、配音等互补产品生态蓬勃发展;多维度的一键式AIGC内容生产工具相辅相成,有望长效赋能内容生产。
投资建议:开源视频生成模型迎里程碑式突破,或有望带动互补产品生态蓬勃发展,合力赋能toB和toC端内容生产创作。建议关注:腾讯控股、网易-S、因赛集团、蓝色光标、恺英网络、巨人网络、汤姆猫、昆仑万维、美图公司、天娱数科、引力传媒、中文在线、阅文集团、捷成股份、华策影视、风语筑、视觉中国、快手-W、万兴科技等。
风险提示:政策不确定性、技术落地进度不及预期、AI版权授权潜在风险等。