华为领航通信新篇章:AI与国产算力产业同步腾飞
大模型参数持续增长,多DC协同训练将成主流
华为预测,模型ScalingLaw仍将持续,顶级通用大模型参数规模将达到每2年8倍的增长速度,到2030年将出现百万亿—千万亿的通用大模型。高能耗的集群将迫使模型训练从单计算中心训练,走向多DC协同训练,远距离异步协同训练将成为主流。千万亿通用大模型的落地,需突破超大规模复杂集群通信提高训练推理效率,卡间互联带宽将从当前主流的200-900GB/s提升到10TB/s以上。
跨DC协同训练给网络带来挑战
AI训练步入十万卡时代,跨DC协同训练对网络带来挑战。(1)AI训练对网络丢包的敏感度高。(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。(3)在万卡集群中,极端情况下流量瞬时并发可达上千Tbps。目前,十公里的跨机楼并行训练算效损失可低于5%,具备可行性,未来百公里级、千公里级的跨地域并行训练欲将损失控制在10%以下,除需建设长距离超宽DCI网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等。
OXC光交换和CPO技术有望得到应用
芯片出光、OXC光交换技术的应用有望实现全光DCN,结合新型网络拓扑创新可减少50%以上光模块的成本和能耗。当前3DMEMS技术已成为端口光交换主流技术,可以扩展至千端口以上,支撑构建百万卡AI智算光电混合集群网络,具有大规模、兼容性好、高可靠和低功耗的特点。集群网络的互连未来有机会切换为CPO解决方案。华为预计到2030年,在400G+SerDes和6.4T光模块代际时,OSFP光模块功耗、SerDes驱动距离将成为制约瓶颈,CPO可能会是较好的解决方案。
新型光纤介质有望得到应用
新型光纤的应用将对数据中心光互联产生革命性的影响。其中空芯光纤和多芯光纤,由于其特殊和优异的光纤特性,将进一步推动数据中心实现更低时延、更高密度、更低成本的光互联。相比实芯光纤,空芯光纤具有低时延、低色散和低非线性等优点。多芯光纤的密度比传统单模光纤提高数倍,可提升光传输容量和频谱效率,节约布线成本和管道资源、降低能耗。
投资建议:关注AI产业链投资机会
推荐标的:(1)1.6T光模块:推荐中际旭创、新易盛、天孚通信;(2)DCI:推荐确定有海外设备厂商Ciena、Nokia等客户的DCI赛道稀缺标的:德科立;(3)空芯光纤:推荐国内领先厂商长飞光纤。
风险提示:AI发展不及预期的风险;中美贸易摩擦加剧的风险;DCI技术发展不及预期风险。