是新晋网红还是概念炒作?智算场景OXC深度解析
作为人工智能的新引擎,AI大模型的商业价值日益凸显。大模型训练需要海量计算资源,业界算卡集群正在从万卡向十万卡快速演进。面对智算集群组网、能耗、效率等多重压力,行业头部厂商纷纷登场,探索各种网络技术创新的可能性。其中,MEMS OXC技术重出江湖,以“光电融合”为主题、“大规模”、“低功耗”为卖点高调发声,大有重定义下一代智算网络之势,一时间引得吃瓜群众不明觉厉。事实是否真是如此?笔者将从多个维度深度解析。
什么是OXC:通过光信号映射实现端口流量交换,本质是自动配线架
MEMS OXC的全称为Micro-Electro-Mechanical System Optical Cross-Connect,指光交叉连接设备(下文简称OXC)。OXC内置两个微镜阵列,微镜阵列1通过调整转角将入射信号偏转到微镜阵列2对应的微镜单元,将光从入端口映射到出端口,从而实现这两条路径之间的光信号交换。
OXC工作原理,图片来自于网络
需要注意的是,OXC只是对跨电交换机流量进行端口级的流量引导和切换,并不参与全局选路、优先级调度等流量工程。因此从本质上来说,OXC充当的是自动ODF(Optical Distribution Frame)配线架或一组点到点光纤的角色。
为什么引入OXC:减少电交换机和光模块,理论上功耗收益明显
当前两层或三层胖树(Fat tree)组网方案是业界主流,均采用电交换机组网。当组网从两层向三层扩展时,网络设备需在Leaf层、Spine层之外增加Core层。Spine层和Core层之间需要通过光模块互联,电交换机和光模块数量的增加带来整体能耗的上升。
此时如果Core层部署OXC光设备实现Spine间互联,使用光设备替代电交换机,则理论上可缓解上述能耗问题。
看上去很美的OXC,市场商用却遭遇滑铁卢
在降能耗的商业驱动下,OXC技术被抬上了桌面,业界甚至大胆预测OXC在未来会取代电交换机。早在2010年,SIGCOMM上刊登了《Helios:A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技术论文,探索光电混合架构的技术可行性。 2022年,Google发布了OXC在云网络和自研TPU集群应用的技术论文。2023年,Nvidia先后在HOT Interconnects和光网络与通信研究会及博览会(OFC)学术会议上分享了其对光电融合组网的思考。
虽然业界对光电融合组网的讨论仍在继续,然而,十几年过去了,全球目前有且仅有Google一家厂商依托光电全栈研发能力实现了OXC在通算业务场景下Fat Tree架构的试点,智算场景Fat Tree架构下OXC商用业界仍为空白。
为什么会出现理论火热,现实惨淡的现象?笔者认为,智算场景Fat Tree架构下引入OXC目前存在三大技术瓶颈。
OXC技术瓶颈1:无策略调度,不能根据灵活拓扑动态适配
由于OXC只是对端口进行映射,从交换机的角度来看,等价于ODF或者是光纤直连。因此当OXC将电交换机替换后,会导致原来标准的Leaf-Spine-Core的胖树组网架构变化,成为Spine直连,且逻辑拓扑动态变化。
引入OXC后需要电交换机针对这种动态组网进行深度配合,路由协议、拥塞调度、负载均衡等策略均需要重新适配。当OXC调整连接关系后,组网拓扑随之发生变化(见下图),交换机能否自动感知并进行实时调优是核心技术难点之一。
同时,由于OXC采用“转镜子”的机械控制方式,同一时间只能完成一组端口间点对点转发,无法支撑智算场景多组流量并行转发的需求,形成性能瓶颈。
OXC技术瓶颈2:高时延,不支持智算集合通信关系灵活调整
随着模型从稠密到稀疏,集群并行模式多样化,集合通信库的算子和算法也随之多样化。主要通信算子包括AllReduce, ReduceScater,AllGather,All2All等;每个通信算子又可以有不同的通信算法,例如ring,tree,butterfly等等。不同的算法和算子下通信关系差别巨大(见下图),这就要求整网通信链路能够根据需要随时快速调整互通关系。
算法通信模式对比,图片来自于网络
如前边提到,由于OXC微镜阵列的转动等过程依赖物理机械控制,OXC的交换时延在10毫秒以上,与电交换机的百纳秒时延相比,高出了五个量级。即使OXC的路径切换时延缩短到微秒级甚至纳秒级,由于整网存在端口断开和重新连接,光模块、电交换机侧需要重新协商和路由收敛,整网的切换和连通时间也在秒级以上,完全无法满足智算场景大流量高吞吐的网络需求。不仅如此,OXC内光链路的切换严重依赖控制面的任务信息作为输入,如何获取这些任务信息,谁来给出切换指令,当前业界厂商相关技术介绍中均为空白。
OXC技术瓶颈3:高插损,长距光模块成本数倍于电交换
万卡集群可能涉及跨机房走线,电交换机间互联一般使用2km FR光模块即可。如果引入OXC通过反射阵列对光路进行调整,会带来额外的光传输损耗,需要使用更长距的光模块,否则可能导致链路信号不稳定,引发训练中断。
以Google为例,即使OXC插损做到了业界*低1.5dB,设备间互联也需要使用10km LR定制光模块,成本是2km光模块的3~5倍。根据业界推测,引入OXC的前期成本约为电交换机的3-6倍,OXC带来的功耗和成本优势并不显著。
*近国内某厂家发布了OXC全光DCN交换机,根据笔者初步评估,综合技术和成本分析无法替代国内厂商三层白盒交换机。
总结:光电混合组网只是概念股,OXC商用前景并不乐观
当前,国内产业圈子OXC呼声高涨,引发了不少关注。然而,所有的变革都需要深思熟虑,过度炒作只会掩盖真正的问题。
如果OXC做核心层设备,整网控制面需要以AI训练任务信息作为输入进行光电统一调度。OXC交换带来网络拓扑动态调整,网络的负载均衡、流量调度严重依赖电交换机侧的配合和协同。除此之外,OXC设备本身还要攻克时延、插损等一系列技术难题。智算场景下多种技术挑战叠加,OXC进入DCN还存在较大的差距,产业各方仍需正视挑战,继续努力。
来源:天极网