9月11日,第25届中国国际光电博览会在深圳开幕,在同期举办的“智算中心光技术创新发展论坛”上,杭州阿里云飞天信息技术有限公司光网络架构师翟芷群应邀作了题为《智能运维在网络中的应用及挑战》的主题演讲,分享了阿里云网络全生命周期的智能化管理方案。
翟芷群表示,随着AI的迅速发展,大规模的数据中心、网络、计算,使网络的规模越来越大。如此巨大并且复杂的网络,倘若纯使用人工方案,会耗费巨大的人力,尤其是现阶段AI系统开始在业界使用起来。由于SRC的影响,这些配置会变得更加复杂,这时使用人工来调试,会耗费巨大精力。
翟芷群介绍到,对于OTN网络,整个生命周期可以分为五个部分,从最开始接收到业务方的需求;然后进行设计与规划,包括确定架构和规划拓扑;在规划结束后,进入建设交付阶段。在建设交付阶段主要进行配置调测以及网络验收;当网络验收结束后,就标志着业务正式上线;此时项目进入运营维护阶段。运营维护阶段的工作主要包括:网络监控、风险评估以及故障维修、替换、升级等。最后当整个网络生命周期结束后,设备将进入下线退役阶段。在整个网络生命周期中,设计与规划、建设交付和运营维护三个阶段,都可以通过智能化手段来提升效率。但如果想进行全生命周期的智能化管理,翟芷群认为,首先需要获取大量信息,包括:资源信息、拓扑信息、光缆信息,以及当下的网络状态,包括设备状态、光缆状态。其次,要有风险感知能力,例如设备告警、网络告警等。最后,也是最重要的部分,需要设备配置能力,这样才可实现全生命周期的智能化管理。翟芷群介绍到,传统OTN网络的弊端在于其是“黑盒”,一张传输网络的所有设备必须由一家厂商提供,设备无开放接口,网络管控只能在厂商网管上进行。如此,对于使用方而言,没有很多空间做智能化管控。为此,近些年阿里云一直在做开放解耦的OTN网络,DCI OTN是白盒网络,传输组网支持跨厂商异构,设备支持YANG模型和NETCONF接口,阿里云的自研网管可以管控所有厂商设备。
翟芷群表示,从整个OTN网络生命周期的管理看,全生命周期均可进行网络智能化管理。在设计与规划阶段,主要包括架构定义以及拓扑规划,而有效的设计和规划工具非常重要。其中,架构定义最重要的是网络余量的设计,网络余量可能随时间的变化等因素的影响,很难确定光缆劣化的预留余量指标。传统方案对所有OCH给与相同的余量,通常是通过假设链路中只有一个光缆发生波动,且是第一个光缆,从而得到一个余量值。但这对于不同的OCH而言显然不合理。因此阿里云研发了新的余量设计方案。新余量设计方案首先通过规划工具生成最优配置,假设光缆的抖动对每个光纤是独立分布的,把光缆的抖动独立地放在每个光缆上,得到GOSNR的分布,再根据SLA要求,得到require margin,然后确认规划拓扑是否满足需求,满足需求则进入建设阶段;若不满足需求重新规划拓扑。在建设交付阶段,主要包括配置自动化下发和自动化验收两步。翟芷群表示,我们的线网是Mesh网络,调整的变量可能有上百个,且不同的变量调整无法精确同时进行。此外,Mesh网络不同的调整变量之间有耦合,很复杂,需要配置自动化下发工具,通过链路仿真计算输出所有变量的优化目标,然后自动调节光网络管控平台,调整算法进行调节。同时,用光网络的数据平台进行秒级的性能实时监控。在建设交付的自动化验收阶段,主要包括五个步骤:设备验收、OTS验收、OMS验收、OCH验收、业务验收。阿里云系统可以对各个层级设计验收项,展示各个层级的验收结果。最后进入运营维护阶段。翟芷群介绍到,如果想要实现智能化运维,最重要是对网络状态进行监控。网络状态监控有两种方法:第一种,通过设备的告警。每个设备有一个SNMP,通过SNMP agent上报告警到网管系统。第二种,通过巡检的任务调度。包括配置的检查、网络余量的检查以及光纤状态的检查。其中,配置检查,要检查增益的配置、WSS配置,通过规划的工具得到最优配置和目前的配置做比较,偏差太多会上报告警。网络余量包含两部分,一是工作路径的余量,二是备路的余量。光纤状态检查包括检查铜路状态等。翟芷群表示,在实际使用中,通过设备告警和巡检任务调度上报的告警量非常大。这时则需要根因定位,把各种告警信息整合起来,生成告警文本,对文本处理后找到根因。定位到根因后,自动生成维修方案,进行自动化调节的配置。但并不是所有故障都能自动化。此外,翟芷群强调,运营维护阶段最重要的是稳定性,在调节的过程中,从起点到终点gosnr不能低于设定的门限,保证业务不受影响。演讲最后,翟芷群总结到,开放解耦是实现网络智能化的基石,对于网络的智能化管理,规划工具以及自动化调节工具至关重要,不同阶段自动化手段以及侧重点也均不相同。