广东电信发生历史性故障,波及全省电信用户,容灾机制不起作用?

6月8日,广东电信发生重大故障,导致广东电信全省本地及漫游用户通话异常。当天16时左右,陆续有网友在社交媒体上发文指出,使用电信卡的手机无法通话和通信。“故障发生后,自己尝试了拔卡重启、检查手机硬件、充话费等不同方法,依然无法解决问题。”
随后不久,中国电信广东客服回应称,“因网络异常,影响部分移动用户接听电话,我们正在进行抢修,由此给您带来的不便,我们深表歉意,感谢您的理解和支持。”而后在8日18时左右,中国电信广东客服又补充发文表示,“经紧急抢修,自16:30起,受影响的用户正逐步恢复,对在此期间受到影响的客户表示真诚的歉意。”
到了19时左右,此官微又发布了一条消息称,“截至目前,受影响的移动用户接听语音业务已全面恢复,给您带来的不便我们再次深表歉意。”
图源:中国电信广东客服官微
对于此次故障的具体原因,中国电信官方还没有公布。不过,针对这起历史性的电信事故,8日晚,广东省通信管理局召集广东电信、广东移动、广东联通、广东广电、广东铁塔相关负责人召开网络运行安全紧急调度会。
跳出事件本身来看,电信系统到底是如何运营的呢?容灾系统不起作用原因有哪些呢?
解密电信网络系统
对于电信网络的运转,其上方有两套系统,分别是上层it软件和底层基础硬件。
其中it系统又可以分为bss、oss、mss和edw。bss(business support system,业务支撑系统)和oss(operation support system,运营支撑系统)合称为boss系统,也就是电信业务运营支撑系统。boss系统以客户服务、业务运营和管理为核心,支持客户服务和计费等关键事物的运转。
在boss系统中,bss实际上是具有主动式管理能力的。这种能力让运维人员在故障发生之前就能够提前介入处理,消除系统故障带来的潜在风险,是运营商系统层面提升客户满意度的关键功能。不过很显然,在此次广东电信故障事故中,bss系统并没能起到主动式管理的作用,从这个层面来看,这次的事故突发性很强。
mss(management supporting system,管理支撑系统)负责it系统的规划和窗口展现,帮助电信运营商实现业务和市场需求更好地结合,并提升企业管理和it系统升级的效率,也对企业运营效率提升有帮助。
edw(enterprise data warehouse,企业数据仓库)主要负责数据存储和信息化管理。
it系统是电信运营商业务的神经枢纽,当然其运转还需要部署在底层的硬件设备上。在介绍底层硬件结构之前,我们先结合下图看一下电信业务是如何运转的。如下图所示,无论是电话业务,还是移动手机业务,最终都需要连接到核心网。
电信业务服务架构示意图,图源:华为培训
再看一下另一张图,宽带业务实际上也是如此,全部业务支撑最终都要回归到核心网层面。
宽带业务示意图,图源:华为培训
所以,这就是为什么运营商很多时候被称为“管道商”。实际上,所有的电信运营业务都像是水管一样,网络流量由核心网分化而来,每一项业务都是基于管道里的流量,从骨干网分流,如下图所示。
电信网络分流示意图,图源:中国电信
当然,网络是一个相对虚化的概念,具体还是要靠设备来支撑。在整个网络架构中,三种设备最为常见和关键,分别是路由器、交换机和核心交换机。如下图所示,无论网络在核心网、ip传输网还是业务网上传输,依靠的都是交换机来中转。
图源:广州移动培训资料
运营商在建设网络时,一般会选择使用多台核心交换器来构建超级节点,超级节点基本只存在北上广等重要节点城市部署,负责国际和省际之间的网络传输,也构成了核心网传输的第一平面。这个平面包括超级节点及其链路,以及各省第一出口链路。当然,骨干网络还有第二层,由普通核心节点到超级节点的链路和各省第二出口链路组成,负责跨大区域间的流量转发,大约全国2/3的流量都在这个网络上跑。如下图所示,为了增加网络接入的效率,在节点上将流量进一步分流,也就到了基站和普通交换机/路由器一端,方便用户的接入。
网络接入和传输示意图,图源:华为培训
那么,很显然一个普通的路由器和交换机是很难让一个省的网络全部出现问题的,很可能就是核心交换机出现了问题,影响骨干网的传输,导致一个省没有网络流量入口。
虽然二层网络已经推出很多年,不过目前依然是电信运营商主要采用的骨干网架构。虽然二层网络的扩展性不好,不过其跨域传输的性能很出色。当然,这也造成了一个问题,那就是看似互联互通的网络,会存在一些重要的节点,这些节点是不容有失的。
电信网络的容灾机制
电信网络是一个关系到国计民生的领域,因此在构建的过程中,是需要具有容灾机制的,面对一些突发的挑战。
我们上面已经提到,电信网络基本靠两套系统在运作,一个是it系统,另外一个是底层设备。由于用户信息和业务高度集中,因此每一个电信业务开始部署时都有一套“plan b”,也被称为容灾措施,主要是为了应对突发的火灾、洪水、飓风和其他突发因素等。
据介绍,除了在bss系统中加入故障预判的机制以外,电信系统在硬件层面具有多层容灾措施,包括单板主备容灾、设备主备容灾、网元主备容灾、同城异域容灾以及异城异地容灾。通过多维度丰富的容灾措施,一般在重大故障之后,电信运营商都能够很快地恢复网络。
上一次发生地域性大规模断网是在郑州大洪水期间。由于数十年难得一见的洪水,导致郑州骨干核心机房和主备机房全部被水淹。最终,为了让郑州市民能够尽快使用网络,启动了异城异地的容灾机制。
不过,一般而言,异城异地容灾已经是最高规格的电信网络容灾机制了,一旦遇到全省范围内的突发事件,实际上也很难起到作用。
写在最后
此次广东电信的故障是一次历史性的事件,也给国内的主要运营商提了醒。在当前的骨干网络架构里,一些关键节点的重要性与日俱增,一旦出现问题,就会带来大面积的影响。当然,此次广东电信故障还没有公布真正的原因,上述也只是从电信运营商软硬件体系结构下推断出来的。具体原因如何,相信广东电信会给大家一个解释。

麻省理工研究团队宣布,当前设计一款实用性非常强的硅基LED
低压电器的常见故障及维修方法
Altium Designer PCB电路板设计步骤与技巧介绍
电池电源回收“风暴”即将来袭
通过物联网技术的加持,助力智慧农业的发展
广东电信发生历史性故障,波及全省电信用户,容灾机制不起作用?
英特尔Mobii汽车操作系统,可手机来远程观察车内情况
陶瓷基板的种类及其特点
LED显示屏的防火技术
室内定位技术的种类详细解答,新导智能的推荐
采用FPGA实现FFT算法示例
使用热电偶测量表面温度存在哪些相关问题
“互联网+医药健康”大热 1药网获5000万美元融资
简单LED灯驱动电路
京东举办首届大数据峰会,零售大数据“操作系统”全面亮相
无人机云商业化即将来临
受新冠肺炎疫情影响,三星电子、SK海力士等企业面临着重重危机
AD9136高速数模转换器的性能特点与应用分析
菲菱科思:独立自主经营能力凸显 构筑可持续发展基础
比1毛还薄的iPhone充电壳?