扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
——博科网络自动化平台(BWC)应用性分析
至顶网 董培欣
一提起SDN,对它了解的人首先会想到转发与控制分离,但是题目里的管理又是什么?确实,如果只是在个实验室类的小环境中,却实没有必要考虑管理方面的问题,略施CLI(command-line interface,命令行界面)大法,就可以全部解决。可是当用户面对的是一个数据中心或多个数据中心的网络互联,乃至于电信行业的一张大网的时候,还能这样去做吗?
就像上面胶片展示的一样,未来数据中心发展的趋势就是网络与IT融合,统一资源调度
ICT融合,资源统一调度,这个目标很高大上,但我们仰望着这个目标向前走的时候会不会掉进脚底下的大坑呢?下面来具体看一下。
网络的统一资源调度,面对的首要问题就是管理。有的同学会问,SDN的转发与控制分离后,在控制层面上本身不就可以进行管理了吗?是可以,但是您有想过在大规模网络应用处理的时候控制器的负担有多重吗?为了分化这些负担,控制器同样需要进行分布式部署,但分布后控制器的整体协调就又成为了新的问题。
现在已经开始在控制器上面再加一层控制器做所有控制器的管理了。再这样下去是不是还要为控制器搞个控制协议?(开玩笑)这还只是SDN,再想想NFV上的各种功能模块,你能保证所有接口都可以统一进行调度?还有不同网络厂商别出心裁制定的各类协议,你真的确定可以统一的管理起来吗?建议最好还是再去好好想想。
网络故障排查,这个问题害得多少网工码农彻夜不眠、肝肠寸断?举个身边刚发生的小例子:
我们辛勤的市场同学,扛着大包小包会议礼品,辛辛苦苦跑到上海参与一个会展活动,但在一个注册抽奖的小环节上出现了问题,安卓的手机号注册不上。
于是我们市场大姐和蔼可亲的在群里发消息到“现在、立刻、马上、必须给我查”。嗯,隔着屏幕都可以感受到的怨念。还好离着几百公里,不然技术小哥那个小身板,恐怕还真不够她嚼的。很快就有了反馈,上海的苹果手机可以注册,应该不是内部后台系统的问题,在北京安卓也能正常注册,兼容性的问题也可以排除。客户端注册的平台使用的是微信,所以真相是……。果然一段时间后,集中注册的情况有所缓解,在后台一点没有改动的情况下,用户注册又正常了。
这还只是一个小例子,平台单一、链路简单问题也十分好分析。试想一下,在一个数据中心场景,网络设备众多、在线应用复杂,一但出现网络故障,排查起来,就好象是只露出一只大脚,来猜猜我是谁。
尼古拉斯赵四先生教导我们,没啥问题是一个分层解决不了的,一层不行就两层。SDN把转发和控制分离,解决了集中控制的问题。现在发现控制器忙不过来,该怎么办?把管理和控制再做分离,变成集中管理分布控制,让控制器专心去干自己的事,别再分心。这个是我去年在祸害某云的非OpenStack云计算系统时的最深刻感受,他们也骄傲的把自己这套系统叫做SDN2.0。
分布控制集中管理,这个理念十分值得借鉴。在新建数据中心中,十分适用。通过SDN技术对整个数据中心网络进行整体规划、实施、管理都十分方便,一张白纸好做文章。
但是如果是旧有数据中心改造,将整个网络更换为SDN就是在伤筋动骨。更何况还有与外部internet互连的路由调配问题。有些企业还需要通过IPSec、MPLS等VPN与异地分中心互联,进行多中心网络统一管理。这些问题想通过现有的SDN技术解决,还有着很大的难度,况且不同厂商的交换、路由设备管理控制命令也无法统一。集中管理更是无从谈起了。
以上还只是数据中心中的网络管理,计算资源、存储资源也同样有统一管理的需求。这么多的管理问题,应该如何解决?
如果将网络看做不同的生产线,数据包就是生产线上一个个的产品,在存储、服务器的库房里被取出,通过路由器、交换机等一道道工序,组装成成品传递给用户;这个传递的过程就是一条条的工作流。当工作流中某个环节出现问题怎么办?对“生产线”进行维护管理。以前是人工管理,劳动强度大,工作效率低,对故障无法进行事先预测。现在有一个事件驱动型自动化软件创新厂商StackStorm,通过DevOps风格的方式,将自动化管理功能带入到网络管理之中。并通过目前最流行的开源方式,将StackStorm进行开源,供广大网络管理者共同使用和维护。
但是开源软件的不足之处在于:使用的多,贡献的少。还有很多进行贡献的厂商并不会将真正实用的代码开源出来(人家付出很大投入得到的成果,凭什么白白提供给你!)。StackStorm也在面临着这一问题。
对自动化管理始终非常重视的博科,最近花大力收购了StackStorm这个创新性的软件厂商。StackStorm现已成为Brocade Workflow Composer(以下简称BWC)的基础元素。当BWC成为StackStorm的商用版本后,博科立即组织了数以千计的技术研发工(ma)程(nong)师,为BWC提供了,从架构设计、功能研发、代码编写直至分析评测的全套研发人员,并即刻对BWC各项功能进行完善。
专业的研发团队,为用户带来了专业的自化管理工具。目前,BWC已经可以为企业和云运营商提供DevOps风格的网络自动化管理运维能力,协助厂商进行网络配置、验证、故障诊断和修复,同时集成多个IT域上的工作流程,实现端到端自动化。
可以讲BWC就是博科提供的一个自动统一管理分层,它将数据中心的网络、计算、存储设备以及外网路由设备的管理控制接口都统一集中到了这一分层之中。并且提供了一个可以进行自动化处理的脚本库。里面收集了数以千计的网络、存储、计算类故障的报错信息和解决方案。(BWC为Linux、Windows、vSphere、AWS、Azure、CloudFoundry、OpenStack、Docker、Kubernetes、CoreOS、FireEye、New Relic、Sensu、Splunk、ChatOps、PagerDuty和VictorOps等流行平台和应用提供了超过1000个以上的可定制集成点。)
通常数据中心或云计算系统出现问题后,用户需要向系统维护人员派出一个工单,告之维护人员现在有什么样的问题,请进行解决。然后维护人员再对问题做进一步分析,找出故障点手动排除。
如果利用BWC就可以有效减少此类问题的出现,BWC实时对所接入的网络、计算、存储设备运行状态进行监控,通过事先设定的阈值对系统状态进行分析。当发现情况后及时向管理人员告警,如果故障可以通过BWC数据库中的调试命令解决,还可以直接以CLI命令行或其它调试方式直接进行处理。
借用一家社交网络公司的现场可靠性工程师的话来表示:“当我被问题通知叫醒时,能有一个事件驱动型自动化系统真是太棒了,该系统已经评估了我的警报,并及时提供我用来评估问题所需的所有数据。如果自动化工作流程能够重启未能响应的系统来解决问题,那么之前凌晨2点叫醒我的电话现在就变成一张早上10点的跟进维修单了。
BWC这种以工作流程为核心的自动化方案提高了业务敏捷性,可以自动完成整个网络生命周期内,包括初始化部署、配置验证或故障排查/利用事件驱动的自动化进行修复等一系列工作。更难得可贵的是,它并非只能支持博科一家的系统设备,通过依然存在并不断丰富StackStorm的技术开源社区,越来越多的网络、计算、存储设备管理控制功能需求被收集整理,再由博科的工程师开发完善后,集成到BWC自动化系统之中。实现并丰富BWC跨域自动化管理功能。
相信随着BWC这种由软件定义的控制与管理技术普及,无论是企业内部网络系统、数据中心还是在广域网中,不需要等到实际问题出现,只要网络或系统资源占用情况达到将要发生问题的阈值,就可以自动无需人工干预的提前进行除理。从而保障网络系统的稳定顺畅运营。
届时我们市场部的大姐也就可以笑口常开的为大家提供更多、更好的市场活动了。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者