随着市场竞争的日益加剧,客户对信息系统的依赖性和要求越来越高,保证数据中心的高可用性,提供7×24小时网络服务成为建网的首要目标,也是数据中心建设关注的第一要素。
导致网络不可用,即网络故障的原因主要有两类:
不可控因素,如自然灾害、战争、大停电、人为破坏等。
通过建设生产中心、本地备份中心、异地容灾中心,即“两地三中心”模式,通过良好的整体规划设计,保证不可控因素影响下数据中心的高可用。
可控因素,如设备故障、链路故障、网络拥塞、维护误操作、恶意攻击等。
锐捷网络在相关产品设计上考虑了诸多因素,提供了全系列的解决方案,包括物理设备、链路层、IP层、传输层和应用层,全方位的提高网络可用性。
硬件设备冗余,如设备双主控、单板热插拔、冗余电源、冗余风扇。
物理链路冗余,如以太网链路聚合等。
环网技术,如:REUP、RERP等技术。
二层路径冗余,如:MSTP、REUP。
三层路径冗余,如:VRRP、ECMP、动态路由快速收敛。
快速故障检测技术,如:BFD等。
不间断转发技术,如GR等。
除了产品高可用性外,锐捷网络在数据中心整体设计上提供完整的高可用方案,具体可分为:服务器接入高可用设计,接入层到汇聚的高可用设计,汇聚层的高可用设计。
1.服务器接入高可用
常见1RU机架式服务器最少三个网口:
两个业务网口;
一个管理网口;
可能带存储网络接口。
也称服务器多网卡接入。为了实现接入高可用,服务器通常采用多链路上行,即服务器的两块甚至多网卡接入,服务器中的网络驱动程序将两块或者多块网卡捆绑成一个虚拟的网卡,如果一个网卡失效,另一个网卡会接管它的MAC地址,两块网卡使用一个IP地址,而且必须位于同一广播域,即同一子网下。
服务器和接入交换机之间的连接方式有几种方式:
服务器采用网卡/链路容错模式接入到盒式交换机;
服务器采用网卡/链路容错模式接入到堆叠交换机组;
服务器采服务器采用交换机容错方式模式分别接入到两台交换机上;
将VLAN Trunk到两台汇聚层设备上用网卡/链路容错模式接入到交换机的不同接口板,交换机采用双主控;
网络可用性从左至右依次升高。推荐采用第四种接入方式。第四种连接方式服务器采用交换机容错模式分别接入到两台机柜式交换机上,并且将VLAN Trunk到两台设备上,实现服务器的高可靠接入。
2.接入层到汇聚的高可用(未采用虚拟化)
接入到汇聚层共有四种连接方式,分别为倒U型接法、U型接法、三角型接法和矩形接法,这里所谓不同类型的接法是以二层链路作为评判依据,比如说矩形接法,从接入到接入,接入到汇聚、汇聚到汇聚均为二层链路连接,因此形成了矩形的二层链路接法。
2.1二层无环路设计,倒U型组网、不使能STP
方案优点:
不启用STP,好管理(网络络接入层不存在二层环路,接入层交换机可以不启用生成树协议,因此网络的配置管理简单)。
VLAN 可以跨汇聚层交换机,服务器部署灵活(服务器的接入VLAN可以跨汇聚交换机,因此能实现VLAN跨不同的接入层交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好)。
必须通过链路聚合保证高可靠性(接入交换机上行汇聚交换机采用捆绑链路,因此上行链路可靠性高,链路的带宽利用率高)。
方案缺点:
汇聚交换机故障时,服务器不可达,无法实现高可靠接入(当汇聚交换机与接入交换机之间的链路中断时,服务器不能感知这种故障,服务器上行流量仍然发送到出现故障的接入交换机,从而形成了“流量黑洞”;)。
机架式服务器适用性分析:
由于存在“流量黑洞”的问题,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机可通过上行捆绑链路的状态监测机制解决“流量黑洞”问题:刀片交换机在正常运行状态时,周期性的对上行汇聚层交换机的接口进行状态检查,当发现上行接口故障时,该刀片交换机将shutdown其上所有端口。此时,接入到该刀片交换机上的服务器将把流量切换到与另一个刀片交换机相连的网卡上,从而避免了“流量黑洞”。
这种方案配置管理简单,如刀片交换机具备防 “流量黑洞”的特性,则适用于刀片交换机的网络接入。
2.2二层无环路设计,U型组网、不使能STP
方案优点:
不启用STP,好管理(网络络接入层不存在二层环路,接入层交换机可以不启用生成树协议,因此网络的配置管理简单),双active链路,接入交换机密度高。
方案缺点:
VLAN不能跨汇聚层,服务器部署不灵活。(服务器的接入VLAN不能跨汇聚层,服务器不能实现跨交换机的二层互联,网络的二层扩展能力有限)。
接入交换机间链路故障,VRRP心跳报文无法传递,整机做VRRP主备切换,故障收敛时间长(服务器网关指向汇聚交换上VRRP的VIP地址,但VRRP心跳报文的传输路径必须经过两台接入交换机,当两台接入层交换机之间的链路发生中断时,两台汇聚交换机都变为VRRP主设备,网络进入三层不稳定状态 )。
机架式服务器适用性分析:
网络接入不具备高可用性,且二层扩展能力有限,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
网络接入不具备高可用性,二层扩展能力有限,不建议在刀片服务器接入时采用这种组网。
2.3矩形组网,使能STP
方案优点:
双active链路,接入交换机密度高(接入交换机到汇聚交换机间有冗余链路,网络接入层具备高可用性)。
VLAN可以跨汇聚层交换机(服务器接入VLAN可以跨汇聚交换机,能实现VLAN跨不同的接入交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好)。
方案缺点:
一半的接入流量通过汇聚之间的链路。
接入交换机上行链路故障,流量将从一侧的交换机上行,收敛比变小,网络易拥塞,降低网络高可用性 (正常情况时,两台接入交换机之间的链路被生成树协议阻塞。当某台接入交换机上行链路故障时,交换机之间的链路变为转发状态。此时,发生故障的交换机一侧的所有服务器上行流量,将经过另一侧交换机上行到汇聚交换机,该交换机的上行收敛比增加一倍,导致网络发生拥塞,网络转发性能降低)。
机架式服务器适用性分析:
服务器接入具备高可用性和高可扩展性。当一侧接入交换机发生故障时,另一侧交换机拥塞加重,网络转发性能降低,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机模块需要配置生成树协议,不利于刀片系统的管理维护。且同样存在一侧刀片交换机故障时,网络转发性能下降的问题,因此不建议在刀片服务器接入时采用这种组网。
2.4三角形组网,使能STP
方案优点:
链路冗余,路径冗余,故障收敛时间最短(接入交换机到汇聚交换机有冗余链路,接入网络具备高可用性,且通过MSTP可实现上行流量分担)。
VLAN 可以跨汇聚层交换机,服务器部署灵活(服务器接入VLAN可以跨汇聚交换机,能实现VLAN跨不同的接入交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好)。
方案缺点:
网络配置管理较复杂,为提高二层网络的高可用性与安全性,在接入交换机与汇聚交换机上使能“BPDU保护”、“环路保护”、“根保护”等特性。
机架式服务器适用性分析:
服务器接入网络具备高可用性、高可扩展性,建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机上的配置复杂,可管理性较差,不建议在刀片服务器接入时采用这种组网。
VLAN跨汇聚层带来的灵活性:
VLAN可以跨机架,扩展性好。
图中两台黄色的服务器可以配置在一个VLAN中。
这种部署需要管理的设备较多,管理工作量大。
3.汇聚设备高可用
汇聚交换设备之间的VRRP:
VRRP协议实现虚拟网关的冗余备份机制,配置多个VRRP组实现网关的负载分担,但要注意当一个网关出现故障时,这种负载分担就失去作用了;
可以通过配置调整网关的优先级来控制VRRP组内master的选举;
合理配置master发送hello报文的时间,这会影响master失效时,backup接替master的响应时间(通常是3个hello时间),但当VRRP组很多时,hello timer设置的过小会增加网关设备CPU的负担;
使用非抢占模式时,可以保持业务流量的稳定、减少倒换次数,避免不必要的中断;
使用抢占模式时,建议配置抢占delay时间,避免网络不稳定时引起VRRP组内master的频繁变化,严重影响业务;
建议在VRRP组内配上对上行端口的监控功能,以提高网络的可用性。
安全、应用优化设备之间的VRRP:可以内置或者旁挂到汇聚交换机上(推荐旁挂,而不是串连到网络中,消除性能瓶颈)。利用HA实现在Master和Backup防火墙设备之间备份关键配置命令和会话表状态信息的备份。通过指定的负载均衡算法,对指向服务器的流量做负载均衡,保证服务器群能尽最大努力向外提供服务,提升服务器的可用性,提升服务器群的处理性能。
4.锐捷网络数据中心交换机设备高可用
接入单机高可用
接入层设备锐捷网络RG-S6200/6000系列支持电源冗余,支持内置冗余电源模块和模块化风扇组件,所有接口板,电源模块以及风扇模块均可以热插拔而不影响设备的正常运行。此外整机还支持电源和风扇的故障检测及告警,可以根据温度的变化自动调节风扇的转速,更好的适应数据中心的环境。还具备设备级和链路级的多重可靠性保护。采用过流保护、过压保护和过热保护技术。
良好的散热及可靠性工业设计:
4风扇设计(红框),有效保证设备内部温度恒定。
双电源设计(篮框),保证数据中心设备正常。
设备前端的散热设计(详见右下图红框),4风扇后端抽风,前端散热。符合数据中心要求。
均支持热插拔。
核心单机高可用
锐捷网络RG-S12000在产品硬件设计上充分考虑了高可靠性的设计。所有的硬件部件均采用了冗余设计的方式。
双引擎热备设计实现数据不间断转发:
设备启动时,主引擎将设备中的配置信息、系统信息以及线卡、风扇、电源等信息全局同步给备份引擎。此后运行过程中,主引擎以增量的方式将信息同步给备份引擎。主引擎出现故障后,备份引擎接替主引擎工作,线卡维持FIB转发表不变,同时备份引擎保留了主引擎同步的各种信息,保证数据的不间断的转发
电源采用1+1冗余设计方式:
单个电源可负载整个交换机的供电,采用1+1备份的方式,当一个电源出现问题时,另外一个电源可接替主电源,保证设备供电。
双电源同时开启时,支持负载均衡式供电。这样原本一个电源承载的符合分担到两个电源上,减少了耗电量。当一个电源出问题时,另外的电源也可负荷整台设备的供电。
6风扇冗余设计,良好的散热设计:
采用6风扇设计,风扇分布在机箱背部左、中、右三部分。对机箱进行散热,保证机箱内部温度均衡。此种设计非常有利于设备安置在没有空调设备的配线间中(设备放置在楼宇做汇聚)。在左、中、右三部分,6个风扇均为上下两个1+1备份(同时工作)的方式,即使1个风扇坏掉,备份风扇也可进行散热,保证设备内部温度均衡
无源背板设计:
传统的背板采用有源设计,一旦有源背板上的ASIC芯片或时钟模块等有源部件出现问题,则影响了整个系统数据传输。 一旦背板上的部件出现故障则整个系统将停止工作。因此高可靠性的系统设计通常要求背板实现无源设计。
数据不间断转发
可靠性特性设计——GR/NSF。在没用完美重启技术的时候,因各种原因出现的主备切换,都会造成短时间转发中断(例如如问题设备引入大量外部路由,外部路由需要重新学习),并在全网造成路由振荡。
GR运行过程:
本地路由重启中,不备份路由,保持转发表数据,依赖邻居路由器刷新路由表。
主板故障倒换/重启后需要相邻接点发送完整路由信息。
转发不中断、路由重新学习。
可靠性特性设计——NSR(不间断路由):
主备倒换保持路由协议的不间断。
单点部署,无需邻居节点配合。
避免路由协议震荡,网络可用性提升。
通过GR完美重启,或者NSR不间断路由技术,真正实现了在网络核心引擎切换时的0丢包,真正实现了数据的不间断转发。
5.面向云计算:整网虚拟化多变一提升可靠性
随着数据集中在企业信息化领域的展开,新一代的企业级数据中心的建设当前成为行业信息化的新热点。而数据中心建设过程中,随着应用的展开,服务器、存储、网络在数据中心内的不断增长、集中,引起较多的问题。如数据中心有限空间内物理设备数量不断增长,面临巨大的布线、空间压力,而持续增长的高密IT设备功耗、通风、制冷也不断对能耗提出更高要求。服务器、网络、存储等IT设备的性能与容量不断增强,但是总体系统利用率低下,统计显示当前服务器平均利用率为15%,存储利用率在30%-40%。而企业IT的投入仍在不断增加。
因此,对数据中心的资源进行整合、进而虚拟化,以提高数据中心的能效、资源利用率、降低总体运营费用,成为当前IT业内最为令人关注的技术领域。同时,虚拟化对IT 基础设施进行简化、优化。它可以简化对资源以及对资源管理的访问,为新的应用提供更好的支撑。
Gartner信息显示,从当前到2012年,虚拟化应用将在大型企业IT基础设施和日常运营中发挥主导作用,从而给企业IT基础架构的部署、运营、管理带来变革。
数据中心是企业IT架构的核心领域,不论是服务器部署、网络架构设计,都做到精细入微。因此,传统上的数据中心网络架构由于多层结构、安全区域、安全等级、策略部署、路由控制、VLAN划分、二层环路、冗余设计等诸多因素,导致网络结构比较复杂,使得数据中心基础网络的运维管理难度较高。
使用锐捷网络VSU虚拟交换单元虚拟化技术,用户可以将多台设备连接,“横向整合”起来组成一个“联合设备”,并将这些设备看作单一设备进行管理和使用。多个盒式设备整合类似于一台机架式设备,多台框式设备的整合相当于增加了槽位,虚拟化整合后的设备组成了一个逻辑单元,在网络中表现为一个网元节点,管理简单化、配置简单化、可跨设备链路聚合,极大简化网络架构,同时进一步增强冗余可靠性。
网络虚拟交换技术为数据中心建设提供了一个新标准,定义了新一代网络架构,使得各种数据中心的基础网络都能够使用这种灵活的架构,能够帮助企业在构建永续和高度可用的状态化网络的同时,优化网络资源的使用。网络虚拟化技术将在数据中心端到端总体设计中发挥重要作用。
端到端虚拟化数据中心网络架构传统的L2/L3网络设计相比,提供了多项显著优势:
1)运营管理简化。数据中心全局网络虚拟化能够提高运营效率,虚拟化的每一层交换机组被逻辑化为单管理点,包括配置文件和单一网关IP地址,无需VRRP。
2)整体无环设计。跨设备的链路聚合创建了简单的无环路拓扑结构,不再依靠生成树协议(STP)。虚拟交换组内部经由多个万兆互联,在总体设计方面提供了灵活的部署能力。
3)进一步提高可靠性。虚拟化能够优化不间断通信,在一个虚拟交换机成员发生故障时,不再需要进行L2/L3重收敛,能快速实现确定性虚拟交换机的恢复。
锐捷网络数据中心交换机,从核心RG-S12000到接入RG-S6200/6000均支持VSU虚拟化,可以再网络中的核心和接入分别进行虚拟化,从而实现网络的整体虚拟化提升网络可靠性。
提升可靠性:
传统网络,网络拓扑复杂管理困难,故障恢复时间一般在秒级。为了增加可靠性,设计了一些冗余链路和设备,网络拓扑变得复杂。同时核心设备一旦不稳定或链路中断,则会导致VRRP或路由协议的震荡,故障恢复一般都在秒级。
使用VSU后,两台核心设备逻辑上变成1台,如下图。此时汇聚到核心双链路上联,等同于双链路连接到1台核心上,实现跨设备链路聚合。
当上联1条链路中断时,也只是聚合链路的一条成员链路出现故障,切换到另一条成员链路的时间是50到200毫秒。即使其中一台核心down机,也不会影响到整网震荡。因为VSU单元(有两台核心)无任何感受。
简化管理:
接入层交换机使用VSU虚拟化,网卡C-Teaming部署大大简化(服务器上网卡部署IP等网络相关配置时极大简化)。
简化路由设计,核心层使用VSU虚拟化,只需2个网段,消耗11个IP(含Loop back接口),物理链路变化不影响路由振荡。
传统方式共需9个网段,消耗42个IP(含Loop back接口),9条链路任一变化将引起路由振荡。
多个路由区域,域内设备节点多,路由设计复杂,有数据流往返路径不一致问题。
6.面向云计算:绿色环保设计
云计算以虚拟化资源池的方式使多用户共享IT设备,可以显著提高IT设备的利用率,降低数据中心的功耗,因此成为绿色数据中心发展趋势中的重要力量。同时,云计算的服务模式也对数据中心的软硬件架构和运维提出了新的要求。如何建设云计算时代的绿色数据中心,成为业界共同探讨的话题。
数据中心是能耗大户,这已经得到了业界一直的认可。有数据显示,随着数据中心的迅速发展,如果不加以控制,未来数据中心能耗将直线上升,2~3年的能耗将超过数据中心自身建设成本,因此,减少数据中心能耗不单单为企业降低运营成本,更是企业社会责任心的一种体现。
中心绿色的变革(随着在云计算网络中,数据中心的规模变得越来越大,对绿色的要求也越来越高):
早期数据中心建设目标:能够满足高密度、高容量、高安全性,并且具有高可靠性、可扩展性。
新型数据中心对绿色的要求:能够节省成本、节省空间、能够在节能方面做得更好,而且使应用的稳定性更高。
锐捷网络数据中心级产品完全采用了绿色的设计方案,适合数据中心对绿色的要求。
低功耗设计
锐捷网络数据中心交换机系列交换机在芯片选择时,大都采用65nm工艺设计的芯片,从源头上降低系统功耗。
同时,在电路设计时,将节能省耗设计理念应用于每个电路,例如以太网端口的隔离变压器中心抽头电压采用1.8V(旧版使用2.5V),甚至主板上的LED电路的电阻和工作电压选择也考虑了节能。仅以太网口一项,即可节省28%的能耗,对于48 GE Port的设备而言,可以节省的功耗约为4W。同时核心芯片的制程改进,电压从普遍的1.25V、1.5V降低到1.0V,这种电压的降低可以节省20%以上的能耗。
核心与接入设备采用了最新的低功耗设计的芯片,48口万兆功耗370W,比业界同类产品低一倍。RG-S12000核心数据中心设备最低配置环境中,如千兆配置,只需要不到800W的功耗即可实现网络的正常运行。
智能温控系统
锐捷网络数据中心交换机系列交换机采用智能温度检测系统,实时控制系统风扇的转速。保证系统风扇可以根据实际温度进行转速调整,避免了风扇一直高速运转,降低风扇能量消耗。
25摄氏度常温下,风扇转速基本可保持为半转速(约半功率)状态即可满足整机的散热,风扇系统的能耗可降低40%,比如一般的9风扇系统的能耗为54W,常温工作中能耗节省24W,相当于一张低功耗线卡的功率。
良好的散热设计
核心设备区间式风道设计(业界第一家):
锐捷网络数据中心交换机使用区间式风道设计,具有独立的电源风道、板卡风道,提升每路风扇的散热能力和风压利用效率。其风道设计特点显著,每组板卡具有独立的分区风扇,并可以进行分区调整。
锐捷网络接入层数据中心交换机面向数据中心的散热方案:
RG-S6200系列交换机支持两种散热方案: -F前后风道模型和-R后前风道模型。适用于大型数据中心的标准散热设计。
-F前后风道模型的散热方案采用前后风道及电源后向散热相结合, -R后前风道模型的散热方案采用后前风道及电源前向散热相结合,以保障设备能在规定的环境下正常工作。