本文先带领大家详细回顾了云化数据中心架构发展的演变历史,描述了不同发展阶段云化数据中心使用的网络技术。再举例说明了2个特殊行业(运营商、金融行业)对云化数据中心网络的设计要求。结合不同行业的业务要求,不同行业云化数据中心的建设目标也渐进明细。
目录
物理框架
传统
新架构
DCN 数据中心网络架构演变
DCN1.0 模块化,层次化,逻辑结构与物理结构强耦合
DCN2.0 资源池阶段,网络资源和计算资源初步融合,物理和逻辑解耦合
DCN3.0 云化阶段,overlay网络架构,云平台+SDN控制器,端到端的自动化
DCN网络技术演进
xSTP(802.1D)
虚拟机框类技术
L2MP(Layer 2 Multi-Pathing)类技术
M-LAG跨设备链路聚合技术
NVo3类技术
金融行业数据中心网络架构
痛点
网络设计要求
网络功能要求
网络属性要求
金融云数据中心设计目标
金融云数据中心设计原则
运营商数据中心网络架构与演进
运营商数据中心体系
业务驱动ICT数据中心
运营商数据中心设计目标
物理框架
传统
- 架构
• 接入
• 丰富的接入能力
• vlan隔离
• L2转发
• 汇聚
• 安全
• Qos
• 网络分析
• L3网关(PoD)
• 核心
• 南北向流量高速转发
- 缺点
• 不满足大二层业务灵活要求
• 总体紧张,局部富裕,服务器位置固定不灵活,与网络规划强耦合
• 不支持东西向流量的无阻塞转发
WEB-APP-DB
• 背景
• 应用架构
• 分布式计算
• 原因
• 设备性能收敛比
• xSTP
• 路径不可控导致延时不可控
• 网络健壮性差、弹性差
新架构
- 新架构提出背景
• 汇聚功能取消,向2层架构演进
1、网关上移、下移2、VAS加入
• 网关上移、下移
• VAS加入
• 横向扩展依赖通过增加PoD或核心设备更新,令人诟病
- 基于Clos的spine-leaf架构
• 核心思想:以低成本小规模的可复制网元构建大型网络
• spine-leaf架构优势
• 无阻塞转发
• 不区分东西南北流量
• 路径由leaf-spine-leaf 3节点转发
• 弹性和扩展性好
• 横向按比例扩展leaf-spine节点
• 纵向可以增加Core节点
• full-mash连接
• 网络高可靠
• ECMP(等价多路径)
DCN 数据中心网络架构演变
DCN1.0 模块化,层次化,逻辑结构与物理结构强耦合
- MSTP+VRRP
- 水平分区
• 相似业务 相似安全级别
- 垂直分层
• 网络功能界定清晰,各层各司其职
- 缺点
• 接入网络 千兆为主
• MSTP、VRRP技术限制,网络使用率低
• 功能分区和物理位置绑定
• 资源限制在分区内,多分区共享不灵活
• 分区增减不灵活
DCN2.0 资源池阶段,网络资源和计算资源初步融合,物理和逻辑解耦合
- M-LAG+VPC+堆叠破环
- 二层核心实现全网资源共享
- 接入资源池化
- 二层技术实现破环,M-LAG/vPC技术
- 分区灵活增减
- 网络采用千兆接入,万兆互联
DCN3.0 云化阶段,overlay网络架构,云平台+SDN控制器,端到端的自动化
- VXLAN接入资源池化
- DC内全网资源共享
- 按需实现二层联通
- 链路使用率100%
- 功能分区增减灵活
- spine-leaf横向扩展性强
DCN网络技术演进
xSTP(802.1D)
- 广播域防环
- xSTP(802.1D)缺点
• 收敛慢,不适配10G、40G、100G网络
• 使用率低
• 次优条数路径转发
• 不支持ECMP
• 网络直径建议小于等于7,不适配数据中心场景
• 缺乏双归接入机制,受STP限制
• 网络规模受到VLAN TAG限制
虚拟机框类技术
- 虚拟机框类厂商
• Cisco VSS
• H3C IRF2
• 华为 CSS(框式交换机)/iStack(盒式交换机)
• 主控板冷备设计
• 主备从交换机设计
• 锐捷-Virtual Switch Unit,虚拟交换单元(横向虚拟化技术)
- 虚拟机框类缺点
• 扩展性受限
• 受主交换机处理性能限制
• 可靠性弱
• 分裂
• 冲突
• 合并
• 加入
• 升级丢包
• ISSU(In-Service Software Upgrade)操作复杂
• 带宽浪费,专用线缆数据同步占用整机10~15%的背板性能
L2MP(Layer 2 Multi-Pathing)类技术
- 核心:将3层网络技术引入2层网络MAC-IN-MAC,聚焦流量转发未定义设备接入问题
传统2层网络不维护链路状态,不需要显式寻址。为实现L2MP技术,需要在经典L2帧头前再添加一个L2头部,以便满足显式寻址的需求。
- TRILL(TRansparent Interconnection of Lots of Links)多链路透明互联
• TRILL技术概述
• TRILL基本概念
• RB 路由器桥
• Ingress RB
• Transit RB
• Egress RB
• DRB 指定路由器桥
同一个VLAN中的RB需要竞选出一个DRB,DRB负责与其它所有RB通信以便同步LSDB。1、产生伪节点的LSP(链路状态协议数据单元)。2、发送全序列号报文CSNP(完整序列协议数据单元,Complete Sequence Numbers Protocol Data Unit),同步LSDB。3、指定DVLAN(指定虚拟局域网,Designated VLAN),指定某个CVLAN(Carrier VLAN)转发用户报文和TRILL控制报文。4、指定AF(指定转发器,Appointed Forwarder),每个CE VLAN只能有1个RB作为AF转发。
• TRILL关键元素
• CE VLAN
载荷VLAN,也就是终端接入TRILL的VLAN,通常在网络边缘,生成组播路由
• Admin VLAN
专用于TRILL网络管理流量的VLAN
• Carrier VLAN
专用于转发TEILL协议和上层Payload的数据报文一个RB可配置3个不同Carrier VLAN入方向普通以太网被封装为TRILL报文,出方向TRILL报文在Carrier VLAN中被解封为普通报文
• DVLAN
多个Carrier VLAN只有一个负责转发 TRILL报文,这个VLAN称为Carrier VLAN
• TRILL工作机制
• 与IS-IS相同,RB建立邻居交换PDU,RB交接LSP状态形成全网统一的LSDB,计算出基于NickName的转发表
• 单播转发与IP数据报文转发机制一致,使用TRILL寻址
• BUM和IP数据包转发类似,整网生成组播转发树,不同CE VLAN选择不同转发树,末端针对接入CE VLAN进行组播裁剪
• TRILL数据包结构
• 外层以太网帧头 - TRILL帧头 - 内层以太网帧头 - 数据
• TRILL组播树建立过程
• 树根竞选,HELLO报文中的TLV字段和system-ID字段决定设备优先级,高为先
• BR以LSDB为依据计算SPF
• 交换LSP时携带CE VLAN信息以便进行组播树裁剪
• TRILL数据包转发过程
• 发出端发出ARP请求,CE VLAN设备接收,生成本机ARP表项
• CE VLAN设备依据水平分割原则查询TRILL NickName转发表,选中组播树根,使用组播MAC转发BUM报文
• TRILL技术分析
• 优点
• 避免环路
• 资源充分利用
• 扩展性强
• 缺点
• VLAN ID空间限制了租户数
• 新转发流程带来的硬件替换升级成本昂贵
• TRILL的OAM(操作管理维护OperationAdministrationMaintenance)机制和组播机制没有统一的国际标准影响协议演进
• 成本不是问题,TRILL也有头部tag解决VLAN空间问题,其它技术也需要设备换代
M-LAG跨设备链路聚合技术
- 核心:本质还是控制平面虚拟化,但较虚拟机框类技术可靠程度高,实现难度低
- 跨设备链路聚合厂商
• Cisco:VPC(Virtual Port Channel)
• juniper:MC-LAG(Multi-chassis Link Aggregation)
• huawei:M-LAG(Multi Link Aggregation Group)
- M-LAG基本概念
• Dfs-group 动态交换服务组
• 双归设备接口状态、表项信息头部
• peer-link链路
• 专有二层链路聚合线路,专用于协议报文及跨设备流量传输
• peer-link默认加入到所有vlan中
• peer-link自带防环机制,peer-link收到BUM流量不会从双归成员端口流出(类水平分割)
• keep-alive链路
• 三层心跳链路,用于DAD双主检测,不进行业务转发可复用业务口
• M-LAG成员口
• 双归接入接口,两个M-LAG成员端口状态同步接口
• 单归设备
• 极力避免!!!
- M-LAG建立
• peer-link发送hello,判断dfs-group id
• 竞选主备设备
• 开始同步设备表项,keepalive心跳检查
- M-LAG表项同步(TLV格式)
• MAC表
• ARP表
• 2、3层组播表
• DHCP snoop ing表
• LACP systemID
• STP全局和端口配置
• ACL
- M-LAG兼容性保证机制
• hello包含版本信息,mlag版本与设备软件版本无关只和mlag功能相关
• 如果对端mlag版本较低会自动协商为较低的mlag版本
• 同步具体表项时直接将原始报文同步给对方,因为协议版本是相对稳定的
- M-LAG网络侧流量模型
• xSTP
• 双归设备对外展示为1个根桥
• TRILL/VXLAN
• 双归设备对外展示为1个NickName或VETP
• IP网络
• 正常路由协商
- M-LAG故障场景(peer-link恢复后延迟2分钟备设备恢复)
• 双归成员口故障,自动协商peel-ling口为CE侧出接口,放开peer-link BUM流量水平分割机制
• peer-link口故障,keep-alive进行DAD检查,将管理和互联口外的备机业务口error-down,使用单台设备转发流量,单归设备断网!!极力建议将peer-link和m-lag成员端口分单板配置
• 判断标准:是否可以从keepalive口收到对端响应
• 主设备故障,peer-link和keepalive均无响应,备设备升级
• 上行口和keep-alive接口故障,出现双主,单台设备流量丢失
• 使用管理口作为keepalive
• 配置monitor-link联动接口,m-lag端口和上行口关联
NVo3类技术
- 以厂商为推动主体,旨在拜托传统网络依赖的叠加网络
- NVE设备进行封装解封装,三层网络依据外层报文转发
- NVo3技术代表
• VXLAN
• NVGRE
• STT
金融行业数据中心网络架构
痛点
- 不同业务分区的服务器只能接入对应分区交换机,接入灵活性不佳
- 网络配置采用手工或脚本进行,效率低下切极容易出错
- 防火墙配置量极大
• ACL 5W条
• 年变更量1W,周变更数百条
• 防火墙变更在总体变更的60%
- 防火墙策略有效性、策略冗余性
- IP地址手动分配,周期长 效率低
- 部分业务不支持SNAT
- 网关位于LB上故障域较大
网络设计要求
- 网络资源调配的敏捷快速,流程简单高效安全
- 网络容量支撑高并发抗冲击,具备灵活按需扩展要求,高可靠
• ECMP
• 较强缓存队列能力,环节突发流量
• 接入层收敛比3:1,接入-汇聚-核心收敛比2:1
- 高带宽、低延时,架构可伸缩、开放性、兼容性
- 完善的安全体系,应用可视化、管理自动化、排障便捷化
- 云化要求,东西向流量增大,二层拓扑变大且需要隔离广播风暴,并支撑多活站点,支撑更大的MAC表项、主机路由表项
网络功能要求
- VM接入,考虑云平台与网络控制器的兼容性,KVM、VMware、openstack
- Docker接入,K8S对接适配自动化下发网络配置
- 存储数据网络
• 三层IP网络
• 二层存储网络 FC-SAN
- 备份数据网络
• 不经过安全设备
- 统一通信
• 强调总部-分支通信
• 延时小于150ms,丢包小于1%,抖动小于20ms
- IP语音系统
• 强调同城通信
• 延时小于150ms,丢包小于1%,抖动小于20ms
- 呼叫中心
• DMZ规划SBC 会话边界控制器
• 延时小于100ms,丢包小于0.1%,抖动小于10ms
- 视频会议
• 延时小于200ms,丢包小于1%,抖动小于50ms
- 视频监控系统
• 每路监控5-6Mb/S
• 延时300ms,丢包小于0.5%
网络属性要求
- 高可用性
• 控制器故障不影响数据转发
• 不允许出现广播风暴
• 单链路、单设备点故障不影响业务
• 版本升级、备件替换不影响业务
- 灵活扩展性
• 网络架构标准化,服务布线标准化
• 服务器接入位置与业务无关
• DMZ业务链可编排,灵活插入VAS服务
• L2 L3与L4到L7解耦便于VAS扩容部署
- 高安全要求
• 多租户隔离、租户内部安全隔离
• 防火墙资源池化、软件化、虚拟化
• 同网段IP的微分段安全
- 自动化要求
• IP地址自动化分配
• 对接云平台,VM资源与网络资源联动自动化部署下发
• 支撑L4 到 L7统一纳管、配置自动化下发
- 网络运维要求
• 15Min内恢复业务
• 转发路径、转发质量、网络拓扑可视化
• 轻量级故障定位、实时监控工具
• 自动化网络与业务关联分析
金融云数据中心设计目标
- 高可用 spine-leaf+vxlan+evpn+m-lag
• 99.999%可用性,故障域隔离
• 网络故障自愈
• 消除2层环路
• 消除、优化BUM流量,检测并具备阻断异常流量功能
• underlay为存IP网络,VLAN终结在边缘
- 高安全
• 端到端立体化安全防范
• 安全组、微分段安全、分布式软件防火墙
• 支持SFC (service funcation chain)业务服务链
• 安全控制器统一管理防火墙策略下发
• 大数据、安全控制器、网络联动控制器
- 高性能
• ns级低延时、0丢包
• 10GE/25GE接入,40GE/100GE上行
- 灵活扩容,计算、存储资源大规模池化
• 物理分区接入能力7000+
• 物理分区支持跨机房模块部署,服务器接入与物理位置解耦合
• 优化数据中心内部物理分区划分,合并物理分区,提高计算存储资源池化后的共享能力
- 自动化与服务化,对接云平台按需自助便捷快速交付,支撑业务快速上线
• 自动化2、3层网络配置、负载均衡、防火墙策略自动化部署与回收
• IP地址资源自动化部署、回收
• 计算节点供应流程自动化绑定网络服务
• 服务化架构SDN控制器,提供北向rest api
- 运维可视化、智能化
• 拓扑可视化、资源可视化、流量可视化、转发路径可视化
• 流量热点地图、全流量可视化
• 硬件故障预测
• VM画像
金融云数据中心设计原则
- 高可靠性原则
• 7 * 24 h 运行
• 应用同城双活、异地灾备保证业务连续性
• 考虑网络故障域规模,避免故障域过大导致的架构风险,控制BUM流量、避免二层环路
- 高安全性原则
• 业务类间隔离,明确访问关系
• 按需部署防火墙、就近防护、单侧执行,改进安全分区规划、提升策略自动化管理能力
- 高性能原则
• 高带宽、低延时
• 满足分布式存储、分布式数据库、大数据分析平台等重载应用网络的带宽需求
• 满足云数据中心网络高扩展性要求
- 可维护、易管理原则
• 部署结构标准化,逐步提升自动化能力,减少业务部署工作量
• 构建统一的网络运维体系,可视化、极简运维、快速排障
- 前瞻性原则
• 高带宽、低延时、大缓存
• 10GE/25GE接入,40GE/100GE上行
• 支撑SDN、云计算平台、实现网络自动化
- 可演进原则
• 支撑数据中心向云化、分布式演进
• 兼顾传统网络与新网络架构
运营商数据中心网络架构与演进
运营商数据中心体系
- 三级DC架构:骨干DC - 中心 DC - 边缘 DC
- 对外业务:机架出租、公有云、CDN、IPTV、城域网管道业务
- 对内业务:语音数据通信业务、运营商运营IT系统
业务驱动ICT数据中心
- 提高资源使用率降低成本
- 分钟级排障、主备倒换5分钟内,交换机提升到40GE
- 业务开通时间缩短到分钟级
- 支撑海量租户,开发的标准
- 数百数据中心统一管理
运营商数据中心设计目标
- 管理支持MANO、openstack。拉远管理网络、计算资源
- open stack成为事实标准
- spine-leaf架构,多级数据中心具备横向扩展能力
- 大规避SDN控制器
- 全网去堆叠,M-LAG、ECMP接管流量,升级流量中断小于5s,保障移动业务不中断
- 数据中心向hybrid overlay分部署组网演进,满足NFV、PNF
- 支持ipv4和ipv6双栈