什么是网络弹性

弹性是网络处理中断并继续以可接受的标准向用户提供服务的能力。网络运营可能会受到配置错误、断电或操作员错误等问题的威胁。当这种可能性发生时,最终用户无法访问网络,从而对组织产生负面影响。高度弹性的网络可以通过在网络运行中断时恢复网络操作来防止这种情况。

  • 弹性网络在现代 IT 组织中的重要性
  • 冗余与弹性
  • 如何规划停机时间
  • 提高网络弹性的 7 个技巧
  • 使用工具监控网络弹性

弹性网络在现代 IT 组织中的重要性

现代 IT 组织中几乎没有停机的余地。Gartner计算出,一个组织每停机一小时就会损失约300万美元,还有其他研究发现这个数字是保守的。停机在两个层面上影响企业:由于业务中断而导致的实际资金损失,然后是经常被忽视的声誉损失;毕竟,人们讨厌看到蓝色错误屏幕或丢失他们输入的所有信息。

为了解决这个问题,公司在其 SLA 中提供了更好的条款;例如,五个 99 的可用性为网络操作提供高达 999.<>% 的正常运行时间。这提供了每天大约一分钟的停机时间。只有通过高度弹性的网络基础设施才能实现如此高的标准。

冗余与弹性

保证网络持续运行的一种方法是进行故障转移。这称为网络冗余。冗余网络具有多个能够执行相同操作的设备。当其中一个出现故障时,另一个将开始工作并恢复其正常的网络操作。

这方面的一个例子是防火墙,这些防火墙与它们所保护的网络有重复的连接。辅助防火墙定期接收来自主防火墙的运行状况报告。当它在一段时间内没有收到报告时,它会假定主数据库已关闭并接管其功能。次级设备假定主设备关闭并发挥其功能所花费的时间称为交叉。

虽然冗余是防止停机的严肃方法,但弹性更加微妙。它涉及恢复网络操作,而不是直接替换它们。网络每天都会遇到很多大大小小的问题。为所有这些计划冗余既困难又昂贵。我们可以通过减少故障识别和解决时间来解决此问题。

传统弹性网回归模型 弹性网络_网络管理

与网络冗余和弹性相关的一些术语:

  • 高可用性:这是一种冗余类型,通过立即切换到故障转移来最大限度地减少停机时间。例如,高可用性路由器经常检查其主要设备的状态。发生故障时,它们会接管操作。
  • 容错:有时,主设备可能出现故障,并且在辅助设备检查其状态并接管之前可能会有延迟。用户在此期间输入的信息可能会丢失。容错系统通过让主设备和辅助系统分担负载来消除这种延迟。两个服务器都检查彼此的状态。当其中一个发生故障时,另一个承担全部负载。这样,即使其操作受到限制,网络也不会完全瘫痪。
  • 复制:网络复制是一种通过将主数据库中的所有数据即时镜像到辅助数据库来实现冗余的方法。主服务器和辅助服务器将同步,数据丢失将降至最低。
  • 单点故障:该术语是指网络中可能中断其整个操作的漏洞。这可以是放置网络的防火墙,也可以是负载平衡器,也可以是将其连接到WAN的电缆线。网络管理员应尝试消除单点故障。

如何规划停机时间

停机通常有三个原因。已知原因是您知道并计划的原因。维护和升级属于此类别。您可以安排这些,以便它们不会以任何主要方式影响网络操作。

然后是已知的未知原因。这些原因不是有预谋的,但您确实知道当它们发生时在哪里寻找答案以及如何解决它们。这包括配置错误、人为错误、设备故障或网络中断。您必须快速找到问题的原因并纠正它。

最后,还有未知的未知数。这些是您无法控制的事件,例如飓风、洪水、雷击或人为灾难。处理未知未知的最佳方法是将数据存储在多个站点、云存储或数据中心中。

提高网络弹性的技巧

使网络能够防止停机是很困难的,即使完全遵循标准和准则,也可能存在一些管理员无法避免的问题。话虽如此,做好准备总是有帮助的。在此处列出了一些提示和措施,管理员可以遵循这些提示和措施来提高网络基础结构的弹性。

  • 在组织的所有级别实现冗余:冗余通常是提高网络弹性的最佳方式。您可以在组织的不同级别实现冗余,以最大程度地减少中断。在机器级别,这可以是冗余处理器、操作系统和数据备份。在设备级别,这是指单点故障设备(如路由器)或对网络操作至关重要的设备(如某些服务器)的冗余。通过数据中心或云存储在站点级别实现冗余 - 即使发生大规模停电或自然灾害,也能保证持续的网络运行。
  • 消除单点故障:无论您的安全措施多么先进,单点故障都可以将其全部摧毁。单点故障通常可以意外发现。例如,我们已经看到与网络防火墙的冗余连接通过同一条线路进入建筑物。这些电缆中的一些中断可以一举消除主防火墙和冗余防火墙。使用负载平衡器的容错系统也可能发生故障,因为负载平衡器通常是单点故障。您需要分析网络中的单点故障,并想出消除它们的方法。
  • 确保恒定供电: 停电可能随时发生,可能持续不可预见的时间,并可能完全中断您的网络运营。因此,发电机和不间断电源是一项不错的投资。您需要在维护操作期间定期检查不间断电源设备,以查看它们是否正常工作。安装备用发电机也是一个好主意,以防主设备在中断期间出现故障。
  • 执行定期升级和维护:定期升级和维护是健康的弹性网络的关键部分。如果不进行定期升级,您的软件可能会变得不受支持,并使您的运营面临风险。必须对路由器和交换机、操作系统、关键软件和反恶意软件等设备的固件进行定期升级。还需要定期进行计划维护,以保持设备处于最佳状态并平稳运行。
  • 测试备份:最好在维护操作期间检查数据备份,以查看数据是否已备份且安全。发现您的备份在发生中断后不起作用是一种非常令人沮丧的体验,可以很容易地避免。根据存储数据的性质,可以更改备份频率。应更频繁地备份关键数据,以减少数据丢失的可能性。备份也应存储在远程数据中心,以防止由于火灾或其他灾难而丢失备份。
  • 确保适当的冷却:设备在运行时会产生大量热量。冷却系统用于将其温度保持在可控的水平。拥有一个可靠的独立冷却系统,可以在停电或自然灾害(如大雨或洪水)期间运行,这是绝对必要的。
  • 遵循重要文件的正确命名约定:人为错误通常是由意外删除重要文件或密钥引起的。可以通过组织内适当的命名约定来避免这种情况。为重要文件启用软删除功能也有助于还原它们。

监控网络弹性的工具

使用网络监控工具监视网络是保护网络免受停机影响的最安全选择。这样管理员可以及早发现网络问题并主动修复它们。OpManager是一种网络监控工具,可监控网络中的所有组件,并生成有关任何差异的实时警报。对网络的这种深入可见性肯定会有所帮助。但是OpManager通过其先进的故障识别和解决功能,在提高网络弹性方面更进一步。

  • 自适应阈值:OpManager的ML支持的自适应阈值通过消除误报和警报洪水来帮助您优化故障排除。OpManager在为期三天的培训期内研究您的正常网络性能,然后设置每小时阈值以适应您当时的网络活动。
  • 自动化工作流程:通过自动执行基本故障排除操作来提高网络弹性。您可以为重新启动已停止的服务、清除冗余警报、检查设备是否响应以及执行脚本等操作创建工作流。
  • 根本原因分析:如果发生中断,管理员必须尽快找出导致中断的原因。OpManager的根本原因分析配置文件可帮助管理员关联多达20个实体的数据,以追踪中断背后的根本原因。

OpManager 提供全面的网络监控功能,可帮助管理员监控网络性能,实时检测故障隐患,保障业务系统高效运行。并且拥有强大的实时可视化监控功能,让管理员获得对整个网络基础架构的完全可见性和性能控制。