摘要:

虚拟化将操作系统和应用程序与计算机硬件资源分离.通过使用虚拟化技术,可以提高数据中心的资源利用率,保证系统的高可用度,降低运营成本.然而,虚拟化系统架构存在一个明显缺陷,即单点失效.虚拟化服务器的结构依赖特性影响其维修活动:一方面,虚拟机管理器的维修操作会影响其上所有虚拟机的运行;另一方面,多个虚拟机的维修行为存在竞争关系.这些影响给虚拟化服务器的维修决策管理带来了新的挑战.因此,考虑虚拟化服务器部件间的结构相关性,研究多部件虚拟化服务器的维修决策及数据中心多服务器的维修决策问题成为了亟待解决的新课题. 本文针对受到软件老化影响的计算机软件系统,尤其针对虚拟化服务器的抗衰决策与优化研究中存在的软件退化过程建模不精确,仿真建模耗时,超高维模型求解困难等问题,进行了虚拟化服务器及数据中心多服务器系统的抗衰决策建模与优化研究,主要研究工作如下:

(1)软件老化过程建模与分析 通过搭建一个基于Xen的虚拟化服务器系统,在该系统中实现了检测内存泄漏,获取系统状态若干性能指标的实验环境,分别采用故障恢复策略,基于时间抗衰策略和基于状态抗衰策略等三种系统维护策略进行了实验并采集了数据,使用极大似然法估计了软件老化过程模型参数.

(2)软件系统状态可测条件下基于固定周期检测及非定期检测的抗衰策略建模与优化 在软件系统退化特性已知条件下,通过固定周期或非定期检测获取系统退化状态,分析系统在维修决策点之间所有可能状态转移基础上,建立了退化状态稳态概率密度函数的全概率计算模型,给出了数值解法,以此为基础,建立了基于半更新过程理论的系统长期平均可用度模型.

(3)VM和VMM间存在结构依赖关系的多部件虚拟化服务器的抗衰策略建模与优化 扩展了单部件抗衰策略建模方法,在分析两部件在抗衰决策点所有可能的状态转移的基础上,建立了系统联合状态概率计算模型,建立了系统的长期平均可用度模型,并给出了优化方法,通过数值实验验证和分析了模型的正确性及优化求解的有效性.

(4)采用冗余方式部署应用的虚拟化服务器的抗衰策略建模与优化 利用虚拟机可快速挂起,停止,重启及迁移等特性,给出了基于在线迁移的抗衰策略,推导了应用服务器可以成功迁移的概率,得到系统的平均可用度和平均维护费用表达式,最后给出抗衰决策模型,通过数值实验,验证抗衰策略模型的正确性及优化求解算法的适应性.

(5)云数据中心环境中多虚拟机动态抗衰策略建模与优化 将多虚拟机中退化失效和随机故障多发情况下的抗衰决策优化问题形式化为Markov动态规划问题,针对超高维优化求解费时问题,提出了基于健康指数的启发式抗衰策略,推导了抗衰策略模型中健康指数函数的解析表达式,通过仿真实验对该抗衰策略进行了评估,验证了抗衰决策模型求解方法的正确性和有效性.

展开