故障症状有一个Centreon单节点监控系统(不含分布式),隔三差五的挂掉,幸好我们安排人手,时不时访问web管理后台,才没出现大的纰漏。其主要症状是Poller失效,但系统其它进程比如Apache、PHP、Centreon-engine等运行正常。在CentreonWeb管理界面重载(reload)或者重启(restart)cbd服务,无效;登录系统,执行指令systemctlstartcbd,
作者:田逸(vx:formyz,mail:sery@163.com)终于等到pbs发布正式版本pbs1.0,迫不及待去官网下载好proxmox-backup-server_1.0-1.iso文件,将该文件放到我的proxmoxVE的iso目录,创建好虚拟机,并以pbs镜像文件作为引导磁盘(当然,也可以克隆成u盘或者dvd光盘在物理服务器进行安装)。前期规划备份至少要考虑一下几个因素:容量:评估好
proxmoxVE超融合集群从上一次搬机柜重启以来,到现在已经连续运行超过700天了,庆祝一下。
热烈祝贺proxmoxve超融合集群连续无故障运行超过600天!
作者:田逸(v**x:formyz)需求描述两节点物理服务器,外挂虚拟化后的共享存储(两台存储设备),存储通过多路径与物理服务器直接连接。网络划分为三个:数据网络、心跳网络及管理网络(远程控制卡)。工具组件包括:rhel7系统,pcsd工具包(包括corosync等),oracle数据库。高可用HA资源包括:虚拟网络地址(vip)、oracle监听器、逻辑卷资源(LVM)、文件系统(filesys
更新系统及centreon源1、运行如下命令进行centos系统更新yumupdateyumupdate2、运行下列命令,更新centreon源。cd/etc/yum.repo.dcpcentreon.repocentreon.repo.bk20200514sed-is/19.04/20.04/gcentreon.repocd/etc/yum.repo.dcpcentreon.repocentre
故障描述查看pve管理后台概述,发现有告警,提示ceph健康告警。点这个黄色图标,得到更进一步的信息:有2个OSD磁盘塞满了。再用鼠标点击第一行“2nearfullosd(?)”右侧的感叹号,可确定序号为5与7的磁盘塞满了。处理过程确定被数据塞满的OSD位于哪些节点,然后在该节点删除没有运行的虚拟机或者不需要的虚拟机,以释放磁盘空间。确定磁盘位于哪些节点。从上图可知,两个塞满了数据的磁盘分别位于
情况描述四节点组成的proxmoxVE超融合集群,连续运行时间超过500天。每个节点除了系统盘而外,由四个单独的2.4T10000转sas盘做cephosd。监控发现,其中一个节点的一块硬盘处于down的状态,尝试修复未获得成功,登录系统,发现系统日志有大量的IO错误,由此判断,一定是硬盘物理损坏。再通知机房,请值班技术帮忙,现场查看硬盘指示灯状态,有一块硬盘常亮红灯,确认故障与判断一致。故障修复
pve5.X支持到2020年7月,到时系统将不能获得新的生机包,但对服务没有什么影响,可以生机,也可以不生。
Centreon涉及的部件似乎很多,按照常规的思路,如果要把配置和数据迁移到别的地方(比如换新机器),感觉上应该是比较麻烦的。大致考虑一下,就应该包含apache、php、centreon-engine、centreon-broker、数据库等各种配置。如果一个个的备份导出再导入,很累而且可能遗漏。不想这么干,于是就思量,能不能更简单一些呢?原理上讲,centreon与其它的机制有很大的不同,就是
今天为了把闲置的迷你pc连入家庭网络,以便用来测试。由于迷你pc已经部署好系统,又没有带显示器键盘,因此无法直接登录系统更改网络配置。于是就准备把网络结果重新调整。此迷你pc体积小,无噪音,配置还不错,用来做测试,最好不过呢!本来的网络结构,是移动宽带的光纤盒连一个华为的ws832路由,我嫌华为路由器的ip地址只能是192.168开头的,烦透了。而那个迷你机的ip是172.16.35.0/24,我
超融合集群无故障运行超过500天,从历史数据看,CPU资源绰绰有余,内存耗费较多,以后分配得精打细算。ceph分布式去中心化存储,每个osd(单盘)耗费大约5g的内存,如果一个物理服务器插8个单盘做osd的话,40g的内存就没了。因此,需要在硬盘存储容量、成本、性能与内存使用上做平衡:用容量大的,性性价比高的sas盘。例如,用10000转2.4t的盘4块,就比用15000转600g的盘(同等容量要
今天登录某个监控管理后台,发现图标颜色为黄色(正常颜色为绿色),如下图所示:这样的情况发生,导致的后果就是监控状态一致保持在某个时间点,不再正常履行监控任务:实际上可能有监控对象发生故障,但稍不注意,就会被疏忽掉,以为系统都正常呢!试着鼠标点击Configurepollers,进行输出操作.输出配置并重载。执行完,等待一会,并没有效果,只能另用他法。Ssh登录系统,查看与poller相关的服务,根
故障表现Web管理后台发现告警,如下图所示:Pve40这个节点的某个盘down掉了。问题排查ssh登录pve40这个机器所在的系统,执行df–h查看磁盘挂接情况,得到如下输出:通过挂接点名称(ceph-13)与故障osd的id相对照,可以准确无误的判断出物理磁盘/dev/sdc出现了故障。修复尝试在告知其它人发生故障以后,并确认故障处理不会导致任何负面作用的情况下,先试着从web管理界面选取故障o
定制输出日志的好处用户所有请求都通过负载均衡器,因此在此处收集日志,比在各后端真实服务器收集日志再汇总要有效得多。工作目标记录用户访问日志:haproxy产生。记录keepalived日志:keepalived启动、运行状态,用于排错。总体规划使用独立的分区存储日志。因keepalived日志内容较少,可与haproxy日志共用存储空间。比如我的项目里,用/data/logs作为日志的存储路
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号