数据库OGG故障OGG-01705
原创 2021-04-15 03:14:15
1526阅读
问题现象: 公司客服的电话录音每次只有11秒,这不正常。解决方法: 和开发CRM系统的人沟通后,对方说要做端口镜像。把A服务器1网卡和B服务器的2网卡镜像步骤:     1 跑去机房,接上笔记本,登上交换机 H3C S1550, http://192.168.0.234           2 端口管理---端口镜像,这里用4
原创 2014-03-06 16:07:05
694阅读
早上例行巡检的时候发现后台签到数只有5000多,前几天每天早上都有8000多的,咋下就变5000多了呢?然后就开始了漫长的排查过程。首先想到的是dns解析的问题。因为后台有大量的签到数,说明网站是正常的。能够下子掉几千的签到数,有可能是某地区的DNS服务器解析出问题,抱着怀疑的态度在DNSPOD上对签到服务器的域名进行了解析诊断。诊断结果为47个DNS解析正常。排除了dns的解析问题后,就想着
原创 2015-01-23 10:10:52
687阅读
masterha_check_ssh  --conf=/etc/mha4mysql/app1.cnfFri Mar 30 17:49:06 2018 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.Fri Mar 30 17:49:06 2018 - [info] Re
原创 2021-12-05 16:46:45
429阅读
运行ansbile时候报错:[root@localhost pyhook-2014-06-09-17:47:17-2454]# ansibleTraceback (most recent call last):  File "/usr/bin/ansible", line 25, in <module>    from ansible.runne
原创 2014-08-15 10:10:43
10000+阅读
故障现象:kafka有3个Partition分别为0,1,2,在实际运行中发现consumer只能收到Partition:0和Partition:1的数据,检查topic状态均正常。查找Partition::2的Leader为92,如下所示:进步检查92的server.properties配置文件,发现advertised.listeners字段没有填写,填上后便恢复正常。如果advertise
原创 2018-01-09 14:02:09
2502阅读
1点赞
1评论
今天接到客户的电话,说上不了网了,我二话没说,赶紧蹬蹬的跑到那去, 打开电脑,看到网卡没有显示出来,初次判断是网卡没插紧,赶紧打开机箱盖,把网卡按下~电脑显示查到硬件,   本来欢喜十分,想想这么个小问题,很好解决的,但是,却发生了奇怪的事情,   windows xp找不到驱动,看了下网卡的型号,是阿尔法的8839D的型号,按理说不可能会出现这样的问题呢。 &n
原创 2006-08-28 16:09:05
969阅读
1评论
大周末的,接到同事电话,说服务器不通了,服务器在公司机房里,没有远程控制卡,说让我去看下,接上显示器,发现满屏幕的“sd 0:1:1:0 rejecting I/O to offline device”,无法远程连接服务器,我就按电源重启了。重启后能正常使用。把这个报错到网上查了下说这个sd 0:1:1:0 被踢下
原创 2014-01-05 16:07:40
4368阅读
1评论
        ceph存储集群是建立在两台服务器上面,两台服务器各有4个OSD节点,上班的时候发现,两台服务器上其中台服务器上4个OSD节点全部掉线,重启OSD节点后恢复正常。查看OSD节点日志后发现,整个故障过程如下:1. 单个OSD节点接收不到另外台服务器节点上的所有OSD心跳信息,日志记录如下2016-03-21 17:43:
原创 2016-03-24 10:40:53
10000+阅读
故障发生时间2023年4月12日故障发生现象无法启动虚拟机启动虚拟机,报错权限不足,无法访问文件,打不开磁盘"******"或它所依赖的某个磁盘快照,启动”Disk”模块失败故障解决过程找资料,网上的解决方案是删除以.lck为后缀名的文件夹,将 .vmx文件中的vmci0.present = "TRUE"改为 vmci0.present = "FALSE"按照网上的教程操作后出现了新的错误再次查询
原创 2023-07-31 11:01:14
109阅读
事故背景:物理机(192.168.200.10)安装了KVM虚拟化,虚拟化的机器无法正常启动,进入vnc界面查看到linux系统在读取硬盘的时候需要30s-60s左右,正常启动的话几秒钟即可。怀疑是和硬盘有关系。解决思路:1、查看当前系统硬盘负载情况2、查看哪个进程占用了硬盘IO步骤使用iostat–x1iostat还有个比较常用的选项-x,该选项将用于显示和io相关的扩展数据。如图rrqm/s
原创 2019-08-12 15:45:07
1543阅读
1点赞
本文主要记录了一次vSAN下的磁盘故障排查操作,问题的发现、排查、解决,以及总结
原创 精选 2022-02-09 14:07:26
4471阅读
1点赞
   前阶段同事迁移Zookeeper(是给Kafka使用的以及flume使用)后发现所有Flume-producer/consumer端集体报错:07 Jan 2014 01:19:32,571 INFO [conf-file-poller-0-SendThread(xxx:2181)] (org.apache.zookeeper.ClientCnxn$SendThrea
推荐 原创 2014-03-01 11:29:26
10000+阅读
2点赞
故障描述:客户端得不到ip,三层核心设备是cisco6509,二层是h3c e528查看二层交换机配置,dis int bri ,查看哪个口连接电脑,dis dhcp-snooping 查看哪个口得到ip,哪个没得到ip,dis cu 查看端口下有没有stp edged-port enable,如果是cisco二层交换机,则看端口下是否有 spanning-tree portfast在相
原创 2017-08-22 10:31:22
3565阅读
1点赞
前言 下面信息裁剪了些,有的不确定了就拍脑袋定了,大体情况还是和实际相似。 整体过程 最开始接到告警 个周六的 9:00 接到钉钉告警A应用线上 499 数量大量增加, A应用的背景介绍 先说下A应用的背景,我们A应用每天上亿访问,主要是给别的厂商买接口的,按照各个厂商的调用量收钱,A 应用的
原创 2022-04-02 11:26:53
319阅读
   今天下午发现公司的activemq消息系统异常,在某个topics上堆积了大量消息,后来发现是有开发同学直接在生产环境上测试,以durable subscription方式订阅消息,应为是测试, 消费不及时, 导致大量消息堆积。    停止activemq后重新启动, 发现服务总是起不来, 查看日志文件有如下异常 2011-09-16 1
原创 2011-09-16 17:05:32
4259阅读
Error 503 Service Unavailable Guru Meditation:
原创 2014-06-03 15:29:23
2045阅读
1点赞
2评论
、现象内网路由器默认为DHCP服务器,提供DHCP服务,下面有5个网段,忽然有天4网段内的主机获取的IP地址不是内网路由分配的IP地址段,造成4网段通过DHCP上网的主机无法自动获取合理的IP上网。二、解决办法(1)所有设备的进行静态地址绑定缺点是比较麻烦,此网络中PC都是静态地址,有个无线AP是给无线设备提供IP的,如果改为静态绑定,需要每个手机都进行静态IP绑定,比较麻烦,不能完全解决问
原创 2014-09-16 10:50:57
10000+阅读
一次lnmp 502故障
原创 2018-03-07 21:12:18
695阅读
问题描述:应用生产环境宕机故障,通过GC日志初步判断是频繁FullGC失败造成进程挂掉,为了止损临时解决方案是调大oldgen空间大小并重启应用。根据监控可看到OldGen使用空间逐渐增加。问题排查:通过分析分析内存溢出时的dump文件,得知老年代中有99%的内存空间都被HashMap对象占用继续分析可以看到溢出风险点ExecutionRuntimeManager类对象中,而且可以看到有多个场景线
原创 2021-01-22 12:43:49
848阅读
  • 1
  • 2
  • 3
  • 4
  • 5