201701

一个暂时的好方法
比如mysql故障,结合后端应用查看,看对应跑的是什么应用,这很重要。关注业务上去了。

好多东西多需要深入,成为系统性,有思想性的解决方案
故障总结
目录
1.故障分类
2.故障分类的发生的概率
3.跟踪系统调用,接口调用,要求最全的日志
4.针对以上要求,监控出报告
5.解决故障的方法
上代码->监控
5.1测试
dubbo测试,调用测试,循环调用测试
比如几十个接口,跳过接口测试,或者按比例测试
5.2开发
安全调用接口
5.3运维
监控报警没到位,监控不全
1.比如各系统之间的调用
2.比如监控明细和一定程度的报警
尤其是mysql监控,不仅要监控性能,更重要的是一些参数比如连接数和锁表数,mysql表大小
5.4是否早有迹象

具体待补充。
1.数据库故障

案例

1.dubbo调用接口不通

排查
1.日志显示卡在ftp这块
2.tcpdump -i eth0 dst host ftpip tcp层面确认
3.具体考虑算法问题,比如ftp递归算法问题,找出来的东西太大以至于无响应,需要修改算法
4.或者有可能是sql语句超时
5.后者接口超时

解决
1.测试的覆盖不够
2.以最少的配置文件去运行
3.开发必须注意 ftp连接方式,不能重复链接,必须复用或者减少连接