#我们都爱看新闻#上周工行发生了一件非常有意思的事情,各位亲爱的网友都对此发表了具有鲜明个人色彩的评论。当然现在我们对事情本身不做评论,大家是当新闻还是当笑话这都与今天的话题无关,我们重点来探讨一下所谓的“系统升级”,为IT部门带来了什么挑战。
=====我是分隔线===========
因为我们要明白,今天我们能够坐在电脑旁边,是因为我们暂时没有被推出去背黑锅。
=====我是分隔线===========
灾备搞不好,小命就难保
看了不少靠谱不靠谱的言论,有一种说法是,这起码反映出了工行的灾备没做好。直观感受是,中国太多的用户发现了工行的故障,同时这也成了一次全国范围的新闻事件。
姑且不论是不是灾备没做好,首先一个问题是,对于一个需要7*24小时提供服务的企业,并且用户量巨大的公司来说,不论什么原因,在用户集中使用的一个时间段,中断了服务,这都不是一件很正常的事情。这次事件是一起IT方面的故障,因此IT部门在这里扮演了一个很不光彩的角色,很多同行心里一定在想,“xx的IT在吃屎是吧,我去做肯定不是这么一个结果。“
对于银行来说,今天你忽悠了用户,明天用户就改投其他银行的怀抱。毕竟人民币在中国作为一种等价交换物,通存通兑是起码的要求,在我需要的时候,就必须能兑换。用户对它的连续服务性的容忍性几乎为零。所以最初的IT规划和设计,就必须按照5个或者6个9甚或更高标准来设计。
试问如果是你,会如何设计?
流程太复杂,小命就难保
当然也有一些想得比较深远的同学,认为不是灾备没做好,毕竟以工行这种财大气粗的规模来看,灾备实在是不太可能不投入资金的,而灾备这东西,只要有钱,还真不是男式。因此他们认为主要原因是企业内流程太复杂(姑且当它是企业吧,你懂的),即使IT小兵发现有问题了,需要启动应急措施,也需要一层层上报,甚至可能会出现“领导在睡觉,不方便接电话”的情况,这个时候,再好的灾备也没法用起来。
一般来说,这个时候就是IT自动化和手动之间的一个权衡了,如果所有业务都是自动化的,那么很明显不会有矛盾,所有的一切根据工作流来处理了。但是我们知道,现阶段的IT业务,不可能做到所有都是自动化的,必然会存在一些人工需要参与的环节,比如审计、比如授权、比如验证,它们和IT无关,但是与业务流息息相关,无法抛弃这些环节。
作为boss、中boss、小boss,是否应该启动灾备恢复计划,这是一个很严肃的问题,到没到这个阶段,很难说。如果判断这个临界值,同样需要时间。或者说,不用启动灾备,找人排障来解决?
试问如果是你,会如何规划?
测试不做好,小命就难保
还有一些玩测试的同学会说,升级这么重要的事情,肯定有风险,干嘛不做好测试嘞?对于一个钱不是问题的企业(要知道很多企业现在钱是个大问题),测试是必须的吧?
诚然在企业中做什么事情,不管做什么,提前在测试环境中测试一下,或者完全模拟一个线上环境进行测试是很有必要的,不过这依然不能代表所有的用户,因为你不能完全模拟用户的操作,用户总是会突发奇想,他必然不会按照你的设计思路来。
试问如果是你,会如何测试?
预案不重视,小命就难保
马云说过一句话,是很久以前他做的一个演讲,说他和风投谈投资的时候,别人都在说我怎么怎么样,将来产品会怎么怎么样,一定会卖的非常好。在谈的前期,把风投的期望值拉高了,那么到最后不管你怎么做都是失败的。
马云说,在我做的最好的时候,我告诉风投,我会很倒霉的,我就是这么倒霉,在我最倒霉的情况下,你还会不会投我?
尽管最坏的结果一般来说不会出现,但是我们应该以这种导向为前提去设计我们的预案,因为预案本身就是为了最倒霉的情况而设计的。和上一节一样,如何裁定需要启动预案,它的临界值是什么,必须要有很明确的内容。
试问如果是你,会如何处理这些关系?
指定背黑锅,小命就难保
就和感谢当年室友不杀之恩一样,今天我们一样要感谢老板不裁之恩,因为不管是灾备、流程、预案,只要不出现问题,大家都相安无事,但是一旦出现问题,IT部门就是一个很好的发泄口。为什么会这样?因为技术人员是弱势群体,在很早我的一篇文章中提及,IT人员相对不善言辞,这是一个很不好的趋势。当多数决定少数人命运的时候,你的命运可能就已经注定了。
所以通过工行的事情,我只是想说一件事,甭管现在各位境遇好坏,我们要按照最惨的结果来规划,在这种前提下,怎么做都是成功的。
试问如果是你,会如何躲避背黑锅的可能性?
公司要倒闭,谁也跑不了
工行真的是一个特例,即使它业务中断的时间再长一点,可能我们很多用户还是不得不用它的产品,但是作为互联网公司来说,工行的成功我们无法复制,用户对你永远是最苛刻的。不要以为中断服务那么几分钟不重要,这其实非常重要,用户对公司不信任自然去别家玩。
公司流失了用户也就意味赚不到钱,赚不到钱也就意味没有你的奖金,没有加班费,甚至还得扣你的工资。瞧,这都是一环扣一环的。再惨一点,老板卷了钱跑路是很正常的,所以不管是运维的还是写码的,今天你多花些心思在工作上,将来这种事情发生的几率就小很多。
不要以为你不重要,其实你很重要,当你做到全年5个9的可靠性后,你特么就必须把它当做一件很伟大的事情来向老板汇报!