【Page20】用一个已成为事实标准的存储系统来存储数据的话,我还没发现缺少什么,这个存储系统就是循环数据库(RRD)。RRD的基本思想是,随着时间的推移,一旦达到某个你选定的周期,则有意地降低数据的分辨率。这样做的理由是:大多数测量数据只是在最近的时间周期内有意义……

【Page22】测量数据的层次:应用层和业务层的数据存储在一个数据库(Mysql)中,采集频度是天,在夜里进行;功能特定的应用层数据存储在一个数据库(Mysql)中,实时采集;高分辨率的系统与服务层数据存储在RRD中,以15或60秒的帧度。

【Page44】连续部署的有点:1.小批量意味着更快的反馈;2.小批量意味着问题即刻被本地化;3.小批量能够减少风险;4.小批量可以减少总开销

【Page55】连续部署要求的第一个心态转移是:如果一个更新假设是“无副作用的”,马上发布;第二个心态转移是把市场发布的概念和工程发布的概念区分开。

【Page73】这个故事中的技术装备是你能想到的最简单的:只有一台web服务器,其他什么都没有。从中学到的第一点教训是,总有两种观点——技术人员的观点和最终用户/业务的观点。监控并不是设置一个系统,它是用来支持业务运转的,是用来保证系统中各个部分都在各司其职地工作着的。

【Page78】负载均衡器更接近于应用程序。在进行更新时,先在被动的负载均衡器上准备配置,然后再将主动负载均衡器切换为被动负载均衡器。

【Page82】对系统运行质量的测量通常能够对功能失效做出预测,这些测量集中在检查运行效率、吞吐量/性能、工作流的健康状况。大多数的环境检查都是主动式的,给出功能和质量的紧密关系后,这些检查经常组合成一项检查:即执行功能,检查看其需要多长时间。

【Page82】表6-8 各种检查

【Page83】同样的检查常常会在网络中的不同位置进行,例如,在这些位置执行简单的HTTP请求:Internet上、紧靠防火墙的外面、防火墙里面、负载均衡器的前面或后面、缓存的前面或后面、不同的网络区、同一主机上的另一个服务器、管理网络、主机上的web服务器。

【Page85】我们仔细分析了报警,发现三个主要问题。第一,如果多次报警基于同一原因,应该只发一次报警;第二,夜间,备份会在生产网络上产生很高的负载,这样由于响应时间变慢而导致多个ping失败,从而影响报警。第三,在夜间不要产生信息级别的报警,也不要产生非生产环境的报警。