在淘宝,每天有1000多台服务器生成日志文件,日志总量大概有10T,每天成千上万的报表基于这些数据进行计算。有的报表每半小时计算一次,有的报表每天计算一次,还有些非报表应用需要实时进行数据分析。如何保证这些报表和应用按时收到自己需要的数据?每天10T的数据,换算成峰值流量是10T/12小时= 242.73MB/S,这么大的流量应该如何管理?
淘宝实时数据传输平台-timetunnel就是因这些需求而诞生的,目前在淘宝timetunnel使用三台服务器服务所有的应用,每秒钟实测流入流量峰值为50MB/S(压缩后),流出流量为130MB/S(压缩后)。timetunnel保证为所有的报表按时准备好所需数据,延迟不超过1分钟;保证为所有的实时应用提供实时数据,延迟不超过1秒。