复盘:没有照清楚自己的受阻点,一直磨蹭

如何跟他们直接拿论文的去竞争;你的目的是什么?——介绍,经典案例,那重要的能力,是把一个不懂的东西介绍的能看懂,把一个差不多的东西进行引入,仿佛是自己设立的一样——可视化的效果需要通俗易懂

先进行模型的遍历吧-关键词-时间序列-因果分析-相关分析

python求两个时间序列的时滞相关性_时间序列

一个主要的挑战是如何自动和准确地将波动从具有不同结构特征(如季节、趋势和平稳)的kpi的正常变化中分离出来。在本文中,我们提出了CoFlux,一种无监督的方法,自动(无需手动选择算法拟合和参数调整)确定两个kpi是否与波动相关,它们波动的时间顺序,以及它们是否在同一方向波动。CoFlux的鲁棒特征工程和鲁棒相关评分计算使其能够很好地应对不同的KPI特征。

主要针对KPI的波动?而不是总体数值?这样 KPI的影响会差异很大吗,目的是为了消除什么,满足什么假定吗;并且还考虑波动的先后顺,以及是否同向还是反向

矿石相关kpi形成相互交织的波动,使事件解决和根本原因分析[6]变得复杂。在不了解它们之间的关系的情况下,运营商很难对由交织波动触发的警报进行优先排序,并识别可能的事件影响。
大的波动可能是异常的,经常表现为突然的峰值或下降的[3]。如果一个KPI的波动与另一个KPI的波动相关,那么我们定义两个KPI是通量相关的。请注意,通量相关性不同于KPI相关性,后者通常使用KPI的原始值进行计算。当考虑到两个与通量相关的kpi的原始值时,它们可能是不相关的。例如,如图1(a)所示,K1和K2(或K1和K3)的原始值与算法不相关,如皮尔逊相关[7]。然而,如图1(b)所示,这两个kpi的波动呈高度相关性,因为它们通常是同步发生的或按顺序发生的。因此,对通量相关性的分析应该基于波动,而不是基于原始的kpi。
核心思想是原始值和波动的差异(改造KPI)

统计模型ARCH[10]、VARMA[12]和协集成[13]已被开发出来,用于分析股票价格变化的相关性,或研究跨股票市场的波动性等。然而,这些模型不能很好地解决我们的场景中的通量相关问题,因为它们不能准确地识别kpi的波动。

另一个相关领域是原始时间序列之间的相关性分析。皮尔逊[7]和斯皮尔曼相关性分别关注原始kpi之间的线性相关性和等级相关性。它们不能很好地处理波动,特别是当两个kpi有不同的模式时,如季节性和相移格兰杰因果关系[14]通过一个KPI是否对预测另一个KPI有用来确定两个KPI之间的相关性。然而,在我们的背景下,波动通常是由意外事故引起的,可能不能通过回归来预测。因此,这些方法并不能很好地解决我们的通量相关问题。

波动提取没有通用的机制。不同的kpi通常具有不同的时间序列特征(如季节、平稳和趋势)[15],需要特定的模型来捕获 其波动[3]。通常,互联网公司存在10k到100万个kpi,手动为每个公司寻找合适的波动提取模型是耗时和不现实的。因此,设计一个对不同的KPI特征具有稳健性的通用波动(即通量特征)提取机制是具有挑战性的。

两个与通量相关的kpi可能呈现不同的交互模式。在实践中,kpi可能会同步波动,或以延迟的顺序波动。此外,有时,当一个KPI急剧下降时,一些kpi会出现大幅下降,而其他kpi则会出现峰值。这些模式使通量相关分析变得复杂

CoFlux通过使用两个kpi的不同通量特征之间的最佳互相关[17]得分来计算两个kpi的通量相关得分。直观地说,如果两个kpiX和Y是通量相关的,那么来自X和Y的最佳通量特征也是相关的。不需要事先或手动识别这种最佳的通量特征对,这使得CoFlux对不同的KPI特性具有鲁棒性。

因此,预测误差在分析波动时非常有用。在本工作中,预测误差被视为波动特征,称为通量特征。因此,用于预测的具有特定参数的时间序列模型是一种特征检测器。我们可以通过不同的时间序列预测模型为KPI创建许多通量特征——所以本质还是得预测,判断是否偏离了其期望数值

通量相关性。在本研究中,对于KPI对X和Y,我们首先确定它们的波动是否相关,即通量相关。我们定义X和Y是通量相关的,如果它们的通量特征是相关的,则记为XY。XY,如果X和Y不是通量相关的。例如,图1显示了6个kpi及其通量特征。k1和k2的通量特征看起来高度相关,所以它们与通量相关,即k1k2。然而,K1和k4不是通量相关的,即K1k4。当两个kpi与通量相关时,我们将继续了解它们的时间顺序,以及它们是否向同一方向波动,如下所述。

通量相关性的时间顺序。来自两个kpi的波动可以同步或移位一些间隔。具体来说,我们使用X→Y来表示X在Y之前波动的情况。如果它们的波动同时发生,我们表示为X↔Y。如图1(a)所示,K2和K3的波动发生在同时的时间,即K2↔K3,而K1在K2和K3之前波动,即K1→K2、K1→K3。

通量相关方向。当X和Y的波动相关时,相关性可以是正相关的,也可以是负相关的。如果X的波动是增加,而Y对应的相应波动是减少,则它们的通量相关性为负,记为X−←→Y(或X−−→Y)。另一方面,如果X的波动是增加(或减少),而Y对应的相应波动也是增加(或减少),则它们的通量相关性为正,记为X+←→Y

特征工程作为该体系结构的关键组成部分,是寻找合适的时间序列模型作为我们的通量特征检测器。虽然已经提出了许多模型来预测时间序列,例如MA(移动平均线),TSD(时间序列分解)[19],但每个模型只能很好地适应时间序列的某些类型的特征。例如,对于图1(a)中所示的两个kpi,K4具有较强的季节性,而K5是稳定的。对于季节性kpi,TSD和历史平均值等模型可能是合适的。MA或加权MA可以更好地预测稳定的kpi,因为它们的预测主要依赖于最近的值[20]。当然,没有一种通用模型可以准确地预测任何类型的kpi。正如在第1节中所提到的,挑战在于我们有大量具有不同特征的kpi。手动为他们每个人搜索一个合适的预测模型将是非常耗时和不现实的。

因此,我们不能依赖于一个单一的时间序列模型来提取通量特征。相反,为了使CoFlux具有尽可能的通用性,我们采用了几个公认的具有相应参数的模型作为通量特征检测器。这种设计基于以下两种直觉:对于任何给定的KPI,如果我们调查广泛的模型,将会有一个或多个模型能够足够精确地预测其正常观测结果,并产生接近真实的通量特征。

如果两个kpiX和Y是通量相关的,那么X的至少一个通量特征和Y的一个通量特征是相关的。我们将在第5.4节中使用广泛的实验来验证这两种直觉。通过提取通量特征,我们继续通过去噪和放大来改进它们

为了确定通量相关性,对于每对kpi,我们通过交叉关联[17]计算其通量特征上的成对相关性,这是一种被广泛接受的时间序列相似性度量。然后,使用最大值来确定这两个kpi是否与通量相关。由于我们在CoFlux中包含了许多通量特征探测器,一些可能能够提取接近真实的通量特征,而另一些可能由于不准确的预测而产生误导性的通量特征。对所有流量特征或多数投票的决定进行平均将产生假阴性。当然,我们只考虑最大值的方法可能会导致潜在的假阳性。我们将使用第5.4.1节中的实验来证明,使用良好的通量特征检测器,假阳性率很少。

Diff[3]只是单独使用最后一天或上周的值来预测当前的值。Holt-Winters[21]使用三个平滑方程(水平、趋势和季节成分)计算预测值,三个参数范围从0到1。历史平均/中位数[18]计算窗口内历史数据的平均/中位数作为预测。TSD(时间序列分解)[19]从一个KPI中提取四个成分:水平、趋势、季节性、噪声,然后使用前三个成分的和进行预测。TSD的中位数与TSD相似,但在计算这三个成分时,它使用了中位数而不是平均值

通过我们的实验,我们发现其中一些模型,如MA(移动平均线)[20],WMA(加权MA)和指数WMA,在从我们的测试kpi中提取通量特征方面表现不佳

python求两个时间序列的时滞相关性_算法_02

成功安装eviews,下一步导入两个股价数据,然后尝试分析格兰杰因果

可以把模型大概的形式或者过程调取出来了

现在最大的问题是不知道这几者如何结合,事件研究法涉及到的预测不太需要考虑了,不过可以考虑如何充分发挥可视化的价值

具有可移动性的  不一定走格兰杰,其实更倾向于自相关的计算

数据预处理
模型基本确定,下一步看一下格兰杰因果分析如何操作,还有指标选择,可以先列举指标集合?
这种相关性是为了硬凑的吗,像清华那篇文章一样,选取尽可能多的dector实现特征的抽取

需要先观察一下股价变动的趋势和人数增长的趋势,再做判断

数据

核心问题:要不要做整段,还是分段选取?疫情什么时候才能成为主要因素,突破一定阈值时

这个确诊数据怎么处理,只能判断大的?小的动不了吗?
能不能只判断中间超强度的突变型?

用精妙的思想去打动,而不是使用一个繁杂冗余的事件去解说,没有必要,达不到目的,还有负面效果