常用日志异常识别算法,
LogClass算法是基于有数据标签的场景(即哪些日志是正常的,哪些日志是异常的);
DeepLog是无监督的方法,不需要提前准备数据标签;
日志的根因定位算法FOCUS,是基于系统日志快速分析是什么条件造成了响应时延增加;
SyslogDigest是专门针对网络设备的syslog进行分析的算法,可从原始syslog产生有实际含义的、可按优先级排序的网络事件;
FT-tree是一种通用的日志模版生成方法,在日志模版生成后可以应用到日志的分类和统计、异常检测等领域中,从而大幅度提高分析人员的效率。
FT-tree是一种拓展的前缀树结构,表示系统日志消息模板,是根据频繁模式树(frequence pattern tree, FP-tree)转变而成,FT-tree准确率较高,并且支持增量学习,基本思想是,系统日志消息中详细信息字段的子类型通常是频繁出现的单词的最长组合。因此提取模板等价于从系统日志消息中识别出频繁出现单词的最长组合。
基于FT-Tree算法建立的算法模型,天然支持增量学习,可以很好地处理流式日志,随着日志的增加,不断完善和更新模板集。在具备了日志模板后,便可以很容易地将各种不同的日志转为模板序列,对其进行频率统计、变量分布识别,从而进行异常检测。
FT-Tree本质上是一种基于词频统计的词典树构造-检索算法。相对于传统模板提取方法(如聚类方法),FT-Tree可以以线性时间完成更高精度的提取,在训练样本数据量较大(千万级别)时优势更加明显。
计算模板编辑距离的方式评估模板提取效果,并对非常相似的模板尝试聚合。