NESSUS特征库更新

转载

mob64ca14040d22 2024-08-02 14:34:08

文章标签 NESSUS特征库更新机器学习数据挖掘 mapreduce 调优 文章分类 架构后端开发

因为才疏学浅，如有不对之处，请发邮件指点liedward@qq.com。非常感谢帮忙指正错误。

NESSUS特征库更新_mapreduce

图：机器学习框架

1、特征库：特征库就是我们获取用户信息的源头，所有的挖掘判断全部都需要从这个特征库开始，所以特征库的好坏很大程度上决定了整个数据挖掘的好坏。（名言：垃圾进垃圾处出。再好的算法，如果没有准确的信息量做支撑，也不可能预测出好的结果。）

特征库不等于用户画像，特征库是用户画像的底层建设。通常维度与指标是越细越好，比如用户最近一次访问时长，用户最近两次访问时长，用户1,3,5,7天内访问次数。细的颗粒度可以保留最大的用户信息量。

2、特征处理：在有一定特征库之后，我们需要进行一些清洗从而让机器使用这些数据。比如我们发现近1天流量特征绝大部分的user_id为null,这表明这些用户确实没有上该APP，那么我们需要根据业务意义将所有null改为0，又比如男女性别特征，我们在很多情况下无法获取，那么在缺失值较多的情况我们应该选择放弃该字段。

1和2在传统意义上就是“特征工程”：这块是数据挖掘约

70%的工作量。

NESSUS特征库更新_调优_02