1 用户画像
用户画像是对现实世界中用户的数学建模。
2 构建用户画像系统
标签:表示用户特征、多个维度、之间相互关联。
挑战:1.记录和存储亿级数据用户的画像;2.支持和扩展不断增加的维度和偏好;3.毫秒级更新;4.支撑个性化,广告投放和精细化营销等产品。
3 用户画像系统流程
1、明确问题和了解数据
追求数据和需求的匹配
明确需求:分类、聚类、推荐、。。。
数据的规模、重要特征的覆盖度
2、数据预处理
数据集成、数据冗余、数值冲突
数据采样 :拿出部分数据进行处理
数据清洗、缺失值处理、噪声数据
3、特征工程
数据和特征决定了机器学习的上限,模型和算法只是逼近这个算法而已
特征:对所需解决问题有用的属性
特征的提取、选择、构造:针对所解决问题选择最有用的特征集合;通过相关系数等方式计算特征的重要性(人工筛选、Random Forest、 PCA。。。。。。。。。)
4、模型与算法
4 用户画像系统架构
5 用户标签系统使用案例
注:数据规模不大可以用串行处理(python),比较大的话可以考虑使用分布式(Spark, Mapreduce)。
注:两组数据有相同的key
注:相关性强的话可以删除一个,性能要求(时效。。。)