【编程开发】某风网 大数据推荐系统算法工程师 项目实战

利用python进行用户画像用到的工具 用户画像用什么算法_数据

1 用户画像

用户画像是对现实世界中用户的数学建模。

利用python进行用户画像用到的工具 用户画像用什么算法_用户画像_02

2 构建用户画像系统

利用python进行用户画像用到的工具 用户画像用什么算法_数据_03


标签:表示用户特征、多个维度、之间相互关联。

利用python进行用户画像用到的工具 用户画像用什么算法_缺失值_04


挑战:1.记录和存储亿级数据用户的画像;2.支持和扩展不断增加的维度和偏好;3.毫秒级更新;4.支撑个性化,广告投放和精细化营销等产品。

3 用户画像系统流程

利用python进行用户画像用到的工具 用户画像用什么算法_数据_05


1、明确问题和了解数据

追求数据和需求的匹配
明确需求:分类、聚类、推荐、。。。
数据的规模、重要特征的覆盖度

2、数据预处理

数据集成、数据冗余、数值冲突
数据采样 :拿出部分数据进行处理
数据清洗、缺失值处理、噪声数据

3、特征工程

数据和特征决定了机器学习的上限,模型和算法只是逼近这个算法而已
特征:对所需解决问题有用的属性
特征的提取、选择、构造:针对所解决问题选择最有用的特征集合;通过相关系数等方式计算特征的重要性(人工筛选、Random Forest、 PCA。。。。。。。。。)

利用python进行用户画像用到的工具 用户画像用什么算法_缺失值_06


4、模型与算法

利用python进行用户画像用到的工具 用户画像用什么算法_数据_07

4 用户画像系统架构

利用python进行用户画像用到的工具 用户画像用什么算法_缺失值_08


利用python进行用户画像用到的工具 用户画像用什么算法_缺失值_09

5 用户标签系统使用案例

利用python进行用户画像用到的工具 用户画像用什么算法_用户画像_10


利用python进行用户画像用到的工具 用户画像用什么算法_利用python进行用户画像用到的工具_11


注:数据规模不大可以用串行处理(python),比较大的话可以考虑使用分布式(Spark, Mapreduce)。

利用python进行用户画像用到的工具 用户画像用什么算法_数据_12


利用python进行用户画像用到的工具 用户画像用什么算法_利用python进行用户画像用到的工具_13


注:两组数据有相同的key

利用python进行用户画像用到的工具 用户画像用什么算法_推荐系统_14


利用python进行用户画像用到的工具 用户画像用什么算法_数据_15


利用python进行用户画像用到的工具 用户画像用什么算法_用户画像_16


利用python进行用户画像用到的工具 用户画像用什么算法_数据_17


注:相关性强的话可以删除一个,性能要求(时效。。。)

利用python进行用户画像用到的工具 用户画像用什么算法_利用python进行用户画像用到的工具_18


利用python进行用户画像用到的工具 用户画像用什么算法_利用python进行用户画像用到的工具_19