背景:

该数据集为某电商的用户信息及商家信息的一份数据,以此为基础对用户年龄,用户的平台年龄(注册至今的时间),消费频率,以及各个产品类别的用户消费占比等信息进行用户画像研究。

一、认识数据




机器学习算法建立用户画像python python做用户画像_字段


数据集大小为183828条,共19个属性信息

'客户编码', '产品编码', '行为时间', '行为类别', '年龄分段', '性别', '客户注册日期', '会员级别',
'会员城市级别', '产品品牌', '店铺编码', '产品类别', '产品上市日期', '商家编码', '粉丝数', '会员数', '开店时间', '店铺主营', '店铺打分',

年龄已经做了分段处理,性别中包含M,N,U,其中U为未知

数据比较干净,在这里不再进行清洗。

查看一下数据的详细信息


机器学习算法建立用户画像python python做用户画像_机器学习算法建立用户画像python_02


二、对性别属性进行分析

查看性别字段的分布情况,男性数量为120077,女性为63278,未知的是473,男性占据了比较大的占比

我们使用pyecharts对数据进行可视化(pyecharts的交互性很强)


机器学习算法建立用户画像python python做用户画像_数据_03


三、对整个数据中的年龄段进行分析


机器学习算法建立用户画像python python做用户画像_数据_04


在年龄的第5/6段的用户数量较多,这两个段位代表了成年、中年的客户,符合我们的现实情况,毕竟中小学生的主要任务还是学习,花钱的事还是要承认来做。

四、添加一个新的字段,用户平台年龄,看一下我们的顾客关注我们的时长,我们以2019年6月1日作为参考,计算年龄


机器学习算法建立用户画像python python做用户画像_python用户画像_05


查看一下年龄的分布,横轴是以‘天’为单位


机器学习算法建立用户画像python python做用户画像_机器学习算法建立用户画像python_06


可以看出,我们的用户在0-5年居多,我们再按照性别分组查看数据的分布情况


机器学习算法建立用户画像python python做用户画像_机器学习算法建立用户画像python_07


通过箱型图我们可以得出以下结论

1.男性用户的分布比较平均,但是在6年以上的客户就比较分散,参差不齐

2.女性用户中,中位数在500左右,数据主要集中在0-3年,用户相对男性数据来说较为‘年轻’。未知用户由于数据量较小,在这里不做过多讨论。

五、按照产品类型统计男女用户占比


机器学习算法建立用户画像python python做用户画像_python用户画像_08


我们按照销量前6名的产品统计男女用户占比


机器学习算法建立用户画像python python做用户画像_python用户画像_09


在手机、茶叶、笔记本电脑、相机等产品中,男性用户都是远远高于女性用户,由于我们的数据中男性与女性用户比例为2:1,可以推断出,该公司产品的用户以男性为主。

六、用户消费频率


机器学习算法建立用户画像python python做用户画像_数据_10


机器学习算法建立用户画像python python做用户画像_字段_11


用户的消费频率集中在频率较低的阶段,我们为用户打上标签,3次以上为高频用户


机器学习算法建立用户画像python python做用户画像_字段_12


七、查看不同品牌的消费品率分布


机器学习算法建立用户画像python python做用户画像_python用户画像_13


八、查看不同消费频率的用户都在消费哪些产品


机器学习算法建立用户画像python python做用户画像_机器学习算法建立用户画像python_14


a)低频用户


机器学习算法建立用户画像python python做用户画像_字段_15


低频用户以手机、外套、茶叶为主

b)中高频用户,由于中高频用户相对于低频用户来说数量较小,因此我们合并起来查看他们的消费产品分布


机器学习算法建立用户画像python python做用户画像_数据_16


中高频用户消费的主要产品相比于低频用户相差无几,但是手机、外套、茶叶占据的总体比重相对于低频用户还是要高出许多

九、按照用户的消费品类为其打上标签


机器学习算法建立用户画像python python做用户画像_数据集_17


机器学习算法建立用户画像python python做用户画像_字段_18


在这里,我们对每一位顾客进行分组,按照他的历史消费记录中,计算他的消费品类记录最多的一类作为他的标签,方便在后续的推荐系统中作为参考。

结论:

1.该公司的客户中的消费频率较低的客户占据着较高的地位;该公司的客户多为男性,在推广产品过程中,可以以男性为主,或者增加对女性的推广,提升男女比例,保持相对平衡。

2.客户的消费品类最多的为手机、外套、以及茶叶。对于新用户,在无历史记录的情况下,可以通过这三类产品向用户推送,同时可以参考‘销量前6名的产品统计男女用户占比’的分布情况进行推送。

3.客户的平台年龄(客户的注册日期距今的时间),男性在0-5年居多,女性0-3年居多,相对男性较为‘年轻’。在策略上应该注重客户留存率,通过礼品、促销等方式提升客户忠诚度。

4.客户中低频消费用户占比较高,需要采取一定的推广策略提高中高频用户的占比。