python 用户画像 聚类 python做用户画像_python 用户画像 聚类


python 用户画像 聚类 python做用户画像_SPSS_02


python 用户画像 聚类 python做用户画像_python用户画像_03


python 用户画像 聚类 python做用户画像_Python_04


在理清画像规划与类型来源后,据企业会员规模与用户群边界定义,手上会有一堆的数据,这时需有个好用的工具,进行数据分析。SPSS 25 版提供了多种数据比较分类的菜单式统计分析方法,同时支援python 整合,是一个十分适合小数据企业的统计分析工具。下面就依SPSS 25 版,进行一个案例演示:


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_05


某企业有一群会员,注册即将满一周年,时间跨度基本满足覆盖企业一年春夏、秋冬两款新品的时间,数据能够生成一个完整的运营周期里可能发生的特征值。


python 用户画像 聚类 python做用户画像_python用户画像_06


数据库中积累着大量业务数据、埋点数据。挖掘沉淀在数据库中数据以建设用户群画像,从而对用户群设计有效的精准营销,提高活动的参与率,提高会员的转化率。


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_07


在本案例中,可以获取到的数据按其类型可分为:

用户基本资料(注册资料、导购注释),可以用来生成静态类的标签;

业务类数据(购买汇总),可以用来生成规则类的标签;

用户行为数据(主订单、细订单),可以用来生成挖掘类标签。


python 用户画像 聚类 python做用户画像_数据_08


Step1

可以通过 ODBC将所需数据自数据库中以 SQL 产生后,直接生成在 SPSS 中


python 用户画像 聚类 python做用户画像_数据_09


或是使用工具将数据生成excel 档后再导入SPSS 中。

然后对生成的数据,用SPSS 语法编辑器,生成个案序号变量(如下),以便在后续数据处理过程中,随时可以回复成回来的排序。

到此,先将生成的数据存成SPSS .sav档,作为ETL后续处理的数据。


python 用户画像 聚类 python做用户画像_SPSS_10


Step2

继续使用SPSS 语法编辑器,将数据进行缺失值处理、数据分段定义处理、名义变量转换数据变量处理、变量标签处理、数据脱敏处理。

数据进行缺失值处理,例子如下:


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_11


数据分段定义处理,例子如下:

首先数据分段定义,可以利用SPSS 的“频率”菜单来协助设计适合的分割点。


python 用户画像 聚类 python做用户画像_数据_12


然后用SPSS 语法编辑器进行数据分段


python 用户画像 聚类 python做用户画像_Python_13


名义变量转换数据变量处理,例子如下:


python 用户画像 聚类 python做用户画像_python用户画像_14


将数据进行这三种处理的用途,在于后续可以方便的进行交叉表分析、spearman相关系数分析、kendall秩相关系数分析、贝叶斯方法分析或是Apriori 算法挖掘。

之后进行变量标签处理,例子如下:


python 用户画像 聚类 python做用户画像_python用户画像_15


将变量加上标签的目的,在于后续SPSS产生分析说明时,标签值会出现在说明中,如此就可以清楚变量在分析说明里所代表的意义,不需另外查找。

数据脱敏处理的目的是将个人身份辨识的单一数据或组合数据,自分析数据源中去除,避免造成数据流失时的麻烦。

Step3

在进行数据分析前,还需要先完成一个数据排重的设计。因为案例中,我们为了实现购买商品的属性特征对会员购买粘度的分析,所以在生成数据时特意让用户基本数据、业务类数据结合订单明细数据,不过产生的副作用就是出现了一人多笔重复用户基本数据、业务类数据的状况。此时若要进行用户基本数据对会员购买粘度的分析, 或是业务类数据对会员购买粘度的分析,必须先经过SPSS一个数据排重的处理,如左下:可以得到每一手机最大CTRange (购买粘度)的过滤器;如右下:则可以得到一手机每一个主订单的过滤器


python 用户画像 聚类 python做用户画像_python用户画像_16


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_17


再通过SPSS “选择个案”的菜单, 就可以消除分析数据源的数据重复状况了。


python 用户画像 聚类 python做用户画像_Python_18


Step4

在这个案例中,经过处理后的数据,应该会包含了会员购买粘度定义的用户群,也包含了用户基本资料(注册资料、导购注释),业务类数据(购买汇总)与用户行为数据(主订单、细订单)。

接下就可以利用交叉表分析、spearman相关系数分析、kendall秩相关系数分析、贝叶斯方法分析或是Apriori 算法挖掘产生个各种分析结果。例如使用交叉表对名义变量分析时,就可以将分析结果中皮尔森卡方渐进显著性(双侧)< 0.05, 且 克莱姆V系数 >= 0.5 的变量当成候选标签,然后用此候选标签与会员购买粘度建立可视图表,再次确定此候选标签与会员购买粘度的相关性。


python 用户画像 聚类 python做用户画像_Python_19


Step5

将Step4 里确定的候选标签收集起来,就可以针对不同的会员购买粘度建立用户群画像。


python 用户画像 聚类 python做用户画像_python用户画像_20


python 用户画像 聚类 python做用户画像_Python_21


数据应用的建议是我们建立用户群画像的最后目的。

例如微信有一个“48小时不限次数推送信息“,其使用条件是:

1.公众号48小时内互动的粉丝进行不限次数推送;

2.互动粉丝动作定义:关注、对话、扫码、点菜单(弹出信息)等,只需满足其中一个动作均算。

如果要48小时跟会员产生密集互动,完成行销目的,就必须针对用户群画像的标签发送首篇文章、或创意活动,才能让会员有感有兴趣的进行对话、扫码、点菜单,然后后续才有机会进行48小时的行销,有了会员群的用户画像,就可以进行如下的行销设计 (可结合第三方提供的微信工具) :


python 用户画像 聚类 python做用户画像_python用户画像_22


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_23


在 5)手动建模里面很多动作都是重复性的操作,幸好SPSS内建Python 3.4.3 ,并且提供两种方法,可以将这些操作用Python的程序处理掉,提高工作效率。

第一种方法

在Python 的 IDE 环境里进行。首先在SPSS 菜单中打开Python3的IDE;


python 用户画像 聚类 python做用户画像_数据_24


然后开启或建立一个py文档;


python 用户画像 聚类 python做用户画像_python 用户画像 聚类_25


在文档中,引入一个 SpssClient模块,接下在StartClient() 跟 StopClient() 之间,就可以进行程序化的处理了。完成后按下 F5 Run Module


python 用户画像 聚类 python做用户画像_python用户画像_26


通过这个方法,可以轻松的将SPSS 分析产生的output 文件,进行过滤挑选出所需要的变量字段与分析数据。


python 用户画像 聚类 python做用户画像_python用户画像_27


第二种方法

在SPSS的 语法编译器环境里进行。首先在SPSS 菜单中新建或打开一个语法档,然后在 BEGIN PROGRAM. 与 END PROGRAM. 之间输入Python指令,就可以进行程序化的处理;


python 用户画像 聚类 python做用户画像_python用户画像_28


通过这个方法,可以对SPSS 的数据进行分析处理。结果就直接呈现在SPSS output 查看器中。


python 用户画像 聚类 python做用户画像_SPSS_29