机器学习用户画像怎么做用户画像常用算法

转载

mob64ca14193248 2024-01-26 06:37:15

用户画像，即用户信息化标签，通过收集用户的社会属性、消费习惯、偏好特征收集等各个维度的数据，进而对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌。

机器学习用户画像怎么做用户画像常用算法_机器学习

图1 某用户标签化

用户画像可以帮助企业将“静止在数据仓库的数据，走出仓库”，针对用户进行个性化推荐、精准营销、个性化服务等多样化服务，这也是大数据落地的一个重要方向。

数据应用体系的层级划分如下：

机器学习用户画像怎么做用户画像常用算法_机器学习_02

图2 数据应用体系的层级划分

用户画像建模实际上就是对用户|“打标签”，从对用户打标签的规则来看，一般分为三种类型：①统计类标签；②规则类标签，③机器学习挖掘类标签。

1、三类标签的区别：
1.1.统计类标签
这类标签是最为基础也是最为常见的标签，例如：对于某个用户来说，其性别、年龄、城市、星座、最近7天活跃天数、近7天活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。

1.2.规则类标签
该标签基于用户行为及确定的规则产生。例如：对“消费活跃”用户这一口径的定义为“近30天交易次数>2次”。在实际开发画像的过程中，由于运营人员对业务更熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由运营人员和数据人员共同协商决定。

1.3.机器学习挖掘类标签
该类标签通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如：根据一个用户的消费习惯判断该用户是男是女、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

而在实际的项目中，一般统计类和规则类标签即可满足应用需求，在开发中占较大比重。机器学习挖掘类标签多用于预测场景，如判断用户性别、用户购买商品偏好、用户流失意向等。一般的，机器学习标签开发周期长，开发成本较高，所以所占开发比例较小。

2、数据架构
在整个工程化方案中，系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外，系统主题还包括Spark Streaming、ETL、产品端3个重要组成部分。对该技术不了解，目前不做详细展开。

机器学习用户画像怎么做用户画像常用算法_机器学习_03

图3 用户画像数仓架构3.主要覆盖模块

搭建一套用户画像方案整体来说，需要考虑8个模块的建设，如下图所示。

机器学习用户画像怎么做用户画像常用算法_机器学习用户画像怎么做_04

·用户画像基础：需要了解、明确用户画像是什么、包含哪些模块、数仓架构是什么样子，开发流程、表结构设计、ETL设计等。这些都是框架，大方向的规划，只有明确了方向后才能做好项目的排期和人员投入。

· 数据指标体系 ：根据业务线梳理，包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

· 标签数据存储：标签相关数据可存储在HIve、MySQL、HBase、Elasticsearch等数据库中，不同存储方式适用于不同的的应用场景。

· 标签数据开发：用户画像工程化的重点模块，包含统计类、规则类、挖掘类、流式计算类标签的开发，以及人群计算功能的开发，打通画像数据和业务系统之间的通路，提供接口服务等开发内容。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

机器学习用户画像怎么做 用户画像常用算法