python 用户画像用户推荐 python用户画像代码

转载

mob6454cc620c34 2023-11-08 20:18:33

文章标签 python 用户画像用户推荐 python用户画像难吗数据 ci 用户画像 文章分类 Python 后端开发

使用 Python+PySpark 做用户画像！越来越觉得互联网无隐私了！

一、数据准备

本文主要是作为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件： action.txt ， document.txt 。下表为 action.txt ，数据格式： userid~docid~behaivor~time~ip ，即：用户编码~文档编码~行为~日期~IP地址

python 用户画像用户推荐 python用户画像代码_python 用户画像用户推荐

python 用户画像用户推荐 python用户画像代码_ci_02

下表为 document.txt ，数据格式： docid~channelname~source~keyword:score ，即：文档编码~类别(大类)~主题(细类)~关键词：权重

python 用户画像用户推荐 python用户画像代码_python用户画像难吗_03

二、用户点击率

用户点击率即为 action.txt 文件中每个用户behaivor列中1的数量除以0的数量。

1、创建 SparkSession 对象

python 用户画像用户推荐 python用户画像代码_python用户画像难吗_04

2、读取数据，将数据根据‘~’拆分，获取 userid 和 behavior 两列

click_rate1 数据如下：

3、统计用户的各类行为数

click_rate2 数据如下：

4、将 userid , behavior 和数量取出作为3列，并转为DataFrame格式

python 用户画像用户推荐 python用户画像代码_ci_05

click_rate3_df 数据如下：

python 用户画像用户推荐 python用户画像代码_ci_06

5、根据 userId 进行分组，将 behavior 列数据进行旋转作为列标数值为 cnt 。并将 behavior 的0和1替换为 “browse” 和 ”click” 。

click_rate5 数据如下：

python 用户画像用户推荐 python用户画像代码_数据_07

6、填充缺失值

python 用户画像用户推荐 python用户画像代码_ci_08

click_rate6 数据如下：

python 用户画像用户推荐 python用户画像代码_ci_09

7、将计算的数据作为新列添加到数据

click_rate 数据如下：

python 用户画像用户推荐 python用户画像代码_用户画像_10

8、将最后处理的数据保存到本地，关闭SparkSession

最后保存到本地的数据为多个文件，每个文件的格式如下：

python 用户画像用户推荐 python用户画像代码_数据_11

python 用户画像用户推荐 python用户画像代码_python用户画像难吗_12

三、用户标签

使用主题(细类)给用户打标签

1、读取 docunment.txt ，获取 docid 、 source 两列，即文档编码和主题(细类)两列

sources_df 数据如下：

python 用户画像用户推荐 python用户画像代码_python 用户画像用户推荐_13

2、读取 action.txt ，只获取具有点击行为的 userid 和 docid 数据，即 behavior 为1的数据。

actions_df 数据如下：

python 用户画像用户推荐 python用户画像代码_python用户画像难吗_14

3、创建两个DataFrame的临时视图

4、进行关联查询

python 用户画像用户推荐 python用户画像代码_用户画像_15

interestTags 数据如下：

python 用户画像用户推荐 python用户画像代码_ci_16

5、将最后处理的数据保存到本地，关闭SparkSession

导出后的数据如下：

python 用户画像用户推荐 python用户画像代码_数据_17

踩雷点：

1、代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。

2、中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错。

使用 Python+PySpark 做用户画像越来越觉得互联网无隐私了

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android 位置信息默认关闭安卓手机位置关闭

下一篇：java 使用ffmpeg添加视频水印 ffmpeg添加动画水印

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python 用户画像 用户推荐 python用户画像代码

python 用户画像 用户推荐 python用户画像代码

51CTO博客

python 用户画像用户推荐 python用户画像代码

python 用户画像用户推荐 python用户画像代码