本次实例需要三个数据文件
分别为节目及其所属标签类型的01矩阵;用户--节目评分矩阵;用户收视了的节目--标签01矩阵。
可以直接下载下来使用
具体代码如下:
# -*- coding: utf-8 -*-
"""
Created on Thu Nov 1 09:33:14 2018
@author: AZ
"""
import math
import pandas as pd
import numpy as np
import os
os.chdir('E:/广电大数据营销推荐项目案例/数据清洗/电视节目信息数据预处理')
# 创建节目画像
# 参数说明:
# items_profiles = {item1:{'label1':1, 'label2': 0, 'label3': 0, ...}, item2:{...}...}
def createItemsProfiles(data_array, labels_names, items_names):
items_profiles = {}
for i in range(len(items_names)):
items_profiles[items_names[i]] = {}
for j in range(len(labels_names)):
items_profiles[items_names[i]][labels_names[j]] = data_array[i][j]
return items_profiles
# 创建用户画像
# 参数说明:
# data_array: 所有用户对于其所看过的节目的评分矩阵 data_array = [[2, 0, 0, 1.1, ...], [0, 0, 1.1, ...], ...]
# users_profiles = {user1:{'label1':1.1, 'label2': 0.5, 'label3': 0.0, ...}, user2:{...}...}
def createUsersProfiles(data_array, users_names, items_names, labels_names, items_profiles):
users_profiles = {}
# 计算每个用户对所看过的所有节目的平均隐性评分
# users_average_scores_list = [1.2, 2.2, 4.3,...]
users_average_scores_list = []
# 统计每个用户所看过的节目(不加入隐性评分信息)
# items_users_saw = {user1:[item1, item3, item5], user2:[...],...}
items_users_saw = {}
# 统计每个用户所看过的节目及评分
# items_users_saw_scores = {user1:[[item1, 1.1], [item2, 4.1]], user2:...}
items_users_saw_scores = {}
for i in range(len(users_names)):
items_users_saw_scores[users_names[i]] = []
items_users_saw[users_names[i]] = []
count = 0
sum = 0.0
for j in range(len(items_names)):
# 用户对该节目隐性评分为正,表示真正看过该节目
if data_array[i][j] > 0:
items_users_saw[users_names[i]].append(items_names[j])
items_users_saw_scores[users_names[i]].append([items_names[j], data_array[i][j]])
count += 1
sum += data_array[i][j]
if count == 0:
users_average_scores_list.append(0)
else:
users_average_scores_list.append(sum / count)
for i in range(len(users_names)):
users_profiles[users_names[i]] = {}
for j in range(len(labels_names)):
count = 0
score = 0.0
for item in items_users_saw_scores[users_names[i]]:
# 参数:
# 用户user1对于类型label1的隐性评分: user1_score_to_label1
# 用户user1对于其看过的含有类型label1的节目item i 的评分: score_to_item i
# 用户user1对其所看过的所有节目的平均评分: user1_average_score
# 用户user1看过的节目总数: items_count
# 公式: user1_score_to_label1 = Sigma(score_to_item i - user1_average_score)/items_count
# 该节目含有特定标签labels_names[j]
if items_profiles[item[0]][labels_names[j]] > 0:
score += (item[1] - users_average_scores_list[i])
count += 1
# 如果求出的值太小,直接置0
if abs(score) < 1e-6:
score = 0.0
if count == 0:
result = 0.0
else:
result = score / count
users_profiles[users_names[i]][labels_names[j]] = result
return (users_profiles, items_users_saw)
# 创建节目画像
# 参数说明:
# items_profiles = {item1:{'label1':1, 'label2': 0, 'label3': 0, ...}, item2:{...}...}
def createItemsProfiles(data_array, labels_names, items_names):
items_profiles = {}
for i in range(len(items_names)):
items_profiles[items_names[i]] = {}
for j in range(len(labels_names)):
items_profiles[items_names[i]][labels_names[j]] = data_array[i][j]
return items_profiles
# 计算用户画像向量与节目画像向量的距离(相似度)
# 向量相似度计算公式:
# cos(user, item) = sigma_ui/sqrt(sigma_u * sigma_i)
# 参数说明:
# user_profile: 某一用户user的画像 user = {'label1':1.1, 'label2': 0.5, 'label3': 0.0, ...}
# item: 某一节目item的画像 item = {'label1':1, 'label2': 0, 'label3': 0, ...}
# labels_names: 所有类型名
def calCosDistance(user, item, labels_names):
sigma_ui = 0.0
sigma_u = 0.0
sigma_i = 0.0
for label in labels_names:
sigma_ui += user[label] * item[label]
sigma_u += (user[label] * user[label])
sigma_i += (item[label] * item[label])
if sigma_u == 0.0 or sigma_i == 0.0: # 若分母为0,相似度为0
return 0
return sigma_ui/math.sqrt(sigma_u * sigma_i)
# 基于内容的推荐算法:
# 借助特定某个用户user的画像user_profile和备选推荐节目集的画像items_profiles,通过计算向量之间的相似度得出推荐节目集
# 参数说明:
# user_profile: 某一用户user的画像 user_profile = {'label1':1.1, 'label2': 0.5, 'label3': 0.0, ...}
# items_profiles: 备选推荐节目集的节目画像: items_profiles = {item1:{'label1':1, 'label2': 0, 'label3': 0}, item2:{...}...}
# items_names: 备选推荐节目集中的所有节目名
# labels_names: 所有类型名
# items_user_saw: 用户user看过的节目
def contentBased(user_profile, items_profiles, items_names, labels_names, items_user_saw):
# 对于用户user的推荐节目集为 recommend_items = [[节目名, 该节目画像与该用户画像的相似度], ...]
recommend_items = []
for i in range(len(items_names)):
# 从备选推荐节目集中的选择用户user没有看过的节目
if items_names[i] not in items_user_saw:
recommend_items.append([items_names[i], calCosDistance(user_profile, items_profiles[items_names[i]], labels_names)])
# 将推荐节目集按相似度降序排列
recommend_items.sort(key=lambda item: item[1], reverse=True)
return recommend_items
# 输出推荐给该用户的节目列表
# max_num:最多输出的推荐节目数
def printRecommendedItems(recommend_items_sorted, max_num):
count = 0
for item, degree in recommend_items_sorted:
print("节目名:%s, 推荐指数:%f" % (item, degree))
count += 1
if count == max_num:
break
#主程序
if __name__ == '__main__':
all_users_names = ['3','13','23']
#按指定顺序排列所有的标签
all_labels = ['剧情', '西部', '家庭', '惊悚', '动画',
'爱情', '情色', '运动', '音乐', '灾难',
'悬疑', '儿童', '短片', '历史', '动作',
'科幻', '传记', '同性', '冒险', '歌舞',
'脱口秀', '真人秀', '新闻', '恐怖', '奇幻',
'犯罪', '喜剧', '纪录片', '战争', '古装',
'武侠', '综艺' ,'电视剧', '邵氏','电影']
labels_num = len(all_labels)
# 读取用户--节目评分矩阵
df1 = pd.read_csv('./wordsbag/dataprocess/data/week/mydata/temp_user_scores_mat.csv',sep=',',encoding='gbk',header='infer',error_bad_lines=False)
(m1 , n1) = df1.shape
# 所有用户对其看过的节目的评分矩阵
data_array1 = np.array(df1.iloc[:m1+1 , 1:])
# 按照"所有用户对其看过的节目的评分矩阵"的列序排列的所有用户观看过的节目名称
items_users_saw_names1 = df1.columns[1:].tolist()
# 读取用户观看过的节目及其所属类型的01矩阵
df2 = pd.read_csv('./wordsbag/dataprocess/data/week/mydata/temp_users_movies_01mat.csv',sep=',',encoding='gbk',header='infer',error_bad_lines=False)
(m2 , n2) = df2.shape
data_array2 = np.array(df2.iloc[:m2 + 1, 1:])
# print(data_array2)
# 按照"所有用户看过的节目及所属类型的01矩阵"的列序排列的所有用户观看过的节目名称
#items_users_saw_names2 = np.array(df2.iloc[:m2 + 1, 0]).tolist() #此句语句得不到节目名称
items_users_saw_names2 = np.array(df2.iloc[:m2 + 1, 0]).tolist()
# 为用户看过的节目建立节目画像
items_users_saw_profiles = createItemsProfiles(data_array2, all_labels, items_users_saw_names2)
# 建立用户画像users_profiles和用户看过的节目集items_users_saw
(users_profiles, items_users_saw) = createUsersProfiles(data_array1, all_users_names, items_users_saw_names1, all_labels, items_users_saw_profiles)
# 读取备选节目及其所属类型的01矩阵
df3 = pd.read_csv('./wordsbag/dataprocess/data/week/mydata/temp_movies_01mat.csv',sep=',',encoding='gbk',header='infer',error_bad_lines=False)
(m3 , n3) = df3.shape
data_array3 = np.array(df3.iloc[:m3+1, 1:])
# 按照"备选推荐节目集及所属类型01矩阵"的列序排列的所有用户观看过的节目名称
items_to_be_recommended_names = np.array(df3.iloc[:m3 + 1, 0]).tolist()
# 为备选推荐节目集建立节目画像
items_to_be_recommended_profiles = createItemsProfiles(data_array3, all_labels, items_to_be_recommended_names)
#开始推荐
for user in all_users_names:
print("给用户id为 %s 的推荐节目如下:" % user)
recommend_items = contentBased(users_profiles[user], items_to_be_recommended_profiles, items_to_be_recommended_names, all_labels, items_users_saw[user])
printRecommendedItems(recommend_items, 5)
print('该用户推荐任务完成。')
print( )
运行结果如下:
给用户id为 3 的推荐节目如下:
节目名:父母爱情, 推荐指数:0.215453
节目名:奔跑吧, 推荐指数:0.171533
节目名:一站到底, 推荐指数:0.171533
节目名:平民英雄, 推荐指数:0.171533
节目名:向往的生活, 推荐指数:0.171533
该用户推荐任务完成。
给用户id为 13 的推荐节目如下:
节目名:奔跑吧兄弟, 推荐指数:0.630852
节目名:逃学英雄传, 推荐指数:0.630852
节目名:非诚勿扰, 推荐指数:0.565759
节目名:生财有道, 推荐指数:0.472502
节目名:家庭幽默录像, 推荐指数:0.446079
该用户推荐任务完成。
给用户id为 23 的推荐节目如下:
节目名:档案, 推荐指数:0.327783
节目名:欢乐颂, 推荐指数:0.293158
节目名:温暖的弦, 推荐指数:0.293158
节目名:繁星四月, 推荐指数:0.293158
节目名:人间至味是清欢, 推荐指数:0.293158
该用户推荐任务完成。
该实例的实现要在前几天文章的前提下进行,原始数据文件的格式很重要。