一个预测未来消费行为的示例,即已经采集了过去消费行为的信息,并用来建立一个模型以对未来的消费行为进行预测。该示例简要演示了数据预处理、提取特征、选择模型、训练模型、评估模型、应用等阶段,供读者初步了解机器学习的应用流程。

过去的消费行为信息包括消费者进店的年月日,性别(1男 0女)和是否消费(1消费 0没消费)共五项 部分数据如下

行为模式命令模式python 行为树 python_行为模式命令模式python

 1:切分训练集和测试集

代码如下

# 将训练数据切分为训练集和验证集
train_set = [] # 训练集
train_labels = [] # 训练集的标签
valid_set = [] # 验证集
valid_labels = [] # 验证集的标签
for i in range(len(train_data)):
    if i < 20: # 将训练数据的前20条作为训练集,后10条作为验证集
        train_set.append( train_data[i][:4])
        train_labels.append(train_data[i][4])
    else:
        valid_set.append( train_data[i][:4])
        valid_labels.append(train_data[i][4])

2:直接用原始数据训练模型

 不提取特征,直接用原始数据来训练模型 代码如下

from sklearn import tree # 导入决策树库
clf = tree.DecisionTreeClassifier() # 创建一个分类决策树对象
clf = clf.fit(train_set, train_labels) # 训练模型
print(valid_labels)
print(clf.predict(valid_set)) # 用训练好的模型来预测验证集,验证误差率为0.5

输出结果如下,可见有五个预测错误 验证误差率位0.5,基本属于瞎猜,没有实际效果 

行为模式命令模式python 行为树 python_预测_02

 按一般的常识,消费者可能在周末的消费意愿要高一点,因此可以提取出是否周末的特征来训练模型

3:提取周末特征训练模型

定义一个判断是否为周末的函数 

import datetime # 导入datetime模块,该模块用来处理与日期和时间有关的计算

# 定义一个判断是否为周末的函数
def isweekend( date ): 
    theday = datetime.date( date[0], date[1], date[2] ) # 创建一个date对象
    if theday.isoweekday() in { 6, 7 }: # 如果date是周末则返回1,否则返回0
        return 1
    else:
        return 0
isweekend([2020, 11, 15])

预测结果如下

可见误差率在0.2左右,比之前用原始数据的准确率提高不少

行为模式命令模式python 行为树 python_行为模式命令模式python_03

 由上面可知,如果提取了是否为周末的特征,那么预测成功率将会大大提高,实际上,对训练数据的统计显示,男性每进一次店由消费行为的概率为0.75,不分周末还是平时,而女性在周末进店有消费行为的概率为0.66,非周末进店有消费行为的概率为0.34,因此如果不提起是否为周末的特征,模型无法充分利用日期信息进行学习。

创作不易 觉得有帮助请点赞关注收藏~~~