银行营销策略数据分析 - 智能定位
1 摘要
银行金融领域的数据分析可以更好为营销活动提供具有参考性的建议,做到智能金融定位。银行通过为客户创造价值并建立牢固的客户关系来从客户那里获取价值作为回报的营销策略。营销活动的特点是关注客户需求及其整体满意度。然而,有不同的变量决定营销活动是否成功。在进行营销活动时,我们需要考虑某些变量。我们可以通过金融数据分析,定位我们需要考虑的营销活动的变量。
1.1 思考的维度:
- 人群细分:营销活动的主体客户不同,策略也应该不同。
- 到达客户所在地的分销渠道:实施最有效的策略,以便从这次营销活动中获得最大收益。我们应该使用哪种工具来传达我们的信息?(例如:电话、广播、电视、社交媒体等)
- 价格:向潜在客户提供的最佳价格是多少?(就银行的营销活动而言,这不是必需的,因为银行的主要兴趣是让潜在客户开立存款账户,以使银行的运营活动继续进行。)
- 促销策略:这是战略的实施方式以及潜在客户将如何得到解决。这应该是营销活动分析的最后一部分,因为必须对以前的活动进行深入分析(如果可能的话),以便从以前的错误中吸取教训并确定如何使营销活动更加有效。
1.2 数据集介绍
数据集来自UCI Machine Learning Repository,一个关于银行机构的营销活动相关的数据集。
这是最初上传在UCI机器学习库中的经典营销银行数据集。 该数据集为您提供有关金融机构营销活动的信息,您必须分析其中的信息,以便找到寻找未来战略的方法,以便改进银行未来的营销活动。
我们可以通过分析银行上次执行的营销活动,并确定有助于我们找到结论以制定未来战略的模式
字段说明:
1 | ID | Int | 客户唯一标识 |
2 | age | Int | 客户年龄 |
3 | job | String | 客户的职业 |
4 | marital | String | 婚姻状况 |
5 | education | String | 受教育水平 |
6 | default | String | 是否有违约记录 |
7 | balance | Int | 每年账户的平均余额 |
8 | housing | String | 是否有住房贷款 |
9 | loan | String | 是否有个人贷款 |
10 | contact | String | 与客户联系的沟通方式 |
11 | day | Int | 最后一次联系的时间(几号) |
12 | month | String | 最后一次联系的时间(月份) |
13 | duration | Int | 最后一次联系的交流时长 |
14 | campaign | Int | 在本次活动中,与该客户交流过的次数 |
15 | pdays | Int | 距离上次活动最后一次联系该客户,过去了多久(999表示没有联系过) |
16 | previous | Int | 在本次活动之前,与该客户交流过的次数 |
17 | poutcome | String | 上一次活动的结果 |
18 | deposit | Int | 预测客户是否会订购定期存款业务 |
2 数据分析结论
通过数据分析,得出对于下次线下活动建议以及注意事项如下(虽然数据是世界银行公开的数据,但是同样具有分析的意义)。
- 营销活动月份:我们看到营销活动水平最高的月份是5月份。然而,这是潜在客户倾向于拒绝定期存款提议的月份(最低有效利率:-34.49%)。对于下一次营销活动,银行将营销活动集中在3 月、9 月、10 月和 12 月将是明智之举。(应该考虑 12 月,因为它是营销活动最低的月份,可能有 12 月最低的原因。)2
- 季节性:潜在客户选择在秋冬季节(通过Moth的分布情况可得)订阅定期存款. 下一个营销活动应该将其活动集中在这些季节。
- 活动电话频率:应实施一项政策,规定不得向同一潜在客户应用超过 3 次电话,以节省时间和精力来获得新的潜在客户。请记住,我们越是称呼同一个潜在客户,他或她就越有可能拒绝开设定期存款。
- 年龄类别:银行的下一个营销活动应针对 20 多岁或以下和 60 多岁或以上的潜在客户。最年轻的类别有 60% 的机会订阅定期存款,而年龄最大的类别有 76% 的机会订阅定期存款。如果银行在下一次竞选中解决这两个类别,那就太好了,从而增加更多定期存款认购的可能性。
- 职业:毫不奇怪,学生或退休的潜在客户最有可能订阅定期存款。退休的个人往往有更多的定期存款,以便通过支付利息获得一些现金。请记住,定期存款是个人(在这种情况下为退休人员)同意在个人与金融机构商定的某个日期之前不从银行提取现金的短期贷款。在那之后,个人收回其资本并获得贷款利息。退休人员往往不会大量花费现金,因此他们更有可能通过将现金借给金融机构来发挥作用。学生是另一组曾经订阅定期存款的群体。
- 房屋贷款和余额:低余额和无余额类别的潜在客户比平均和高余额类别的人更有可能获得房屋贷款。有房贷是什么意思?这意味着潜在客户有财务妥协来偿还其房屋贷款,因此他或她没有现金可以订阅定期存款账户。但是,我们看到平均余额和高余额的潜在客户不太可能获得房屋贷款,因此更有可能开设定期存款。最后,下一次营销活动应关注平均余额和高余额的个人,以增加订阅定期存款的可能性。
- 在通话期间制定问卷:由于通话时长是与潜在客户是否会开设定期存款最正相关的特征,通过在通话期间为潜在客户提供有趣的问卷,通话长度可能会增加. 当然,这并不能保证我们的潜在客户会订阅定期存款!尽管如此,我们不会通过实施一项提高潜在客户参与度的策略而失去任何东西,从而增加订阅定期存款的可能性,从而提高银行将执行的下一次营销活动的有效性.
- 重点目标为交流时间较长的客户(375以上):交流时间高于平均水平的群体可以作为重点的目标群体,该目标群体开立定期存款账户的可能性很大。这个群体开设定期存款账户的可能性为 78%,相当高。这将使下一次营销活动的成功率非常高。
通过结合所有这些策略并简化下一个活动应该解决的市场受众,银行的下一个营销活动可能会比当前的营销活动更有效。
3 具体的分析过程
3.1 构建数据与数据的整体分析:
数据集信息情况
数据的分布情况
数据集中客户是否会订购定期存款业务的情况
3.1.1 职业分析
- 职业数量:管理是该数据集中更普遍的职业。
- 按职业划分的年龄:正如预期的那样,退休人员的年龄中位数最高,而学生年龄中位数最低。
- **职业平衡:**管理层和退休人员是他们账户中余额最高的人
具体分析效果图
职业数量
管理是该数据集中更普遍的职业。
按职业划分的年龄
退休人员的年龄中位数最高,而学生年龄中位数最低。
职业平衡
管理层和退休人员是他们账户中余额最高的人
3.1.2 婚姻因素的影响
婚姻状况下教育程度对于收入的影响(分析个变量之间的影响关系)
3.3 活动举办的注意事项
- **活动持续时间:**嗯,我们看到持续时间(duration)与定期存款密切相关,这意味着持续时间越长,客户开立定期存款的可能性就越大。
- **平均活动持续时间:**平均活动持续时间为 374.76,让我们看看高于此平均值的客户是否更有可能开立定期存款。
- **持续时间状态:**超过持续时间状态的人更有可能开设定期存款。持续时间高于平均水平的群体中有 78% 开设了定期存款账户,而低于平均水平的群体中有 32% 开设了定期存款账户。这告诉我们,以高于平均水平的个人为目标是一个好主意。
3.3.1 活动持续时间因素影响分析
缩放数值和类别值分析duration是否对存款有影响,可以看出duration 对于客户是否开通定期存款是密切相关的。
3.3.2 活动持续时间因素影响效果
平均活动持续时间为 374.76,高于这个平均值的用户有78%
有开通定期存款业务服务的意愿。
3.4 成分分析后合理性验证
上述主成分的分析,可以对现有的数据进行适当的预测,将训练集分为测试集和训练集,考虑到样本分布不均衡,比如样本中贷款信息(8:2),我们需要进行分层取样,同时为了防止训练出来的模型出现过拟合现象进行了交叉验证。
过拟合:
交叉验证之后:
3.4.1 混淆矩阵与精准率(Precision)和召回率(Recall)
混淆矩阵的分析可以帮助我们了解模型对可能订阅定期存款的潜在客户进行分类时是如何执行的。
TP:被模型预测为正类的正样本
TN:被模型预测为负类的负样本
FP:被模型预测为正类的负样本
FN:被模型预测为负类的正样本
以苹果好坏的二分类数据集为例,我们来通俗理解一下什么是TP、TN、FP、FN。
TP:模型预测是好果,预测正确(实际是好果,而且也被模型预测为好果)
TN:模型预测是坏果,预测正确(实际是坏果,而且也被模型预测为坏果)
FP:模型预测是好果,预测错误(实际是坏果,但是被模型预测为了好果)
FN:模型预测是坏果,预测错误(实际是好果,但是被模型预测为了坏果)
3.4.2 在精准率P和召回率R中选取一个平衡点
为什么要找到这个平衡点呢?
P = TP/(TP+FP)
R = TP/(TP+FN)
精度(P)越高,查全率(R)越低,反之亦然。 例如,如果我们将精度从30%提高到60%,模型就会选择模型认为有60%把握的预测。 如果有这样一个实例,模型认为58%的潜在客户可能会订阅定期存款,那么模型就会将其归类为“不”。 然而,这个例子实际上是一个“是”(潜在客户确实签了定期存款)。 这就是为什么精度越高,模型就越有可能错过实际是“Yes”的实例!
因此平衡点是0.13,通过这个分类阈值进行调节。
3.4.3 ROC曲线
ROC曲线
3.4.4 通过决策树分类器分析出影响最大的三个变量
分析发现,在银行营销活动的过程中,与活动交流的时长(duration
)是最为影响客户是否进行定期存储业务的关键因素。排在前三的变量分别是duration
,contact
,housing
活动交流时间、联系次数、是否有房贷。
4 营销策略的结论
- 营销活动月份:我们看到营销活动水平最高的月份是5月份。然而,这是潜在客户倾向于拒绝定期存款提议的月份(最低有效利率:-34.49%)。对于下一次营销活动,银行将营销活动集中在3 月、9 月、10 月和 12 月将是明智之举。(应该考虑 12 月,因为它是营销活动最低的月份,可能有 12 月最低的原因。)2
- 季节性:潜在客户选择在秋冬季节(通过Moth的分布情况可得)订阅定期存款. 下一个营销活动应该将其活动集中在这些季节。
- 活动电话频率:应实施一项政策,规定不得向同一潜在客户应用超过 3 次电话,以节省时间和精力来获得新的潜在客户。请记住,我们越是称呼同一个潜在客户,他或她就越有可能拒绝开设定期存款。
- 年龄类别:银行的下一个营销活动应针对 20 多岁或以下和 60 多岁或以上的潜在客户。最年轻的类别有 60% 的机会订阅定期存款,而年龄最大的类别有 76% 的机会订阅定期存款。如果银行在下一次竞选中解决这两个类别,那就太好了,从而增加更多定期存款认购的可能性。
- 职业:毫不奇怪,学生或退休的潜在客户最有可能订阅定期存款。退休的个人往往有更多的定期存款,以便通过支付利息获得一些现金。请记住,定期存款是个人(在这种情况下为退休人员)同意在个人与金融机构商定的某个日期之前不从银行提取现金的短期贷款。在那之后,个人收回其资本并获得贷款利息。退休人员往往不会大量花费现金,因此他们更有可能通过将现金借给金融机构来发挥作用。学生是另一组曾经订阅定期存款的群体。
- 房屋贷款和余额:低余额和无余额类别的潜在客户比平均和高余额类别的人更有可能获得房屋贷款。有房贷是什么意思?这意味着潜在客户有财务妥协来偿还其房屋贷款,因此他或她没有现金可以订阅定期存款账户。但是,我们看到平均余额和高余额的潜在客户不太可能获得房屋贷款,因此更有可能开设定期存款。最后,下一次营销活动应关注平均余额和高余额的个人,以增加订阅定期存款的可能性。
- 在通话期间制定问卷:由于通话时长是与潜在客户是否会开设定期存款最正相关的特征,通过在通话期间为潜在客户提供有趣的问卷,通话长度可能会增加. 当然,这并不能保证我们的潜在客户会订阅定期存款!尽管如此,我们不会通过实施一项提高潜在客户参与度的策略而失去任何东西,从而增加订阅定期存款的可能性,从而提高银行将执行的下一次营销活动的有效性.
- 重点目标为交流时间较长的客户(375以上):交流时间高于平均水平的群体可以作为重点的目标群体,该目标群体开立定期存款账户的可能性很大。这个群体开设定期存款账户的可能性为 78%,相当高。这将使下一次营销活动的成功率非常高。
References:
- Hands-On Machine Learning with Scikit-Learn and TensorFlow by Aurélien Géron.
- Special Thanks to Ahmet Taspinar. (Insights on a handul of functions) Link: http://ataspinar.com/2017/05/26/classification-with-scikit-learn/
- Special Thanks to Randy Lao and his Predicting Employee KernelOver work. Link: https://www.kaggle.com/randylaosat/predicting-employee-kernelover
- https://www.kaggle.com/code/goldens/classification-review-with-python/notebook
- https://www.kaggle.com/code/janiobachmann/bank-marketing-campaign-opening-a-term-deposit/notebook