机器学习预测模型 · 用户行为分析 · 可交互可视化
数据来源: Kaggle Bank Marketing | 样本数: 41,188 | 变量数: 21
银行电话营销数据集是营销分析领域的经典数据集,目标是预测客户是否会订阅定期存款产品。该数据集包含了客户基本信息、联系记录、社会经济指标等多维度数据。
| 类别 | 变量名 | 说明 |
|---|---|---|
| 客户数据 | age | 年龄 |
| job | 职业类型(12类) | |
| marital | 婚姻状况 | |
| education | 教育程度(8类) | |
| default | 是否有信用违约 | |
| housing | 是否有房贷 | |
| loan | 是否有个人贷款 | |
| 联系数据 | contact | 联系方式(手机/固话) |
| month | 联系月份 | |
| day_of_week | 联系日期 | |
| duration | 通话时长(秒) | |
| campaign | 本次营销联系次数 | |
| 历史数据 | pdays | 上次联系后天数 |
| previous | 之前联系次数 | |
| poutcome | 上次营销结果 | |
| 经济指标 | emp.var.rate | 就业变化率 |
| cons.price.idx | 消费者价格指数 | |
| cons.conf.idx | 消费者信心指数 | |
| euribor3m | 欧元银行同业拆借利率 | |
| nr.employed | 就业人数 |
数据集存在明显的类别不平衡:
通话时长(duration)与目标变量正相关最强,是最重要的预测因子。
经济指标高度相关:euribor3m、nr.employed、emp.var.rate之间相关系数高达0.9+。
学生成功率最高(31.4%),远超平均水平!
退休人员次之(25.2%),有更多时间和兴趣。
蓝领成功率最低(6.9%)。
65岁以上老年人成功率高达46.8%,是年轻人的2-3倍!可能原因:老年人有更多储蓄、对定期存款需求更高、有时间接听电话。
euribor3m(欧元利率)与成功率呈强负相关(-0.31)。经济差的时候,人们更愿意存钱!
3月(50.5%)和12月(48.9%)成功率远超其他月份,可能与年终奖金、节日消费习惯有关。
通话超过600秒(10分钟),成功率高达48.6%!但这个特征在营销前无法知道,属于"事后诸葛亮"。
我们训练了三种分类模型,使用AUC-ROC作为主要评估指标(因为数据不平衡):
| 模型 | 准确率 | AUC-ROC | 说明 |
|---|---|---|---|
| Logistic Regression | 85.7% | 0.939 | 可解释性强 |
| Random Forest | 91.7% | 0.951 | 抗过拟合 |
| Gradient Boosting ⭐ | 92.1% | 0.954 | 最佳性能 |
通话时长(duration):贡献度41.2%,绝对主导地位!但这是"作弊"特征。
经济指标:euribor3m(10%)、nr.employed(6.5%)、emp.var.rate(6.4%)合计贡献23%。
客户特征:年龄(6%)、职业(3.1%)、教育(3%)也有一定贡献。