机器学习预测模型 · 市场价格分析 · 可交互可视化
数据来源: Kaggle BMW Cars Market Dataset | 样本数: 10,000 | 变量数: 20
BMW汽车市场数据集是一个合成数据集,旨在模拟真实的BMW二手车市场交易数据。该数据集涵盖了BMW各个车系的多维信息,包括车辆基本规格、动力参数、市场定价以及使用历史等。对于二手车价格预测、市场趋势分析具有重要的参考价值。
| 类别 | 变量名 | 说明 | 数据类型 |
|---|---|---|---|
| 标识 | car_id | 车辆唯一标识符 | 整数 |
| model | 车型系列(1 Series, 3 Series, 5 Series, 7 Series, X1, X3, X5, X7, Z4, i3, i4, i7) | 分类 | |
| 基本信息 | year | 生产年份(2005-2024) | 整数 |
| body_type | 车身类型(sedan/suv/hatchback/convertible/coupe) | 分类 | |
| color | 车身颜色(black/white/silver/blue/grey/red) | 分类 | |
| doors | 车门数量 | 整数 | |
| 动力参数 | engine_size | 发动机排量(升) | 浮点数 |
| horsepower | 马力 | 整数 | |
| fuel_type | 燃料类型(petrol/diesel/hybrid/electric) | 分类 | |
| transmission | 变速箱(auto/manual) | 分类 | |
| 传动系统 | drivetrain | 驱动方式(AWD/RWD/FWD) | 分类 |
| seats | 座位数 | 整数 | |
| mileage_km | 行驶里程(公里) | 整数 | |
| 环保指标 | fuel_consumption_l_per_100km | 百公里油耗(升) | 浮点数 |
| co2_emissions_g_km | CO2排放(克/公里) | 浮点数 | |
| price_usd | 价格(美元) 【目标变量】 | 整数 | |
| 使用历史 | owner_count | 车主数量 | 整数 |
| accident_history | 事故历史(yes/no) | 分类 | |
| service_history | 维修历史(full/partial/none) | 分类 | |
| 销售 | country_sold | 销售国家(8国) | 分类 |
数据集存在部分缺失值,需要进行适当处理:
处理策略:数值型特征使用中位数填充,分类特征使用众数填充,以保持数据分布的稳定性。
通过计算各特征与目标变量(price_usd)的Pearson相关系数,我们可以识别影响价格的关键因素:
BMW产品线覆盖从紧凑型到豪华SUV的广泛市场,以下是各车型的价格分布:
汽车作为耐用消费品,其价值随时间推移呈现明显的折旧规律:
从数据可以看出,2005年至2024年间,BMW新车的平均价格上涨了近3倍(从$22,954到$72,831),这反映了通货膨胀、品牌溢价提升以及新能源车型定价较高等多重因素。
| 燃料类型 | 平均价格 | 中位数 | 占比 |
|---|---|---|---|
| Electric (电动) | $79,434 | $65,382 | 12.9% |
| Diesel (柴油) | $46,753 | $41,605 | 27.5% |
| Petrol (汽油) | $46,673 | $42,572 | 32.9% |
| Hybrid (混动) | $46,463 | $41,763 | 26.8% |
里程是二手车定价的重要参考指标。从数据来看,里程每增加3万公里,价格下降约$7,000-8,000。
在人们的印象中,电动汽车通常比同级别燃油车更便宜(因为没有发动机、变速箱等高成本部件)。然而在BMW的数据中,电动车型(i3, i4, i7)的平均价格高达$79,434,比柴油车($46,753)高出70%,比汽油车($46,673)高出71%。这可能反映了:
在真实市场中,有事故记录的二手车通常比无事故记录便宜50%以上。但在本数据集中,有事故历史的车辆均价为$38,417,无事故的为$54,958,差距仅约30%。这可能是因为:
尽管很多人认为"里程越高越不值钱",但机器学习模型显示:
这说明"里程焦虑"可能是一种认知偏差,真实决策中马力等因素权重更高。
作为BMW的故乡,德国销售的车辆均价为$49,063,反而比西班牙($52,013)和土耳其($51,243)更便宜。这与"原产地更便宜"的直觉相反。可能原因:
相关系数r=0.624,特征重要性38%(随机森林中排名第一),马力(horsepower)是决定BMW价格的最关键因素。这告诉我们:
我们使用三种主流回归算法进行价格预测:
| 模型 | RMSE | MAE | R² | 解释 |
|---|---|---|---|---|
| Ridge回归 | $13,798 | $10,312 | 0.797 | 线性基准模型 |
| 随机森林 | $4,963 | $3,497 | 0.974 | 非线性集成模型 |
| 梯度提升 ★ | $4,262 | $3,073 | 0.981 | 最佳表现 |
模型解读:梯度提升模型(Gradient Boosting)表现最佳,R²=0.981意味着模型能够解释98.1%的价格变异。RMSE仅为$4,262,预测误差在可接受范围内。
使用随机森林模型分析各特征对价格的贡献:
分析各数值特征之间的相关性: