🏠 加州房价数据分析报告

Machine Learning 数据挖掘与可视化分析

数据来源: California Housing Dataset | 样本数: 20,640

📊 数据概览

$393,400
平均房价
$72,000
收入中位数
34年
平均房龄
5间
平均房间数

特征说明

🔢 数据字段

  • MedInc - 收入中位数(单位:万美元)
  • HouseAge - 房屋年龄(年)
  • AveRooms - 每个房屋的平均房间数
  • AveBedrms - 每个房屋的平均卧室数
  • Population - 区块人口数
  • AveOccup - 平均入住人数
  • Latitude/Longitude - 地理坐标

🔍 数据分析发现

1. 收入是决定房价的最重要因素

收入与房价关系
关键发现:收入中位数与房价的相关性高达 0.69!这意味着收入每增加1万美元,房价平均上涨约$45,000。

2. 地理位置对房价影响显著

地理位置房价分布
关键发现:沿海地区(尤其是洛杉矶和旧金山周边)房价明显更高。内陆地区房价相对较低。

3. 各特征相关性热力图

相关性热力图

🤖 机器学习模型训练

我们使用4种机器学习算法对房价进行预测:

模型对比

模型性能对比

模型 R² 分数 RMSE MAE
Linear Regression 0.576 $74,558 $53,320
Ridge Regression 0.576 $74,552 $53,320
Random Forest ⭐ 0.804 $50,663 $32,817
Gradient Boosting 0.776 $54,222 $37,164

特征重要性排名 (Random Forest)

特征重要性

💡 结论与建议

🏆 最佳模型:Random Forest

R² 分数达到 0.804,意味着模型可以解释80%的房价变化。预测误差约为 $50,000。

影响房价的关键因素(按重要性排序):

  1. 收入水平 (MedInc) - 最重要因素,占比52%
  2. 入住率 (AveOccup) - 人口密度相关,占比14%
  3. 地理位置 (Latitude/Longitude) - 沿海vs内陆,占比18%
  4. 房龄 (HouseAge) - 房屋新旧程度,占比5%
  5. 房间数 (AveRooms) - 房屋大小,占比4%

实用建议: