🚢 泰坦尼克号生存分析报告

Machine Learning 数据挖掘与可视化分析

数据来源: Kaggle Titanic Dataset | 样本数: 1,309

📊 数据概览

38.2%
总体生存率
72.7%
女性生存率
19.1%
男性生存率
61.9%
头等舱生存率

特征说明

特征说明
pclass舱位等级 (1=头等舱, 2=二等舱, 3=三等舱)
sex性别
age年龄
sibsp船上兄弟姐妹/配偶数量
parch船上父母/子女数量
fare票价
embarked登船港口 (S/C/Q)

🔍 关键发现

1. 性别是最重要的生存因素

泰坦尼克号分析
关键发现:女性的生存率(72.7%)远高于男性(19.1%)。"妇女和儿童优先"的救援原则在数据中得到充分体现。

2. 舱位等级显著影响生存概率

关键发现:
  • 头等舱:61.9% 生存率
  • 二等舱:43.0% 生存率
  • 三等舱:25.5% 生存率
高等舱位乘客更靠近甲板,救生艇更容易到达。

3. 年龄对生存的影响

关键发现:儿童(幼儿)的生存率明显高于成年人。这再次印证了"妇女儿童优先"的救援原则。

🤖 机器学习模型预测

我们使用3种机器学习算法预测乘客是否生存:

模型准确率
Logistic Regression78.2%
Random Forest ⭐79.0%
Gradient Boosting77.1%

特征重要性排名

特征重要性

相关性分析

相关性热力图

💡 结论与启示

🔑 影响生存的关键因素(按重要性排序):

  1. 票价 (Fare) - 最重要因素,反映舱位和社会地位
  2. 性别 (Sex) - "妇女儿童优先"原则
  3. 年龄 (Age) - 儿童优先获救
  4. 舱位 (Pclass) - 舱位越高,生存率越高

历史启示: