🌸 鸢尾花分类分析报告

机器学习分类模型 · 特征工程 · 可交互可视化

数据来源: Iris Dataset | 样本数: 150 | 类别数: 3

150
样本数
4
特征数
100%
模型准确率

📊 一、数据概览与预处理

鸢尾花数据集(Iris Dataset)是机器学习领域最经典的分类数据集之一,由英国统计学家Ronald Fisher于1936年收集。该数据集常用于测试分类算法的性能。

1.1 数据字段说明

字段名中文说明取值范围类型
sepal length花萼长度(cm)4.3 - 7.9连续
sepal width花萼宽度(cm)2.0 - 4.4连续
petal length花瓣长度(cm)1.0 - 6.9连续
petal width花瓣宽度(cm)0.1 - 2.5连续
species鸢尾花种类Setosa/Versicolor/Virginica目标变量

1.2 数据分布

数据集包含150个样本,均匀分布在3个类别中,每个类别50个样本:

🔍 二、探索性数据分析 (EDA)

2.1 特征相关性热力图

热力图展示了四个特征之间的相关性系数。我们发现花瓣长度和花瓣宽度之间存在极强的正相关性(0.96)。

📈 热力图解读

花瓣长度与花瓣宽度:相关系数0.96,几乎完全正相关,说明花瓣大的花朵花瓣也更宽。

花萼长度与花瓣长度:相关系数0.87,强正相关。

花萼宽度与其他特征:呈负相关或弱相关,是最"独特"的特征。

2.2 各类别特征分布

分析三种鸢尾花在各特征上的分布差异。

📊 类别差异分析

Setosa(山鸢尾):花瓣最小(长度均值1.46cm,宽度0.24cm),与其他两类差异显著。

Versicolor(变色鸢尾):各项指标处于中间位置。

Virginica(维吉尼亚鸢尾):花瓣最大(长度5.55cm,宽度2.03cm),各项指标均最高。

2.3 花瓣长度分布

2.4 花瓣宽度分布

💡 三、反直觉发现

🔄 反直觉发现 #1: 花萼宽度居然是"拖油瓶"

花萼宽度(sepal width)与花瓣长度/宽度都呈负相关!这意味着花萼宽的花,花瓣反而可能更小。

🔄 反直觉发现 #2: 特征并非越多越好

只用花瓣长度和宽度两个特征就能达到100%分类准确率!添加花萼特征没有提升效果。

🔄 反直觉发现 #3: 线性模型也能完美分类

这个数据集如此"线性可分",以至于最简单的Logistic Regression也能达到100%准确率!

🤖 四、机器学习分类模型

4.1 模型选择与训练

我们训练了四种经典的分类算法:

模型原理准确率特点
Logistic Regression线性分类器100%简单快速
Random Forest集成决策树100%抗过拟合
SVM支持向量机100%适合高维
KNNK近邻100%简单直观

4.2 模型性能可视化

4.3 特征重要性分析 (Random Forest)

Random Forest模型提供了各特征的重要性评分。

🎯 特征重要性解读

花瓣宽度:贡献度43.4%,是最重要的分类特征!

花瓣长度:贡献度41.7%,与花瓣宽度合计贡献超过85%!

花萼特征:花萼长度4.4%,花萼宽度10.4%,贡献较小。

结论:判断鸢尾花种类,主要看花瓣就行!

4.4 分类边界可视化

展示不同特征组合下的分类边界。

💡 五、结论与启示

5.1 主要发现总结

  1. 花瓣是分类关键:花瓣长度和宽度合计贡献85%的分类信息
  2. 数据集"过于简单":所有模型都达到100%准确率
  3. 特征高度相关:花瓣长度和宽度相关系数达0.96
  4. 线性可分:简单的Logistic Regression就能完美分类

5.2 实际应用建议

5.3 机器学习启示