机器学习分类模型 · 特征工程 · 可交互可视化
数据来源: Iris Dataset | 样本数: 150 | 类别数: 3
鸢尾花数据集(Iris Dataset)是机器学习领域最经典的分类数据集之一,由英国统计学家Ronald Fisher于1936年收集。该数据集常用于测试分类算法的性能。
| 字段名 | 中文说明 | 取值范围 | 类型 |
|---|---|---|---|
| sepal length | 花萼长度(cm) | 4.3 - 7.9 | 连续 |
| sepal width | 花萼宽度(cm) | 2.0 - 4.4 | 连续 |
| petal length | 花瓣长度(cm) | 1.0 - 6.9 | 连续 |
| petal width | 花瓣宽度(cm) | 0.1 - 2.5 | 连续 |
| species | 鸢尾花种类 | Setosa/Versicolor/Virginica | 目标变量 |
数据集包含150个样本,均匀分布在3个类别中,每个类别50个样本:
热力图展示了四个特征之间的相关性系数。我们发现花瓣长度和花瓣宽度之间存在极强的正相关性(0.96)。
花瓣长度与花瓣宽度:相关系数0.96,几乎完全正相关,说明花瓣大的花朵花瓣也更宽。
花萼长度与花瓣长度:相关系数0.87,强正相关。
花萼宽度与其他特征:呈负相关或弱相关,是最"独特"的特征。
分析三种鸢尾花在各特征上的分布差异。
Setosa(山鸢尾):花瓣最小(长度均值1.46cm,宽度0.24cm),与其他两类差异显著。
Versicolor(变色鸢尾):各项指标处于中间位置。
Virginica(维吉尼亚鸢尾):花瓣最大(长度5.55cm,宽度2.03cm),各项指标均最高。
花萼宽度(sepal width)与花瓣长度/宽度都呈负相关!这意味着花萼宽的花,花瓣反而可能更小。
只用花瓣长度和宽度两个特征就能达到100%分类准确率!添加花萼特征没有提升效果。
这个数据集如此"线性可分",以至于最简单的Logistic Regression也能达到100%准确率!
我们训练了四种经典的分类算法:
| 模型 | 原理 | 准确率 | 特点 |
|---|---|---|---|
| Logistic Regression | 线性分类器 | 100% | 简单快速 |
| Random Forest | 集成决策树 | 100% | 抗过拟合 |
| SVM | 支持向量机 | 100% | 适合高维 |
| KNN | K近邻 | 100% | 简单直观 |
Random Forest模型提供了各特征的重要性评分。
花瓣宽度:贡献度43.4%,是最重要的分类特征!
花瓣长度:贡献度41.7%,与花瓣宽度合计贡献超过85%!
花萼特征:花萼长度4.4%,花萼宽度10.4%,贡献较小。
结论:判断鸢尾花种类,主要看花瓣就行!
展示不同特征组合下的分类边界。