机器学习 · 自然语言处理 · 情感分类
数据来源: Kaggle Twitter Entity Sentiment | 样本数: 75,682
Twitter情感分析数据集包含约7.5万条推文,每条推文标注了实体(公司/产品)和情感类别。该数据集可用于训练情感分类模型,帮助企业了解用户对其产品或品牌的看法。
| 字段 | 说明 | 示例 |
|---|---|---|
| id | 推文ID | 2401 |
| entity | 提及的实体 | Borderlands |
| sentiment | 情感类别 | Positive/Negative/Neutral/Irrelevant |
| text | 推文内容 | "im getting on borderlands..." |
负面情感占29.8%,说明用户在社交媒体上更容易表达不满。这是一个有价值的信号——企业可以通过分析负面反馈快速发现问题。
Top实体多为游戏公司(MaddenNFL, LeagueOfLegends, CallOfDuty等),说明游戏行业在社交媒体上的讨论热度最高。
Negative情感的推文平均最长(115字符),Neutral最短(95字符)。负面情绪似乎驱动更长的表达。
| 模型 | 准确率 | 说明 |
|---|---|---|
| Logistic Regression | 67.70% | 线性基线模型 |
| Random Forest ★ | 86.83% | 最佳表现 |
| Gradient Boosting | 53.58% | 参数需调优 |
使用最佳模型(Random Forest)在验证集上的表现: