🐦 Twitter情感分析报告

机器学习 · 自然语言处理 · 情感分类

数据来源: Kaggle Twitter Entity Sentiment | 样本数: 75,682

75,682
样本总数
4
情感类别
87%
模型准确率

📊 一、数据概览

Twitter情感分析数据集包含约7.5万条推文,每条推文标注了实体(公司/产品)和情感类别。该数据集可用于训练情感分类模型,帮助企业了解用户对其产品或品牌的看法。

1.1 数据结构

字段说明示例
id推文ID2401
entity提及的实体Borderlands
sentiment情感类别Positive/Negative/Neutral/Irrelevant
text推文内容"im getting on borderlands..."

1.2 情感分布

1.3 热门实体 Top 10

🔍 二、探索性分析

2.1 各情感类别的文本长度

2.2 实体情感热力图

发现1: Negative情感占比最高

负面情感占29.8%,说明用户在社交媒体上更容易表达不满。这是一个有价值的信号——企业可以通过分析负面反馈快速发现问题。

发现2: 游戏相关实体占主导

Top实体多为游戏公司(MaddenNFL, LeagueOfLegends, CallOfDuty等),说明游戏行业在社交媒体上的讨论热度最高。

发现3: 情感与文本长度相关

Negative情感的推文平均最长(115字符),Neutral最短(95字符)。负面情绪似乎驱动更长的表达。

🤖 三、机器学习建模

3.1 模型对比

模型准确率说明
Logistic Regression67.70%线性基线模型
Random Forest ★86.83%最佳表现
Gradient Boosting53.58%参数需调优

3.2 特征重要性 (Random Forest)

3.3 预测结果示例

使用最佳模型(Random Forest)在验证集上的表现:

📝 四、结论与应用

4.1 主要发现

  1. Random Forest表现最佳,准确率达86.83%
  2. 游戏行业是Twitter讨论最多的领域
  3. 负面情感占比最高,企业需重点关注
  4. TF-IDF特征对情感分类有效

4.2 应用场景

4.3 改进方向