TF-IDF · LDA主题模型 · SVD降维 · 多模型对比
数据来源: Kaggle | 样本数: 75,682
Twitter情感分析数据集包含75,682条推文,每条推文包含实体(公司/产品)和情感标签。
| 字段 | 说明 | 示例 |
|---|---|---|
| id | 推文ID | 2401 |
| entity | 实体(公司/产品) | Borderlands |
| sentiment | 情感(4类) | Positive |
| text | 推文内容 | "im getting on borderlands..." |
TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法,用于评估一个词在文档中的重要程度。
"game", "play", "FIFA", "league"等游戏词汇TF-IDF得分最高,说明游戏类推文数量多且内容集中。
LDA(Latent Dirichlet Allocation)是一种无监督主题模型,能够自动发现文档集合中的潜在主题结构。
| 主题 | 关键词 |
|---|---|
| 主题1 | series, redemption, nvidia, twitch, xbox, red, tv |
| 主题2 | fifa, creed, legends, gta, league, thank |
| 主题3 | game, love, microsoft, amazon, good, great |
| 主题4 | time, depot, battlefield, pubg, player, facebook |
| 主题5 | don, fuck, fucking, shit, really, like |
47.7%的负面情感推文属于主题5(包含大量负面词汇如fuck, shit),说明LDA能有效区分情感类别。
SVD(Singular Value Decomposition)是一种矩阵分解技术,可用于降维和特征提取。
SVD将TF-IDF矩阵从75,682×5,000维降到100维,解释了23.54%的方差。
| 模型 | 准确率 | 说明 |
|---|---|---|
| Logistic Regression ★ | 68.27% | 线性模型,稳定高效 |
| Multinomial NB | 63.90% | 朴素贝叶斯,适合文本 |
| Random Forest | 56.40% | 需更多调参 |
| Gradient Boosting | 57.13% | 过拟合,需调参 |
准确率: 68.25%,与单独TF-IDF接近。说明SVD降维后的特征没有带来额外信息增益。