🐦 Twitter情感分析报告(增强版)

TF-IDF · LDA主题模型 · SVD降维 · 多模型对比

数据来源: Kaggle | 样本数: 75,682

75,682

样本总数

68%

最佳模型

LDA主题

23.5%

SVD方差

📊 一、数据概览

Twitter情感分析数据集包含75,682条推文，每条推文包含实体(公司/产品)和情感标签。

TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本特征提取方法，用于评估一个词在文档中的重要程度。

TF-IDF = TF(t,d) × IDF(t)
其中: TF=词频, IDF=log(总文档数/包含词t的文档数)

"game", "play", "FIFA", "league"等游戏词汇TF-IDF得分最高，说明游戏类推文数量多且内容集中。

LDA(Latent Dirichlet Allocation)是一种无监督主题模型，能够自动发现文档集合中的潜在主题结构。

P(词|文档) = Σ P(词|主题k) × P(主题k|文档)

主题	关键词
主题1	series, redemption, nvidia, twitch, xbox, red, tv
主题2	fifa, creed, legends, gta, league, thank
主题3	game, love, microsoft, amazon, good, great
主题4	time, depot, battlefield, pubg, player, facebook
主题5	don, fuck, fucking, shit, really, like

47.7%的负面情感推文属于主题5(包含大量负面词汇如fuck, shit)，说明LDA能有效区分情感类别。

SVD(Singular Value Decomposition)是一种矩阵分解技术，可用于降维和特征提取。

X = U × Σ × V^T
其中: U(文档×概念), Σ(概念权重), V^T(概念×词汇)

SVD将TF-IDF矩阵从75,682×5,000维降到100维，解释了23.54%的方差。

准确率: 68.25%，与单独TF-IDF接近。说明SVD降维后的特征没有带来额外信息增益。