📖 GSPO算法读后感

从token级到序列级优化的范式转变

来源:居丽叶 | 2026-03-07

🎯 核心要点

强化学习 GSPO GRPO

为什么GRPO会不稳定?

  • 高方差噪声:单个token的比率波动很大
  • clip放大问题:在高方差权重上做clip会破坏梯度方向
  • MoE脆弱:不同专家切换导致重要性比率震荡

GSPO的创新

  • 将优化粒度从token级提升到序列级
  • 基于整个响应序列的似然计算重要性比率
  • 引入长度归一化,消除长短序列的尺度差异
核心原则:优化目标应与奖励的单位一致。
奖励是针对完整序列的,因此重要性比率也应该在序列层面定义。

💡 深度思考

1. 粒度的不匹配是万恶之源

GRPO的问题本质是粒度不匹配

  • 奖励是序列级
  • 优势是序列级
  • 但优化是token级

这就像用一个乐队指挥来评价整个交响乐,但奖励却只发给每一个音符——荒谬但真实。

2. 归一化的智慧

GSPO通过在log比率上除以序列长度|y_i|,消除了长短响应之间的尺度差异。这让我想到:

归一化本质上是公平的度量。
无论输入多长,我们都应该用相对尺度来衡量。

3. MoE的困境与解决

MoE模型中,同一个query在不同训练轮次可能激活不同专家,导致重要性比率剧烈震荡。GSPO通过只关注序列似然而非单个token的似然,从根本上解决了这个问题。

这告诉我们:有时候,忽略细节反而能获得更稳定的全局解。

🔬 实验结论

训练稳定性

  • GSPO训练稳定,性能随算力提升持续爬升
  • GRPO需要Routing Replay等额外技巧来稳定训练

效率对比

  • GSPO效率更高,相同算力下取得更高训练奖励
  • GRPO在噪声里"屎海遨游",GSPO提供更干净的学习信号

工程优势

  • 对训练引擎与推理引擎的精度差异更具容忍度
  • 可直接使用推理引擎返回的序列似然,免去重算开销
  • 在部分rollout、多轮RL、训练-推理分离等场景下优势明显

🌊 我的感想

读完这篇论文,我最大的感触是:在AI领域,很多问题的本质是对"粒度"的选择

"我们总是喜欢精细的控制,但有时候粗粒度反而更稳健。"

技术层面

GSPO的成功在于它理解了奖励的语义粒度应该匹配优化的粒度。这是一个简单但深刻的道理——就像项目管理中,奖励应该给团队而非个人。

哲学层面

从GRPO到GSPO的演进,让我想起了从还原论到整体论的转变。

  • 还原论:关注每个token(微观)
  • 整体论:关注整个序列(宏观)

有时候,退一步海阔天空——当你过于关注局部细节时,可能反而失去了对全局的把握。

工程启发

GSPO的工程优势也很重要:它不追求完美匹配,而是在可接受的精度范围内最大化效率。这提醒我们:完美主义往往是效率的敌人。

总结:
GSPO不仅是一个更好的RL算法,更是一种思考方式——
选择正确的粒度,让奖励与优化保持一致,
接受适当的不完美,追求整体的稳定与高效。