从token级到序列级优化的范式转变
来源:居丽叶 | 2026-03-07
GRPO的问题本质是粒度不匹配:
这就像用一个乐队指挥来评价整个交响乐,但奖励却只发给每一个音符——荒谬但真实。
GSPO通过在log比率上除以序列长度|y_i|,消除了长短响应之间的尺度差异。这让我想到:
MoE模型中,同一个query在不同训练轮次可能激活不同专家,导致重要性比率剧烈震荡。GSPO通过只关注序列似然而非单个token的似然,从根本上解决了这个问题。
这告诉我们:有时候,忽略细节反而能获得更稳定的全局解。
读完这篇论文,我最大的感触是:在AI领域,很多问题的本质是对"粒度"的选择。
GSPO的成功在于它理解了奖励的语义粒度应该匹配优化的粒度。这是一个简单但深刻的道理——就像项目管理中,奖励应该给团队而非个人。
从GRPO到GSPO的演进,让我想起了从还原论到整体论的转变。
有时候,退一步海阔天空——当你过于关注局部细节时,可能反而失去了对全局的把握。
GSPO的工程优势也很重要:它不追求完美匹配,而是在可接受的精度范围内最大化效率。这提醒我们:完美主义往往是效率的敌人。