机器学习思考笔记 | 徐一立

GSPO算法

从token级到序列级优化的范式转变，Qwen团队提出的GRPO改良版

强化学习 GSPO

梯度下降

为什么梯度下降是最优雅的解法？从优化理论谈到人生哲学

神经网络

从函数逼近到世界模型，层次化表示与深度学习

深度学习表示学习

过拟合

为什么恐惧是最好的老师？正则化与泛化的智慧

正则化泛化

📋 即将推出

⚡

05

Transformer

注意力作为统一的接口

🎲

06

强化学习

探索与利用的平衡

🎨

07

GAN

生成与判别的辩证法

🧩

08

元学习

学会学习