优化理论 哲学
梯度下降法(Gradient Descent)可能是机器学习中最核心的算法。但它的意义远不止于"找到最小值"——它揭示了一个深刻的哲学真理:通过不断的微小修正,我们可以接近任何目标。
我们生活在一个非凸的世界里。梯度下降可能会停在局部最小值——就像人生中过早的"自我满足"。跳出局部最小值的方法:
梯度的本质是什么?是局部线性近似的方向。我们不需要知道整座山的形状,只需要知道脚下的坡度在哪里。
这像极了苏格拉底的智慧:"我知道我一无所知"。我们不需要理解整个loss landscape,只需要沿着梯度方向走。
标准梯度下降的收敛速率是O(1/t)。这意味着:
启示:学习是指数衰减的。最初的几步至关重要——所以要慎重选择你的起始方向。