深度学习 表示学习
通用逼近定理(Universal Approximation Theorem)说:一个足够大的神经网络可以逼近任何连续函数。
但这里有个深刻的悖论:表达能力 ≠ 可学习性
神经网络可以表示任何函数,但不意味着我们可以训练它找到这个函数。就像你有一本包含所有答案的书,但不知道如何查找。
深度网络之所以有效,是因为它学会了层次化的表示:
这像极了人类理解世界的方式:从感知到概念。康德的先验综合感性理论,或许在神经网络的层次结构中找到了数学对应。
这像组织知识:不是把所有东西平铺,而是建立抽象的层级。软件开发中的模块化、面向对象编程,都是同样的智慧。
我们用损失函数定义"什么是好"。但:
你选择什么样的loss function,就是选择什么样的人生目标。