为什么大多数的神经网络都先升维再降维?
在知乎里面看到了一篇非常硬核的理论分析,其中想要完全看懂,需要至少掌握:
- 机器学习中《西瓜书》里的 VC 维(书中对这个有讨论,但是只有一点点)
- 泛函分析
- 随机过程
还是受限于“书到用时方恨少”,知识能力不足,吃了没文化的亏,导致不是能完全看懂这个分析文章
这里简短描述下哲学思想:
- 低维空间复杂的,不可分的任务,在高维空间很有可能是可分的,容易解的,这就意味着,一个很难的任务不过是高维空间中简单任务的投影(张一鸣语录中也有这个描述)
- 神经网络中处理的大多数都是不可分的,因此投影到高维空间,变得线性可分,从而简单求解
- 这种思想在传统机器学习中早有体现,那就是SVM,只不过需要手工设计核函数(之前的数学家们设计了非常多的性质良好的核函数,比如高斯核),而神经网络的升维也是核函数,不过是是动态的,可自动学习的,隐试的核函数。