2015年1月15日,星期四

展开推理

新年快乐!我的新年决心是不要害怕非凸优化。统计上有一个 高可能性 我将在二月份回到仅优化凸损耗的问题:)。

但是与此同时,这方面的有趣论文 油炸卷积网。这里的想法是使用 快速核逼近 取代深层卷积神经网络的完全连接的最终层。可以为内核近似计算梯度并将其传递到较低的卷积层,因此可以使用SGD端到端对整个体系结构进行培训,其中包括一些有趣的技巧,例如在内核近似上进行辍学。

亚历克斯·斯莫拉(Alex Smola)是一个聪明的人,我认为他从深度学习的近期成功中学到了教训。实际上,似乎我们必须每十年左右重新学习一次该课程,即 非凸架构的端到端培训可以产生出色的结果,并且SGD极其通用。我看到油炸卷积网与约翰·赫尔希(John Hershey)的观点相同 深层展开 神经网络的想法是,从模型(例如内核机器)开始,创建模型的参数化近似值(例如快餐),然后(非凸面)使用SGD优化端到端的近似值。

没意见:

发表评论