2015年5月11日,星期一

ICLR 2015评论

ICLR的野心,质量和(小型)社区相结合,使之成为我最喜欢的会议。言语和视觉方面的最新成功,以及亿万富翁创始人和皇帝以及风险资本家的资金浪潮,给人以乐观的感觉,并渴望攻击人工智能。热情具有感染力。 (在程序上,在审阅过程中使用Arxiv使得与审阅者进行对话变得容易:每个人都应该这样做,如今双盲是一个神话。)

组织者在选择会议名称方面很有见识。虽然称为“深度学习会议”,会议是关于学习表示形式的。在AI的早期(即1960年代),表示被认为是至关重要的,但在那时,表示是手工构建的。这不仅(非常费力)费力,而且解决方案高度针对特定问题。推动这次会议的关键思想是使用数据和学习算法来帮助我们设计表示形式,希望使生成的表示形式更易于开发和更广泛地应用。如今,深度学习(即使用非凸优化技术训练的分层非线性)是实现此目的的领先技术,但如果这次会议更好地出现,那么(不久的将来)该会议将得到验证。

在上述情况下,选择接受的论文和邀请的演讲非常明智:深度学习论文绝对占多数,但也有一些有趣的论文可以利用 本征系统, 光谱法字典学习。受邀的演讲丰富多彩且有趣:Percy Liang的关于学习潜在的逻辑形式进行语义解析的演讲是一个很好的例子,因为他的工作显然涉及学习表示形式,但他在演讲中开玩笑地表示自己不熟悉深度学习。

有很多好的论文,所以看看 整个时间表,但这些吸引了我的注意。

通过共同学习对齐和翻译的神经机器翻译 结果在 这篇报告 有趣,但是该论文也作为学习的表示设计过程的一个示例而出类拔萃。深度学习是 只是将高度灵活的模型类应用于大量数据:如果那么简单,高斯内核将解决AI。取而代之的是,深度学习就像机器学习的其余部分一样:在计算复杂性的约束下,在模型复杂性和数据资源之间找到微妙的平衡。特别是,更多的数据和更快的GPU不会在标准神经编码器/解码器体系结构中带来这些改进,因为潜在矢量表示与序列到序列的映射之间存在不匹配。更好的方法是以适当匹配目标的方式明智地增加模型的复杂性。此外,“art”并不是知道对齐本身就很重要(灵感显然来自现有的SMT系统),而是在于弄清楚如何将类似对齐的操作合并到体系结构中而不破坏优化能力(使用SGD)。感谢作者。

请注意,虽然正在从数据中学习表示形式,但很显然,人类设计人员通过体系结构的规范(例如深度卷积网络),为系统提供了先验优势。我们应该预料,在不久的将来这种情况将继续存在,因为相对于我们要考虑的假设类别的复杂性,我们将始终处于数据贫困状态。谁对你说“我使用深度学习是因为我想在不做任何假设的情况下从原始数据中学习”不明白。如果他们也使用这句话“通用逼近器”,请退出对话并尽可能快地逃跑,因为没有什么比高精度表达的不正确直觉更危险了(参见Minsky)。

NICE:非线性独立分量估计 作者定义了一种灵活的非线性 它是体积保持且可逆的,从而生成了一个生成模型,对其进行推断(和训练),采样和修复很简单。这些技巧很酷,您想在其中找到用途。

定性表征神经网络优化问题 SGD的有效性有些神秘,并且 作者深入研究了优化前景 实际的神经网络遇到的直觉。演讲和海报还有其他很酷的可视化效果,这些效果不在本文中。

结构化预测 有几篇论文探讨了如何将深层神经网络超越分类而推进结构化预测。将神经网络与CRF结合是一种流行的选择,并且 陈等等 遵循这些原则,在Pascal VOC 2012上有不错的海报,并取得了良好的效果。 Jaderberg等。等 利用类似的策略来解决识别自然图像中单词的(可变和可扩展输出)问题。

极端分类 有几篇论文提出了加快学习分类模型的方法,其中输出的数量非常大。 Vijayanarasimhan等。等 尝试使用散列来近似逼近点积,而 文森特 提供某些损失函数(的梯度)的精确表达式,从而避免显式计算输出。在接下来的几周中,我将深入研究这些论文,以更好地理解它们。 (而且,理论上,您可以使用 我们的标签嵌入技术 以避免在GPU上训练极端深度分类器时完全避免输出层,但是YMMV尚未实现它。)