2013年1月2日,星期三

NIPS 2012趋势

我认为我应该对我今年在NIPS上观察到的一些趋势发表评论,而不是发表论文清单。

深度学习又回来了

对于真正的忠实的深度学习,我们再也没有离开过,但对于其他所有人,最近的一些新发展都对它们有利。

首先,数据集越来越大。更大的数据集意味着可以考虑更复杂的模型族而不会过度拟合。一旦数据集变得太大,超过了计算约束,但在10区5 to 106 行和102 to 103 专栏深度学习的计算成本是可以容忍的,并且该区域包含许多具有较高经济价值的数据集。

第二,数据集已经公开。称之为 卡格勒 如果您愿意的话,会产生影响,尽管纯粹是学术项目,例如 影像网 也很重要一旦更大的兴趣数据集成为公众有意义的技术比较就成为可能。这是一篇快速的论文阅读提示:论文的那一部分讨论论文的方法比其他方法更好,您可以跳过该部分,因为该部分中的数字受到特定的选择压力:作者不断试验他们的技术,直到证明它更好为止,而他们对竞争技术却没有同样的热情。另一方面,如果存在这样一种情况,技术A的支持者在数据集上尽可能地努力,而技术B的支持者在数据集上尽可能地努力,那么知道谁做得更好就更有趣了。 。深度学习社区受益于此类匹配,因为归根结底,它们非常注重经验。

第三,数据集变得更加多样化。如果您对域有足够的直觉来选择特征和/或内核,则线性方法会很好用。在没有领域知识的情况下,非凸优化可以提供替代。

多核和GPU驱动的计算机的兴起推动了这些趋势。虽然深度学习通常是深度神经网络的同义词,但我们可以退一步说,深度学习实际上是通过非凸优化(通常由SGD驱动)进行学习。不幸的是,由于对带宽的高要求,SGD在分布式环境中的表现不佳。具有多核或多个GPU卡的单台计算机实质上是一个具有高速互连的小型集群,有助于解决SGD的某些局限性(以及流水线和迷你分批处理)。我认为,与分布式方法相比,近期技术更倾向于使用GPU方法进行深度学习(例如 信仰区),因为存在经济压力,需要增加GPU的内存带宽以用于计算机游戏。我偏爱深度学习的分布式方法,因为在实践中,数据的可操作存储通常是一个集群,因此 原位 操纵是可取的。不幸的是,我认为这将需要一种截然不同的方法,即选择非凸性,其明确的设计目标是允许有效的分布式优化。在这些方面取得突破之前,我的钱都花在了GPU上。

概率编程

概率编程是一种建模方式,其中用户以声明方式对生成的模型和一些所需的后验摘要进行编码,然后系统将该规范转换为答案。
声明性系统是计算机科学中纯正的典范。在实践中,声明性系统面临采用方面的障碍,因为除非所讨论的域被很好地抽象,否则最终用户不可避免地会发现特定于域的语言的局限性难以忍受。如果领域是非常抽象的,那么如果存在广泛适用的通用策略和优化,则声明式系统会蓬勃发展,因为即使是最有经验和才华的程序员也会发现声明式框架更具生产力(至少对于原型设计而言,很可能对于完成的产品)。

因此,这里有个好消息:对于贝叶斯主义者,通过蒙特卡洛进行后验汇总时,大量的机器学习都被很好地抽象了。此外, 没有掉头采样器 看起来像是一种广泛适用的策略,某些其他技术(例如自动微分和符号模型简化)则提供了正确性和(相对)速度的希望。总的来说,这看起来像灌篮。

潜在模型的光谱方法

I 关于此的博客 已经广泛。 tl; dr是频谱方法通过消除E-step保证了更多可扩展的潜在模型学习。以我的经验,主题模型为许多领域中的后续监督分类(不只是文本!)提取了出色的功能,因此实际上这是一个令人兴奋的发展。同样,将主题模型视为提取高阶矩特征值的观点也给出了一些直觉,即它们为何具有广泛的用途。

2条评论:

  1. Wrt"另一方面,如果存在这样一种情况,技术A的支持者在数据集上尽可能地努力,而技术B的支持者在数据集上尽可能地努力,那么知道谁做得更好就更有趣了。 。"...在Kaggle比赛中值得注意的是,顶级冠军之间的差距很小。实际上,*大多数*获胜者使用了丰富的功能集和整体方法,通常是Random Forest。如果不是'迄今为止,大多数竞争对手将采用相同的策略(目标是赢得竞争),结果是,具有相似结果的竞争对手的数量将会增加。

    回复删除
    回覆
    1. 同意合奏通常以微不足道的优势获胜。这就是为什么它如此戏剧性,以至于深度学习团队在默克竞赛中*粉碎了该领域。他们在NIPS演讲中声称,事后看来,他们没有'不需要合奏,仅凭深层网络就足以赢得胜利(不知道并想赢得胜利,他们当然提交了合奏)。

      正如您所说,展望未来,大概每个人都将相似的技术纳入他们的提交团队。

      删除