2015年12月15日,星期二

NIPS 2015评论

从字面上看,NIPS 2015的规模比以往任何时候都要大:大约3700名与会者,这是去年的两倍左右,而后者又是前一年的两倍。这显然是不可持续的,但是鉴于供应商和招聘活动的疯狂程度,也许还有增长的空间。然而,主要会议是单轨会议,已经进行了3天:因此,海报发布会将采取更多行动,与发布会一起,营造出各种小型会议的感觉。显然,我对行动的看法将是高度不完整的,并偏向于我自己的利益。

强化学习

强化学习不断提高,扩展了ICML的热情和精力。的“Imagenet moment”因为RL是Deepmind在 街机学习环境。在演讲中 深度RL研讨会, 迈克尔·保龄球 提出的证据表明,性能的大幅提升主要表现为1)使用卷积网络更好地解码屏幕,以及2)使用多个先前帧作为输入。这并不是要破坏突破,而是要指出,这种进步并未解决RL的困难部分(长动作序列的部分反馈)。有趣的是,目前还没有一个擅长玩陷阱的系统,这需要很长的动作序列才能获得奖励。保龄球的名言是我们擅长比赛“您随机摇动操纵杆,您将获得一些回报。”

但是,社区并没有停滞不前:现在,如此多的热情和人才正朝着这个方向思考,所以进步有望加速。例如,我经常看到的一个想法是:部分地观察到了奖励(稀疏!),但是不断地观察到了感官输入。因此,将对未来奖励的预测分解为以下各项的组合:1)预测以动作序列为条件的未来感觉输入,以及2)预测给定感觉输入的奖励。从样本复杂性的角度来看,这很有道理。如 李洪立 他在Deep RL研讨会上的演讲中指出,相同的技术为 变压器网络 可以学会预测以动作序列为条件的未来感官输入,可以将其用于模拟播放。 (如果您了解POMDP,则分解可能没有意义,因为您不一定可以从当前的感觉状态预测奖励;但是我们必须先爬网才能行走,并且可能可以构成逐个序列学习的想法通过这种分解可以对不可观察的世界状态进行建模。)

另一个流行的强化学习主题是需要更好的探索策略。我怀疑这是真正重要的部分:我们如何以一种与我们的假设类别(可能相对较小,冗余且充满结构性假设)相关的方式来进行遗憾探索,而不是探索世界本身(哪一个大)这就是背景强盗的作用:如果所有好的政策都想要采取相同的行动,那么探索就没有那么重要了。在会议上,流行语是“intrinsic motivation”, roughly meaning “是否有一个有用的进度代理可以应用于所有未观察到奖励的动作序列?”。给定奖励预测分解为(动作序列条件的感觉输入预测+感觉奖励预测),则发现新颖的感觉状态是有用的训练数据,大致可转化为探索策略。“大胆地去你从未去过的地方”希望它不会杀死你。

最后,我有一些轶事证据表明,强化学习正在走向成熟的工业技术:在ICML上,我与Deepmind的人们交谈时,他们会说他们正在从事强化学习的某些技术方面的工作。这次我得到了类似的答案“I'm doing RL for ads” or “我正在为建议做RL”。这是一个很大的变化。

其他的东西

会议上还有其他有趣的话题,我仍在收集我的想法。
  1. 我真的很喜欢最好的纸 竞争性分配估算:为什么好转好,我怀疑这与极端分类有关。
  2. 布朗和桑德霍尔姆正在做他们的惊人的事情 单挑无限注扑克玩家。这是其中之一“我们可能没有了解人类如何解决问题,但它仍然是很酷的技术。”肚脐凝视不是一切!
  3. 我仍然喜欢内核的原始近似(在极端分类中,我们必须拥抱线性预测变量),所以我喜欢 多项式核的球面随机特征.
  4. 我想尝试 在线F测度优化。 F量度是极端分类中的重要指标,但仅对其进行计算就很难了,而不必直接对其进行优化。也许现在不一样了。
  5. 自动化机器学习 aka AutoML逐渐升温。近期目标之一是消除对典型的有监督学习设置中的专业知识的需求。海报 高效,强大的自动化机器学习 是一个有趣的例子。的 AutoML挑战 在CIML研讨会上,持续的挑战也值得关注。 IBM在他们的聚会上还展示了一个很酷的AutoML产品演示(从名称上讲:这些东西的含义是什么?他们显然是在招聘职能,但他们伪装成一个由书呆子和讨厌的朋友抛出的大学聚会)。
  6. 记忆系统,在会议上以 端到端存储网络 纸,并在研讨会上 RAM研讨会。我特别喜欢 注意 作为减轻样本复杂性的一种机制:如果您不关注某件事,那么您不变的事情就是这样做,这极大地减轻了数据需求,当然您会假设您忽略了无关紧要的东西。从统计上讲它是否便宜一些 什么 重要而不是 怎么样 重要的是,为后者保留宝贵的数据资源?我不确定,但是 学习唤醒睡眠经常性注意力模型 在我的阅读清单上。
  7. 公路网 看起来很甜蜜通过身份转换进行初始化的想法很有意义。例如,所有现有的深度网络都可以被视为高速公路网络,其中有超过一定深度(即不完全优化)的身份转换层数不计其数。“infinitely deep” highway networks.
  8. 极端分类 仍然是活跃区域, 作坊 考虑到我们在RAM研讨会的对面(当时这是仅在客厅使用的违反消防法规的活动),因此参加会议的人员相当多。我特别喜欢Charles Elkan的演讲,我可以总结为“我们只需要计算大量的稀疏GLM,我正在努力做到这一点 .” My own work with 分层频谱方法 确实表明,如果我们可以计算出GLM,它将具有出色的性能,所以我喜欢这条攻击线(也可以想象,我可以组合两种技术)。也很有趣:对于平方损失,如果特征维数较小,则可以通过以下方式在标签稀疏时间中计算出准确的损失梯度: 高效的精确梯度更新,用于训练具有超大稀疏目标的深层网络。这对于在输出层之前具有低维瓶颈的典型神经网络非常有用(不幸的是,它对于大型的稀疏GLM并不能按原样使用,但也许可以修改此技巧吗?)。
  9. 路径SGD
    通过消除一个讨厌的不变因素,对于更好地优化深度网络可能是一个很酷的技巧。
  10. 反事实学习的自归一化估计量。如果您喜欢强化学习,那么您应该喜欢反事实评估,因为后者为前者提供了关键的见解。我需要与提议的估算器一起使用,但看起来似乎更好。
  11. 驯服狂野:Hogwild风格算法的统一分析。虽然我有很多 霍格威尔德和矩阵分解共同发挥作用的经验证据,此分析声称他们应该一起玩。整齐!
  12. 最后但并非最不重要的一点是 机器学习系统 CISL同事Markus Weimer共同组织的研讨会。虽然不是很违反消防规范,但它只是站立的空间。