2016年1月31日星期日

未来有更多合著者

在完成ICML提交时,需要做些准备。

你可曾听说 马克斯·马丁?您可能还没有,这是考虑到他(目前)在美国获得了21名第一名。列侬(26)和麦卡特尼(32)拥有更多,但马克斯·马丁(Max Martin)的优势是仍然活着追赶。一个非凡的天才吧?是的,是的,但是如果您查看他的资料,他总是有合著者,通常是几位。 他的过程 他具有很高的协作能力,因为他管理着一群年轻的歌曲创作才华,他像一位优秀的导师那样培养学生和博士后。在越来越流行的流行音乐中,最好与5个人一起写#1首歌曲,然后自己写#20首歌曲。

我认为机器学习正朝着这个方向发展。物理领域已经在尝试突破极限 数量惊人的合著者。大概物理学理论论文的合著者较少,但是 标准模型太好了为了取得真正的进步,需要进行一些非常困难的实验工作。

现在考虑一个历史性的近期成就: 征服围棋。那篇论文有20位作者。自然论文意义重大,因此大概每个人都在尝试公平地进行归因,这导致了长长的作者列表:尽管如此,不可否认的是,这项成就需要许多人共同努力, 不同的技能。我认为Hastie和Tibshirani可以像粉碎列侬和麦卡特尼一样独自粉碎自己的时代已经结束。拥有正确理论思想以推动诸如强化学习等方面的工作的人们仍然需要一小组开发人员和系统专家来构建必要的工具。

So here's some advice to any young aspiring academics out there envisioning a future Eureka moment alone 在 a white-board: if you want to be 相关的, pair up with as many talented people as you can.

2016年1月12日星期二

注意:更多沉思

我提出的注意力模型 最后发表 仍然是合理的,但比较模型却不合理。 (这些启示是与我自己,Nikos和Sham Kakade进行有趣对话的结果。Sham最近在华盛顿大学任教,这是我的脖子。)

提醒一下,注意模型是一个二元分类器,它采用矩阵值输入$ X \ in \ mathbb {R} ^ {d \ times k} $,具有$ d $功能和$ k $列,权重(“attends”)通过参数$ v \ in \ mathbb {R} ^ d $到某些列,然后使用参数$ u \ in \ mathbb {R} ^ d $预测\\
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(u ^ \ top X z \ right),\\
z&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)}。
\ end {aligned}
\]我从上一篇文章($ w \ rightarrow u $)略微更改了表示法,其原因很快就会清楚。在上一篇文章中,比较模型是所有列上的无约束线性预测变量,\ [
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(w ^ \ top \ mathrm {vec \,}(X)\ right),
\ end {aligned}
\]和$ w \ in \ mathbb {R} ^ {d k} $。但这不是一个很好的比较模型,因为非线性的注意力模型无法以这种方式实现:苹果和橙子。

通过线性注意和回归任务更容易看到这一点。线性注意力模型根据$ {v ^ \ top X_i)$对每一列加权,例如,对于以下情况,$ {v ^ \ top X_i)$接近于零“background” or “irrelevant”的东西,对于“foreground” or “relevant”东西。在这种情况下, \[
\ begin {aligned}
\ hat y&= u ^ \ top X(v ^ \ top X)^ \ top = \ mathrm {tr} \ left(X X ^ \ top v u ^ \ top \ right),
\ end {aligned}
\](使用属性 跟踪),看起来像是完整模型上的等级1假设,\ [
\ begin {aligned}
\ hat y&= \ mathrm {tr} \ left(X X ^ \ top W \ right)= \ sum_ {ijk} X_ {ik} W_ {ij} X_ {jk} \\
%&= \ sum_i \ left(X X ^ \ top W \ right)_ {ii} = \ sum_ {ij} \ left(X X ^ \ top \ right)_ {ij} W_ {ji} \\
%&= \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ji} = \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ij}
\ end {aligned}
\]其中$ W \ in \ mathbb {R} ^ {d \ times d} $和w.l.o.g.对称的。 (现在希望符号更改是有意义的:字母$ U $和$ V $通常用于SVD的左右单数空间。)

$ W $的对称性使我感到困惑,因为这表明$ u $和$ v $是相同的(但是预测是非负的吗?),因此显然需要更多的思考。但是,这提供了一些见识,也许可以得出一些有关样品复杂性的已知结果。

2016年1月6日星期三

注意:我们可以将其形式化吗?

在统计中 偏差方差权衡 是一个核心概念。粗略地说,偏见是假设类别中最佳假设在现实中的表现,而方差是由于拥有有限的训练数据而导致多少性能下降。阿布·莫斯塔法(Abu-Mostafa)有一个 不错的演讲 在此。

上个世纪,数据和计算都相对稀缺,因此具有高偏差但低方差(与在假设类别上进行优化相关的计算开销较低)的模型很受欢迎:诸如广义线性模型之类的东西。当媒体进入数字化时代,数据变得越来越稀缺,人们重新审视了具有低偏差,高方差和适度计算开销的旧思想: n-gram语言建模。 GLM在这个时代继续表现出色,因为可以通过功能工程(例如广告响应模型)来利用偏差方差的折衷。具有低偏差和高方差但计算开销过高的旧想法基本上仍然是无关紧要的(我在找你,k近邻)。

如果您走在曲线的前面(不是我!),您会发现数据和计算约束的持续放松都倾向于使用较低的偏差模型。然而,“easy”偏见的减少(增加方差仍然不可行),因为很遗憾,鉴于我们要建模的目标的复杂性,我们仍然受到数据的限制(“AI”)。因此,真正的游戏是在不增加偏差的情况下减少偏差。贝叶斯可能会说“good generic priors”。约书亚·本吉奥(Joshua Bengio)早就意识到了这一点,并在 我一直以来最喜欢的论文之一。 3.1节特别是纯金。在该部分中,作者列出了几个关键的通用先验条件,例如平滑度,层次性,多任务,低内在维数,多尺度,稀疏性等。

该列表中与该列表最接近的关注点是稀疏度,其含义相当接近,但是我更喜欢关注这个术语:对我而言,重要的是每个示例的动态稀疏度,该稀疏度是根据“complete” example, where “complete”也许可以通过分层注意力来缓解。注意模型最近已经被粉碎,例如 视力言语;我还怀疑深度卷积架构如此出色的一个重要原因是重复的非线性池化操作就像一个注意机制,参见图2的图2。 西蒙扬(Simonyan)等。等。人们对注意力的关注如此之大,以至于必须找到一种数学上显示出优越性的方法。

因此,这是我的猜测:注意是一个很好的通用先验,我们可以对此进行形式化。不幸的是,理论不是我的强项,但我认为以下内容可以接受分析。首先设置:任务是二进制分类,特征是矩阵$ X \ in \ mathbb {R} ^ {d \ times k} $。注意模型由两个向量$ w \ in \ mathbb {R} ^ d $和$ v \ in \ mathbb {R} ^ d $组成。注意模型通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(w ^ \ top X z \ right),\\
z_i&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)},
\ end {aligned}
\],即$ z \ in \ Delta ^ k $是softmax,用于为$ X $的每一列选择权重,然后$ w $在给定的输入$ X z \ in \减少的情况下线性预测标签。 mathbb {R} ^ d $。如果您更需要注意,则可以强制$ z $作为单纯形的顶点。

非注意模型由向量$ u \ in \ mathbb {R} ^ {k d} $组成,并通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(u ^ \ top \ mathrm {vec \;}(X)\ right),
\ end {aligned}
\],即忽略$ X $中的列结构,展宽矩阵,然后使用所有功能进行估算。

天真的参数计数(通常是无意义的)表明,注意力模型(带有$ 2 d $参数)比非注意力模型(带有$ k d $参数)复杂。但是,我想对偏差和差异做一些更正式的陈述。特别是我的直觉说,应该存在一些条件,在这些条件下,从根本上减小方差,因为最终的预测对于不涉及的事物是不变的。

如果有人对如何取得进展有任何想法,请随时分享(在这里公开公开是很好的,如果您不喜欢暴露香肠的生产过程,请直接与我联系)。如果文献已经解决了这些问题,也请随时启发我。