2016年1月6日星期三

注意:我们可以将其形式化吗?

在统计中 偏差方差权衡 是一个核心概念。粗略地说,偏见是假设类别中最佳假设在现实中的表现,而方差是由于拥有有限的训练数据而导致多少性能下降。阿布·莫斯塔法(Abu-Mostafa)有一个 不错的演讲 在此。

上个世纪,数据和计算都相对稀缺,因此具有高偏差但低方差(与在假设类别上进行优化相关的计算开销较低)的模型很受欢迎:诸如广义线性模型之类的东西。当媒体进入数字化时代,数据变得越来越稀缺,人们重新审视了具有低偏差,高方差和适度计算开销的旧思想: n-gram语言建模。 GLM在这个时代继续表现出色,因为可以通过功能工程(例如广告响应模型)来利用偏差方差的折衷。具有低偏差和高方差但计算开销过高的旧想法基本上仍然是无关紧要的(我在找你,k近邻)。

如果您走在曲线的前面(不是我!),您会发现数据和计算约束的持续放松都倾向于使用较低的偏差模型。然而,“easy”偏见的减少(增加方差仍然不可行),因为很遗憾,鉴于我们要建模的目标的复杂性,我们仍然受到数据的限制(“AI”)。因此,真正的游戏是在不增加偏差的情况下减少偏差。贝叶斯可能会说“good generic priors”。约书亚·本吉奥(Joshua Bengio)早就意识到了这一点,并在 我一直以来最喜欢的论文之一。 3.1节特别是纯金。在该部分中,作者列出了几个关键的通用先验条件,例如平滑度,层次性,多任务,低内在维数,多尺度,稀疏性等。

该列表中与该列表最接近的关注点是稀疏度,其含义相当接近,但是我更喜欢关注这个术语:对我而言,重要的是每个示例的动态稀疏度,该稀疏度是根据“complete” example, where “complete”也许可以通过分层注意力来缓解。注意模型最近已经被粉碎,例如 视力言语;我还怀疑深度卷积架构如此出色的一个重要原因是重复的非线性池化操作就像一个注意机制,参见图2的图2。 西蒙扬(Simonyan)等。等。人们对注意力的关注如此之大,以至于必须找到一种数学上显示出优越性的方法。

因此,这是我的猜测:注意是一个很好的通用先验,我们可以对此进行形式化。不幸的是,理论不是我的强项,但我认为以下内容可以接受分析。首先设置:任务是二进制分类,特征是矩阵$ X \ in \ mathbb {R} ^ {d \ times k} $。注意模型由两个向量$ w \ in \ mathbb {R} ^ d $和$ v \ in \ mathbb {R} ^ d $组成。注意模型通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(w ^ \ top X z \ right),\\
z_i&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)},
\ end {aligned}
\],即$ z \ in \ Delta ^ k $是softmax,用于为$ X $的每一列选择权重,然后$ w $在给定的输入$ X z \ in \减少的情况下线性预测标签。 mathbb {R} ^ d $。如果您更需要注意,则可以强制$ z $作为单纯形的顶点。

非注意模型由向量$ u \ in \ mathbb {R} ^ {k d} $组成,并通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(u ^ \ top \ mathrm {vec \;}(X)\ right),
\ end {aligned}
\],即忽略$ X $中的列结构,展宽矩阵,然后使用所有功能进行估算。

天真的参数计数(通常是无意义的)表明,注意力模型(带有$ 2 d $参数)比非注意力模型(带有$ k d $参数)复杂。但是,我想对偏差和差异做一些更正式的陈述。特别是我的直觉说,应该存在一些条件,在这些条件下,从根本上减小方差,因为最终的预测对于不涉及的事物是不变的。

如果有人对如何取得进展有任何想法,请随时分享(在这里公开公开是很好的,如果您不喜欢暴露香肠的生产过程,请直接与我联系)。如果文献已经解决了这些问题,也请随时启发我。

1条评论:

  1. We are aware of an encouraging result for the case of static 在 tention where the "parts" are features 和 there is no competition among them (i.e. the 在 tention vector z does not have to sum to 1). This is the same as learning a sparse model 和 Andrew Ng's analysis of L1 regularization ( http://ai.stanford.edu/~ang/papers/icml04-l1l2.pdf ) shows that it can exponentially reduce sample complexity (from O(number of features) to O(log(number of features)). At the same time, rotationally invariant methods (c.f. the paper above) have to use O(number of features). When I read the paper, long time ago, I did not find the analysis very enlightening, but perhaps the ideas in there are right headed.

    回复删除