2016年1月12日星期二

注意:更多沉思

我提出的注意力模型 最后发表 仍然是合理的,但比较模型却不合理。 (这些启示是与我自己,Nikos和Sham Kakade进行有趣对话的结果。Sham最近在华盛顿大学任教,这是我的脖子。)

提醒一下,注意模型是一个二元分类器,它采用矩阵值输入$ X \ in \ mathbb {R} ^ {d \ times k} $,具有$ d $功能和$ k $列,权重(“attends”)通过参数$ v \ in \ mathbb {R} ^ d $到某些列,然后使用参数$ u \ in \ mathbb {R} ^ d $预测\\
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(u ^ \ top X z \ right),\\
z&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)}。
\ end {aligned}
\]我从上一篇文章($ w \ rightarrow u $)略微更改了表示法,其原因很快就会清楚。在上一篇文章中,比较模型是所有列上的无约束线性预测变量,\ [
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(w ^ \ top \ mathrm {vec \,}(X)\ right),
\ end {aligned}
\]和$ w \ in \ mathbb {R} ^ {d k} $。但这不是一个很好的比较模型,因为非线性的注意力模型无法以这种方式实现:苹果和橙子。

通过线性注意和回归任务更容易看到这一点。线性注意力模型根据$ {v ^ \ top X_i)$对每一列加权,例如,对于以下情况,$ {v ^ \ top X_i)$接近于零“background” or “irrelevant”的东西,对于“foreground” or “relevant”东西。在这种情况下, \[
\ begin {aligned}
\ hat y&= u ^ \ top X(v ^ \ top X)^ \ top = \ mathrm {tr} \ left(X X ^ \ top v u ^ \ top \ right),
\ end {aligned}
\](使用属性 跟踪),看起来像是完整模型上的等级1假设,\ [
\ begin {aligned}
\ hat y&= \ mathrm {tr} \ left(X X ^ \ top W \ right)= \ sum_ {ijk} X_ {ik} W_ {ij} X_ {jk} \\
%&= \ sum_i \ left(X X ^ \ top W \ right)_ {ii} = \ sum_ {ij} \ left(X X ^ \ top \ right)_ {ij} W_ {ji} \\
%&= \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ji} = \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ij}
\ end {aligned}
\]其中$ W \ in \ mathbb {R} ^ {d \ times d} $和w.l.o.g.对称的。 (现在希望符号更改是有意义的:字母$ U $和$ V $通常用于SVD的左右单数空间。)

$ W $的对称性使我感到困惑,因为这表明$ u $和$ v $是相同的(但是预测是非负的吗?),因此显然需要更多的思考。但是,这提供了一些见识,也许可以得出一些有关样品复杂性的已知结果。

没意见:

发表评论