2011年8月20日,星期六

众包工人的低等级混乱建模

在一个 以前的帖子 我提出了 标称提取物 给定众包数据的任务,该模型用于估计地面真相的分布,该数据由有限标签集合中的强制选择组成。该方法的灵感来自 GLAD框架 Whitehill et。等,但最终也类似于 戴维德和斯凯恩 它可以追溯到1970年代后期(Dawid-Skene并未对任务难度进行建模,而GLAD则无法处理多类情况并使用对称误差模型; 标称提取物 基本上是两者的融合)。基本思想是共同估算基本事实,任务难度和每个工人 混淆矩阵 通过 电磁。当标签集$ K $小时,效果很好;例如,当$ K = 2 $(二进制标签)时,该方法将估算每个工人的误报率和误报率,或者等效地计算准确性和偏差率。如果少数派通常更准确,则这允许少数派(可能是单身人士)的工作人员覆盖多数派的决策。

不幸的是,随着标签集的增长,每个工人模型中参数的数量也随着$ O(| K | ^ 2)$增长。在我的数据集中,中位数工作人员通常执行大约100项任务,因此当$ | K |>5美元左右,每个工作者的参数数量使数据不堪重负。由于生成模型中的层次结构,降级是合理的:最终使用均值混淆矩阵对工人进行建模。但是,这令人难以理解:众包工作者的技能,动机和意图(有时是对抗性的)差异很大,并且一些个性化是可取的。

合理的方法是对从混乱矩阵的混合物中抽取的人口进行建模,并从整个人口中估算出均值,并从每个工人身上估算出混合物的权重(或者,可以通过艰苦的工作将工人离散分配给工人组) 电磁)。但是,在准备本博客文章时,我只有这种见识,所以我没有这样做。取而代之的是,自从几周前我在大脑上完成了矩阵完成运算以来,我采用了低秩近似。

在核心 标称提取物 型号是\ [
p(L_ {ij} = l | Z_j = k)\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j},
\]其中$ L_ {ij} $是工作人员$ i $在示例$ j $上输出的标签,$ Z_j $是真实标签,$ \ alpha_i $是工作人员$ i $的混淆矩阵,以及$ \ beta_j $是每个图像的困难因素。回想起来,这可以看作是按标签,真实标签,工作人员ID和图像ID索引的$ 4 ^ \ mathrm {th} $订单对数似然张量的临时低秩近似。

规范多元分解 顾名思义,它是张量的低秩逼近的标准。在元素方面,对于$ 4 ^ \ mathrm {th} $阶张量,它看起来像\ [
p(L_ {ij} = l | Z_j = k)\ propto \ exp(x_ {ijkl})\ approx \ exp \ left(-\ sum_n a ^ {(n)} _ i b ^ {(n)} _ j c ^ {(n)} _ k d ^ {(n)} _ l \ right)。
\]现在实际上只对单个图像评分了几次(例如5次),因此大概最好将每个图像参数折叠成标量$ b_j ^ {(n)} = \ beta_j 1 $,产生\ [
p(L_ {ij} = l | Z_j = k)\ propto \ exp \ left(-\ beta_j \ sum_n a ^ {(n)} _ i c ^ {(n)} _ k d ^ {(n)} _ l \对)。
\]因此,每个评估者都有一个混淆矩阵,该矩阵是等级1矩阵的共享集的线性组合,所产生的参数比 标称提取物.

通过EM进行估算,如 标称提取物,尽管众包数据集的规模通常不大,但效率不是特别好,因此可以完成工作。为了使EM运作良好,有助于有一个好的起点;在 标称提取物 先前的规范使模型最初将未观察到的真实标签分布估计为平滑的经验标签分布,这是一个合理的初步猜测。这是通过确保最初混淆矩阵的对角元素小于所有其他元素来完成的,因此在此进行复制。完整的模型由\ [
\ begin {aligned}
\ gamma_n&\ sim \ mathcal {N}(0,1),\\
\ log a ^ {(n)} _ i&\ sim \ mathcal {N}(\ gamma_n,1),\\
c ^ {(n)} _ k&\ sim \ mathcal {N}(\ frac {1} {N},1),\\
d ^ {((n)} _ l&\ sim \ mathcal {N}(1,1),\\
\ log \ beta_j&\ sim \ mathcal {N}(1、1),\\
p(L_ {ij} = k | Z_j = k)&\ proto 1,\\
p(L_ {ij} = l | Z_j = k)&\propto \exp \left(-\beta_j \sum_n a^{(n)}_i c^{(n)}_k d^{(n)}_l \right) \;\; (k \neq l),
\ end {aligned}
\]其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引标签} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
n和\ mbox {索引近似分量} \\
\ gamma和\ mbox {混淆矩阵混合超参数} \\
a ^ {(n)} _ i和\ mbox {每个工人的混淆矩阵混合向量} \\
c ^ {(n)} {d ^ {{n}}} ^ \ top&n ^ \ mathrm {th} \ mbox {rank-1混淆矩阵} \\
\ beta_j和\ mbox {每个图片的难度} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的标签} \\
Z_j和\ mbox {与图片关联的未知真实标签}
\ end {array}
\]尽管此模型减轻了样本复杂性问题,但是计算复杂性仍然是$ O(| K | ^ 2)$,因为我在未观察到的标签上保持了完整的分布,从而边缘化了计算似然性,即做软EM。进行硬EM是不希望的,因为基于地面事实的分布可用于为立即进行成本敏感的决策或创建成本敏感的多类分类(CSMC)训练集提供成本向量。换句话说,最好是在众包数据对底层标签没有决定性的情况下进行编码,而硬EM则不这样做。我怀疑吉布斯的抽样策略可能会起作用(通过抽样来估算地面真实情况的分布),但是我还没有尝试过。我也听说过软EM的一种变体,其中在e-step中将小概率强制为零,这可能值得尝试。由于我的众包数据集规模往往不大,因此这还不足以令人烦恼,无法证明进一步的创新。但是,在不久的将来,当我将一些对成本敏感的多标签分类问题减少到电源上的CSMC上时,烦恼程度可能会显着上升。

开源实现可以 标称低秩提取 来自 nincompoop代码存储库.

1条评论:

  1. 鲍勃·卡彭特(Bob Carpenter)希望对此信息发表评论,但遇到了麻烦(博客问题?),所以我'我为他评论。

    我尝试在评论中留下更长的链接
    博客回复,但未成功。至少是
    避风港't shown up. Here's the link:

    http://lingpipe-blog.com/2011/09/08/item-difficulty-multinomial-annotatio/

    -鲍勃·卡彭特

    回复删除