2011年2月7日,星期一

有序值和机械特克:第二部分

在一个 以前的帖子,我概述了给定序标签的众包标签生成的生成模型。该模型包括建模图像难度($ \ alpha_j $)和评估者偏差($ \ tau_ {ik})$的参数,但与 我的名义标签模型 没有任何术语可以反映评分者的准确性。这是一个明显的遗漏,因为从直觉上讲,生成模型的一个目标是识别准确的评分者并为其标签赋予更高的权重。因此,我使用每个评估者($ \ lambda_i $)建模评估者准确性的附加参数以及超优先级的单个附加参数($ \ rho $)扩展了先前的模型。完整的模型如下所示:\ [
\ begin {aligned}
\ gamma_k&\ sim N(k-\ frac {1} {2},1),\\
\ tau_ {ik}&\ sim N(\ gamma_k,1),\\
\ kappa&\ sim N(1,1),\\
\ log \ alpha_j&\ sim N(\ kappa,1),\\
\ rho&\ sim N(0,1),\\
\ log \ lambda_i&\ sim N(\ rho,1),\\
P(L_ {ij} = 0 | Z_j,\ alpha_j,\ lambda_i,\ tau_i)&\ propto 1,\\
P(L_ {ij} = l | Z_j,\ alpha_j,\ lambda_i,\ tau_i)&\ propto \ exp \ left(\ sum_ {k = 1} ^ l \ alpha_j \ lambda_i(Z_j-\ tau_ {ik}) \对)。
\ end {aligned}
\]其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引标签} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
\ lambda_i和\ mbox {每个员工的可靠性} \\
\ rho和\ mbox {每个员工的可靠性优先级} \\
\ alpha_j和\ mbox {每个图片的难度} \\
\ kappa和\ mbox {每张图片的难度过高的平均值} \\
\ tau_ {ik}和\ mbox {每个工人标签对阈值} \\
\ gamma_k和\ mbox {每个标签的阈值超均值} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的标签} \\
Z_j和\ mbox {与图片关联的未知真实标签}
\ end {array}
\]最新发布 有序标签提取nincompoop 实现上述模型。

好的,因此模型有所不同,但是更好吗?为了评估这一点,我手工标记了100张图像。这使我意识到这项任务有多么困难。在完成前一个任务(种族识别)后,我觉得如果我花时间在每个示例上仔细研究与照片相关的信息,我将非常准确。但是,根据年龄估算,我觉得即使给出了完整的信息,我仍然只是在猜测。尽管如此,我可能比典型的众包工作者更关心我,我当然花了更多时间,并且跳过了我认为确实很困难的实例。因此,我的手部标签并不完美,但它们相当不错。

这是生成模型的两个版本的堆叠方式,一个来自上一篇文章(没有建模评分器精度$ \ lambda $)和一个上述版本。我还针对奥林匹克评判算法进行了测试,该算法类似于多数投票者对有序变量的投票:最高和最低值将被丢弃,其余值将被平均。由于我正在分类,因此在求平均值后,我将最接近的标签作为类别(例如2.4 = 2、2.6 = 3)。 \ [
\ begin {array} {c | c | c}
\ mbox {算法}&\ mbox {同意我}&\ mbox {不同意} \\ \ hline
\ mbox {奥林匹克评委}&48&51 \\
\ mbox {序号,否} \ lambda&66&34 \\
\ mbox {序号,}} \ lambda&72&28 \\
\ end {array}
\]请注意,奥林匹克裁判的启发式方法有时无法产生标签(如果评分低于3),因此总计不等于100。

我没有在上面的比较中使用夹紧,即我没有将生成的真实标签告知生成模型(尽管我在ordinallabelextract中实现了夹紧)。尽管如此,生成模型的行为更像我,而带有$ \ lambda $的更复杂的生成模型的行为最像我。如果众包的目的是付钱给人们制作与我自己制作的标签相同的标签,那么生成模型绝对是一个胜利。另外,此时我无需做出实际的分类决策:我可以采用生成模型输出的$ p(Z_j)$向量,并将其用于训练成本敏感的多类分类器。这种表示基本事实不确定性的能力是生成模型相对于简单启发法的优势。

没意见:

发表评论