2011年1月26日,星期三

机械特克建模:第三部分

在我的 以前的帖子 我用Mechanical Turk HIT的结果讨论了我遇到的困难。我表示我将手工标记一些数据,然后在生成的模型中实施钳位(已知标记)以尝试改善结果。从那时起,我完成了钳制实现,并发布到 nincompoop.

好吧,我学会了手动标记数据的第一件事是,我基本上要求Turkers做不可能的事情。仅凭一张照片就不可能可靠地区分白人和西班牙裔(实际上是一些定义不清的名词)。我能够消除歧义的唯一原因是因为我可以访问其他信息(例如,该人的真实姓名)。获得的经验:在发送给Mechanical Turk之前,请始终尝试执行HIT以确定可行性。

我手工标记了大约20%的配置文件,伸出了1/4的手工标签以评估标签估计的质量,然后将其余部分钳位。最后,在保留的标签上得到了以下结果:列是由nominallabelextract分配的标签(即$ \ operatorname {arg \,max} _k \; p(Z = k)$),行是标签由``机械我''分配。 (注意:无效是HIT的选择之一,表明照片不正确。)\ [
\ begin {array} {c | c | c | c | c | c | c}
&\ 广东11选五开奖号码查 {black}&\ 广东11选五开奖号码查 {white}&\ 广东11选五开奖号码查 {asian}&\ 广东11选五开奖号码查 {hispanic}&\ 广东11选五开奖号码查 {other}&\ 广东11选五开奖号码查 {invalid} \\ \ hline
\ 广东11选五开奖号码查 {黑色}&106&0&0&2&0&8 \\
\ 广东11选五开奖号码查 {白色}&0&35&0&1&0&7 \\
\ 广东11选五开奖号码查 {亚洲}&4&7&39&13&16&23 \\
\ 广东11选五开奖号码查 {西班牙}&0&4&1&3&1&1 \\
\ end {array}
\]现在很有趣的是将它与模型在不使用任何限制值的情况下的工作方式进行比较:
\ begin {array} {c | c | c | c | c | c | c}
&\ 广东11选五开奖号码查 {black}&\ 广东11选五开奖号码查 {white}&\ 广东11选五开奖号码查 {asian}&\ 广东11选五开奖号码查 {hispanic}&\ 广东11选五开奖号码查 {other}&\ 广东11选五开奖号码查 {invalid} \\ \ hline
\ 广东11选五开奖号码查 {黑色}&106&0&0&2&0&8 \\
\ 广东11选五开奖号码查 {白色}&0&35&0&1&0&7 \\
\ 广东11选五开奖号码查 {亚洲}&4&7&42&11&12&26 \\
\ 广东11选五开奖号码查 {hispanic}&0&5&0&2&2&1 \\
\ end {array}
\]这是洗脸,或者任何夹紧作用都会使东西稍微变质。

我标记少量数据以营救更大堆的梦想被摧毁了。发生了什么?为了直观地进行夹持以帮助需要像我一样进行标记的Mechanical Turk工作人员,以便nominallabelextract可以从对已知集合的一致性推断为对未知集合的高度可靠性。但是,当我抽查时,有时会夹住一个值(例如,西班牙裔),但是来自Mechanical Turk的所有5名工人都同意使用不同的标签(例如,白色)。因此,我怀疑没有像我一样贴标签的工人,因为他们都无法访问我拥有的其他信息。

因此,基本上,我必须重新设计HIT以包含其他信息。

没意见:

发表评论