雷卡尔(Raykar)等等 请注意,接受众包数据训练的分类器最终将与特定众包标签达成或不同意。最好用它来告知模型每个工作人员可能的错误,但是到目前为止,在我一直使用的顺序过程中,这是不可能的:首先要估算出地面真实性,而不是要对分类器进行估算。因此,他们建议共同估算地面真相和分类器,以使彼此相互告知。
在这一点上,让我提供相同的示意图以帮助阐明。
这是与我迄今为止使用的生成模型相对应的板图。未观察到的地面真相标签$ z $与通过向量$ \ alpha $和标量项目难度$ \ beta $参数化的每个工人模型相结合,以创建用于项目的观察到的工人标签$ l $。 $ \ mu $,$ \ rho $和$ p $分别是$ \ alpha $,$ \ beta $和$ z $先前分布的超优先级参数。根据问题(多类,有序多类或多标签),有关$ z $,$ \ alpha $和$ \ beta $如何产生$ l $变化的分布的详细信息,但是上图给出了一般结构。
雷卡尔(Raykar)等等扩展生成模型以允许观察到的项目特征。
该图假定项目具有$ \ psi $的特征,并且给定真实标签$ z $时有条件地独立发出工作标签$ l $。这听起来像是伪造的,因为大概项目特征直接或至少间接地通过标量困难驱动了工人,除非项目特征对于众包工人而言是完全不可访问的。尝试丰富以上图表以解决问题可能是一个合理的下一步,但是事实是所有生成模型都是方便的小说,因此我现在使用上面的内容。雷卡尔(Raykar)等等提供了用于联合分类的批处理EM算法,但以上内容非常适合我一直使用的在线算法。
对于每个输入对$(\ psi,\ {(w_i,l_i)\})$,这是在线过程。
- 使用项目特征$ \ psi $,询问使用 适当的计分规则,并将输出解释为$ P(z | \ psi)$。
- 使用$ P(z | \ psi)$作为在线算法中$ z $的优先分布 先前讨论过 用于处理众包标签$ \ {(w_i,l_i)\} $。这将产生结果$ P(z | \ psi,\ {(w_i,l_i)\})$。
- 针对分配$ P(z | \ psi,\ {(w_i,l_i)\})$使用预期的先前评分规则损失的SGD更新分类器。例如,对数损失(多类logistic回归)的目标函数是交叉熵\ [
\ sum_j P(z = j | \ psi,\ {(w_i,l_i)\})\ log P(z = j | \ psi)。
\]
请注意,如果您观察到特定实例的地面真理$ \ tilde z $,则更新工作模型,就好像$ P(z = j | \ psi)= 1_ {z = \ tilde z} $作为先验分布,并且分类器将更新为$ P(z = j | \ psi,\ {(w_i,l_i)\})= 1_ {z = \ tilde z} $。在这种情况下,分类器更新与``普通''逻辑回归相同,因此可以认为这是对人群数据进行逻辑回归的概括。
我总是将常量项功能添加到每个输入。因此,在没有项目特征的情况下,该算法与之前相同,除了它正在学习$ z $上的先验分布。太好了,这是一件值得指定的事情。但是,在具有项目功能的情况下,事情会变得更加有趣。如果有一个可以强烈表明地面真实性的特征(例如, lang = es 在Twitter资料上强烈地表明了西班牙裔种族),该模型可以潜在地识别出准确的工人,这些工人在标签上的每个项目上都与同龄人不同, 如果 工人在具有共同特征的物品上与其他工人同意。如果一个工作人员碰巧变得不幸并与多个不准确的工作人员一起完成多项任务,则可能会发生这种情况。当那些不准确的工人对其他比较模糊的项目的影响减小时,这才真正开始得到回报。
这是一个真实的例子。任务是预测Twitter个人资料的性别。要求机械土耳其人工作人员访问特定的个人资料,然后选择性别:男性,女性或两者都不选。 ``都不''主要用于像这样的组织的Twitter帐户 洛杉矶道奇队, 不必要 保罗 。物品的功能可以通过以下方式获得 GET用户/查找 (请注意,所有这些功能对于Mechanical Turk工人都是显而易见的)。训练示例最终看起来像
A26E8CJMP5S4WN:2,A8H56XB9K7DB5:2,AU9LVYE38Q6S2:2,AHGJTOTIPCL8X:2 WONBOTTLES,180279525|firstname taste |restname this ? ?? |lang en |description weed girls life cool #team yoooooooo #teamblasian #teamgemini #teamcoolin #teamcowboys |utc_offset utc_offset_-18000 |profile sidebar_252429 background_1a1b1f |location spacejam'n in my jet fool如果它看起来像Vowpal Wabbit,那是因为我再次撕掉了它们的输入格式,但是标签规范得到了丰富。特别是可以指定零个或多个worker:label对,以及一个可选的true标签(只是一个标签,没有worker)。这是训练集中的多次通过的样子。
initial_t = 10000 eta = 1.0 rho = 0.9 n_items = 10130 n_labels = 3 n_worker_bits = 16 n_feature_bits = 16 test_only = false prediction file = (no output) data file = (stdin) cumul since cumul since example current current current current avg q last avg ce last counter label predict ratings features -0.52730 -0.52730 -0.35304 -0.35304 2 -1 0 4 7 -0.65246 -0.73211 -0.29330 -0.25527 5 -1 0 4 23 -0.62805 -0.60364 -0.33058 -0.36786 10 -1 1 4 13 -0.73103 -0.86344 -0.29300 -0.24469 19 -1 0 4 12 -0.76983 -0.81417 -0.25648 -0.21474 36 -1 0 4 20 -0.75015 -0.72887 -0.26422 -0.27259 69 -1 2 4 12 -0.76571 -0.78134 -0.25690 -0.24956 134 -1 2 4 37 -0.76196 -0.75812 -0.24240 -0.22752 263 -1 0 4 21 -0.74378 -0.72467 -0.25171 -0.26148 520 -1 2 4 12 -0.75463 -0.76554 -0.24286 -0.23396 1033 -1 2 2 38 -0.72789 -0.70122 -0.24080 -0.23874 2058 -1 0 4 30 -0.68904 -0.65012 -0.25367 -0.26656 4107 -1 2 4 25 -0.61835 -0.54738 -0.25731 -0.26097 8204 -1 0 4 11 -0.55034 -0.48273 -0.24362 -0.23001 16397 -1 2 3 12 -0.49055 -0.43083 -0.20390 -0.16423 32782 -1 2 3 29 -0.44859 -0.40666 -0.15410 -0.10434 65551 -1 2 4 12 -0.42490 -0.40117 -0.11946 -0.08477 131088 -1 0 4 9 -0.41290 -0.40090 -0.10018 -0.08089 262161 -1 2 4 9 -0.40566 -0.39841 -0.08973 -0.07927 524306 -1 0 4 33 -0.40206 -0.39846 -0.08416 -0.07858 1048595 -1 2 4 22 -0.40087 -0.39869 -0.08206 -0.07822 1620800 -1 0 4 18 applying deferred prior updates ... finished gamma: \ ground truth | 0 1 2 label | 0 | -1.0000 0.0023 0.0038 1 | 0.0038 -1.0000 0.0034 2 | 0.0038 0.0018 -1.0000在我的笔记本电脑上生成该输出大约需要3分钟。如果那看起来像Vowpal Wabbit,那是因为我再次撕掉了它们的输出格式。前两列是EM辅助功能,类似于对数似然,因此,增加的数字表示工作人员模型能够更好地预测工作人员标签。接下来的两列是分类器的交叉熵,因此越来越多的数字表明分类器能够更好地根据项目特征预测地面事实的后验(相对于众包工作者标签)。
以上软件可从 Google代码存储库。 叫做 弹奏钢琴 ,因为我发现使用众包工作者为分类器提供训练数据的过程让人联想到 冯内古特的反乌托邦,其中上一代人类大师级工匠的动作记录在磁带上,然后永久性地从工业生产中驱逐出去。马上 弹奏钢琴 只支持名义上的问题,但是我已经写了一些东西,因此希望将序数和多标签添加到同一可执行文件中会很容易。
没意见:
发表评论