显示带有广东11选五开奖号码查的帖子 众包. 显示所有帖子
显示带有广东11选五开奖号码查的帖子 众包. 显示所有帖子

2011年12月13日,星期二

可视化人群

大约一年前,我读了Welinder等人的论文。等标题 人群的多维智慧。 那时,我刚刚开始大量利用众包来进行机器学习任务,而论文的跳跃开始了我对众包数据集的想法。因此,我很高兴地宣布,我已向 弹奏钢琴 受本文启发。

我说``灵感来自''是因为模型要简单得多。特别是因为在我的数据集中通常每个项目的评分很少(例如3),所以我继承了简单项目模型的传统(即,单个标量难度参数$ \ beta $)。因此,我嵌入了隐藏的广东11选五开奖号码查,而不是嵌入项目。每个工人都被建模为一个概率分类器,该分类器由与隐藏广东11选五开奖号码查原型的距离\ [
p(l_ {ij} = r | \ alpha,\ beta,\ tau,z)\ propto \ exp(-\ beta_j \ lVert \ tau_ {z_j} + \ alpha_ {z_jr}-\ tau_r-\ alpha_ {ir} \ rVert ^ 2)。
\] 这里$ l_ {ij} $是工作人员$ i $在项目$ j $上报告的广东11选五开奖号码查,$ \ alpha_ {ir} $是工作人员$ i $的$ d $维偏差矢量,广东11选五开奖号码查为$ r $ ,$ \ beta_j $是项目$ j $的难度参数,$ \ tau_r $是广东11选五开奖号码查$ r $的$ d $维原型向量,$ z_j $是项目$ j $的真实隐藏广东11选五开奖号码查,而$ d $是嵌入的维数。尽管需要随机初始化$ \ tau $才能打破对称性,但是此参数化操作可确保$ \ alpha_ {ir} = 0 $是合理的起始条件。 $ \ alpha $是$ L ^ 2 $正则化的(高斯先验),而$ \ tau $不是正则化的(无信息先验)。关于不变性的注释:通过将$ \ tau $转换并旋转到规范位置来消除$ d $对称性($ \ tau_0 $约束在原点,$ \ tau_1 $约束在由第一个单位向量等)。

尽管我的动机是可视化(对应于$ d = 2 $或$ d = 3 $),但还有其他两种可能的用法。 $ d = 1 $类似于非单调 顺序约束 并且可能适合某些问题。较大的$ d $可能有用,因为每个工人的参数从$ O(| L | ^ 2)$减少到$ O(d | L |)$,这可能与 减少处理的多广东11选五开奖号码查问题.

推理与以前一样(我对分类器使用了多项逻辑回归),但工人模型当然发生了变化。实际上,该工人模型的速度比多项式工人模型的速度慢大约3倍,但是由于该工人模型导致每个工人参数的减少,因此公平的比较可能与低秩逼近比较,后者也较慢。这是完成我的规范演示任务的软件,可从其个人资料预测Twitter用户的种族。
strategy = 名义上的embed
initial_t = 10000
eta = 1.0
rho = 0.9
n_items = 16547
n_labels = 9
n_worker_bits = 16
n_feature_bits = 18
n_dims = 2
seed = 45
test_only = false
prediction file = (no output)
data file = (stdin)
cumul    since    cumul    since      example current current current  current
avg q    last     avg ce   last       counter   label predict ratings features
-1.64616 -1.64616 -1.90946 -1.90946         2      -1       2       4       30
-1.60512 -1.56865 -1.93926 -1.95912         5      -1       2       3       32
-1.38015 -1.15517 -2.13355 -2.32784        10      -1       1       4       28
-1.11627 -0.82685 -2.08542 -2.03194        19      -1       2       3       21
-0.89318 -0.63424 -1.89668 -1.68574        36      -1       1       3       35
-0.90385 -0.91498 -1.62015 -1.31849        69      -1       8       4       27
-0.99486 -1.0903  -1.5287  -1.43162       134      -1       1       4       54
-0.93116 -0.86077 -1.42049 -1.30809       263      -1       1       4       45
-0.90436 -0.87592 -1.47783 -1.5365        520      -1       1       3       13
-0.92706 -0.95001 -1.42042 -1.36223      1033      -1       2       1       11
-0.96477 -1.00259 -1.33948 -1.25791      2058      -1       8       3       21
-0.95079 -0.93672 -1.2513  -1.16272      4107      -1       1       3       44
-0.91765 -0.88423 -1.13014 -1.0087       8204      -1       0       3       26
-0.90145 -0.88529 -0.98977 -0.84921     16397      -1       8       3       23
-0.86520 -0.82882 -0.80860 -0.62731     32782      -1       8       3       20
-0.83186 -0.79852 -0.63999 -0.47132     65551      -1       1       3       56
-0.79732 -0.76279 -0.50123 -0.36243    131088      -1       2       3       35
-0.77279 -0.74826 -0.40255 -0.30386    262161      -1       8       3       41
-0.75345 -0.73413 -0.33804 -0.27352    524306      -1       2       3       43
-0.74128 -0.72911 -0.29748 -0.25692   1048595      -1       1       4       45
-0.73829 -0.72691 -0.28774 -0.25064   1323760      -1       1       3       27
applying deferred prior updates ... finished

tau:
     \  latent dimension
      |   0       1   
label |
    0 | 0.0000  0.0000
    1 | 2.6737  0.0000
    2 | 3.5386  -1.3961
    3 | 1.3373  -1.2188
    4 | -1.5965 -1.4927
    5 | 0.0136  -2.9098
    6 | -2.4236 1.4345
    7 | -0.0450 2.2672
    8 | 2.1513  -1.5638
  447.48s user 1.28s system 97% cpu 7:38.84 total
上面的过程会为每个项目的隐藏广东11选五开奖号码查生成估计值(后验分布),以及将尝试推广到新实例的分类器和尝试推广到新工人的工人模型。此外,还有一些可视化的东西:
  1. 隐藏的广东11选五开奖号码查原型向量$ \ tau_r $。靠得更近意味着两个广东11选五开奖号码查更容易混淆。
  2. 每个工人的噪声矢量$ \ alpha_ {ir} $。这些调整每位用户的隐藏广东11选五开奖号码查原型,导致偏差和准确性上的差异。
  3. 通过在广东11选五开奖号码查上的后分布,通过形成隐藏的广东11选五开奖号码查原型向量的凸组合,可以将这些项放置到潜在空间中。
这是主要广东11选五开奖号码查落入二维嵌入的方式。广东11选五开奖号码查的文本以该广东11选五开奖号码查的$ \ tau $的值为中心(对于新工人,$ \ alpha_ {ir} = 0 $,因此$ \ tau $定义默认的混淆矩阵)。典型的$ \ beta $是1,因此在此图上的距离3表示混淆的可能性非常低。 (单击图像放大)。


结果取决于随机种子。最受欢迎的广东11选五开奖号码查(亚洲,西班牙,黑色,白色和N / A)保持相对位置,但不太受欢迎的广东11选五开奖号码查会四处走动。这是上面针对不同随机种子的图:请注意,x轴缩小了,但这对于后续图更方便。 (单击图像放大)。


在其余的情节中,我会坚持使用这种随机种子。现在,我将在绘图上为每个工人的原型矢量($ \ tau_z + \ alpha_ {iz} $)放置一个点。 (单击图像放大)。


点的图案提供了有关整个工人群体中错误图案分布的一些直觉。例如,西班牙裔广东11选五开奖号码查周围的点具有比水平扩展更多的水平扩展。这表明在区分白人和西班牙裔与区分黑人和西班牙裔之间存在更多差异。白人和西班牙裔之间的区别更多是文化而非种族。 美国人口普查局将白人列为种族,但将“西班牙裔或拉丁裔”列为种族;因此,从某种意义上说,这是糟糕的实验设计,但是由于广告商非常关注这种区别,因此我必须使其发挥作用。

最后,这是一些根据个人资料的隐藏广东11选五开奖号码查上的后验分布嵌入到潜在空间中的个人资料照片。单击下面的图像以获取矢量版本,您可以放大并查看详细信息。


在某些情况下,鉴于其嵌入位置,这些照片似乎没有任何意义。其中一些是因为工人是嘈杂的贴广东11选五开奖号码查者。但是,工人可以访问并根据整个配置文件决定广东11选五开奖号码查。因此,最好将这些照片视为``特定种族选择使用的个人资料照片的示例'',而不是这些种族本身的照片的示例。

最新版本 弹奏钢琴 可从 Google代码存储库.

2011年11月23日,星期三

有序逻辑回归是一个热点

我已将序数支持添加到 弹奏钢琴。如果您想预测某人是否 热不热,现在这是适合您的工具。[1](来自Wikipedia文章的最佳语段:``此外,根据这些研究人员的说法,大脑的基本功能之一是将图像分类为热门或不分类的类别。''很显然,大脑研究人员拥有 所有的乐趣

虽然我已经有一个 工人模型 我需要一个分类器来搭配它。 有序逻辑回归 似乎是自然选择,但由于计算原因,我最终没有使用它。有序逻辑回归概率模型为\ [
\ begin {aligned}
P(Y = j | X = x; w,\ kappa)&= \ frac {1} {1 + \ exp(w \ cdot x-\ kappa_ {j + 1})}-\ frac {1} {1 + \ exp(w \ cdot x-\ kappa_j)},
\ end {aligned}
\] 其中$ \ kappa_0 =-\ infty $,而$ \ kappa_ {n + 1} = \ infty $。所以第一个问题是,除非约束$ i<j \暗示\ kappa_i<\ kappa_j $被强制执行,预测概率变为负数。由于我用对数表示概率,这对我来说是个问题。然而,更糟糕的是,关于类别权重相对于权重的梯度的公式在计算上不是很方便。

将此与 多模型Rasch模型,\ [
\ begin {aligned}
p(Y = 0 | X = x; w,\ kappa)&\ propto 1 \\
p(Y = j | X = x; w,\ kappa)&\ propto \ exp \ left(\ sum_ {k = 1} ^ j(w \ cdot x-\ kappa_j)\ right)
\ end {aligned}
\] 违反$ i没有特别的数值困难<j \暗示\ kappa_i<\ kappa_j $。当然,如果确实发生了这种情况,则强烈暗示有一些非常错误的事情(例如,响应变量实际上未按照我的假定顺序排序),但关键是我可以进行无限制的优化,然后最后检查是否合理。另外,计算类别概率相对于权重的梯度是相对令人满意的。因此,我采用了Polytomous Rasch功能形式。

这是一个在数据集上运行的示例,试图从他们的个人资料预测Twitter用户的(离散的)年龄。
strategy = 序数
initial_t = 10000
eta = 0.1
rho = 0.9
n_items = 11009
n_labels = 8
n_worker_bits = 16
n_feature_bits = 18
test_only = false
prediction file = (no output)
data file = (stdin)
cumul    since    cumul    since      example current current current  current
avg q    last     avg ce   last       counter   label predict ratings features
-1.15852 -1.15852 -2.20045 -2.20045         2      -1       2       3       33
-1.21748 -1.25678 -1.8308  -1.58437         5      -1       2       4       15
-1.20291 -1.1873  -1.89077 -1.95075        10      -1       2       3       34
-1.15344 -1.09367 -1.94964 -2.01505        19      -1       2       1       18
-1.21009 -1.2637  -1.99869 -2.05351        36      -1       4       1       29
-1.13031 -1.04421 -1.80028 -1.58384        69      -1       3       2       46
-1.1418  -1.15346 -1.58537 -1.35723       134      -1       3       2       35
-1.14601 -1.15028 -1.38894 -1.18489       263      -1       2       4       31
-1.1347  -1.12285 -1.14685 -0.89911       520      -1       3       2       42
-1.12211 -1.10868 -1.03302 -0.91764      1033      -1       3       3       26
-1.11483 -1.10755 -0.91798 -0.80203      2058      -1       3       3       43
-1.10963 -1.10447 -0.82174 -0.72509      4107      -1       3       4       16
-1.07422 -1.03901 -0.82659 -0.83145      8204      -1       2       4       29
-1.02829 -0.98195 -0.84504 -0.86352     16397      -1       3       2       55
-0.98414 -0.93991 -0.85516 -0.86528     32782      -1       2       1       16
-0.94415 -0.90447 -0.84898 -0.84281     65551      -1       2       4       27
-0.90247 -0.86075 -0.86127 -0.87355    131088      -1       2       4       15
-0.88474 -0.83311 -0.86997 -0.89529    176144      -1       4       3       27
applying deferred prior updates ... finished
gamma = 0.4991 1.4993 2.5001 3.5006 4.5004 5.5001 6.5001
  13.65s user 0.19s system 89% cpu 15.455 total
弹奏钢琴 可从 Google代码存储库.

脚注1

实际上,“热还是不热”是一个不好的例子,因为可能没有普遍的地面真理热度。而是一个个性化的概念,因此也许可以通过诸如 这个 适用于垃圾邮件过滤。 弹奏钢琴 更适用于具有客观事实的问题,例如根据Twitter用户的Twitter个人资料预测其年龄。听起来不那么性感,对吗?究竟。这就是为什么在脚注中。

2011年11月16日,星期三

众包数据的Logistic回归

最近我一直在处理众包数据 生成模型 在地面真相广东11选五开奖号码查上创建分布。然后,通过考虑我的分类损失函数相对于地面真实分布的期望,我将该分布转换为成本向量,以进行成本敏感的分类。因为生成模型假设典型的工作人员通常是正确的,所以它们受共识驱动:他们将假定在分配广东11选五开奖号码查时始终与同辈意见不一致的工作人员的准确性较低,因此应减少对基础事实的分配。

雷卡尔(Raykar)等等 请注意,接受众包数据训练的分类器最终将与特定众包广东11选五开奖号码查达成或不同意。最好用它来告知模型每个工作人员可能的错误,但是到目前为止,在我一直使用的顺序过程中,这是不可能的:首先要估算出地面真实性,而不是要对分类器进行估算。因此,他们建议共同估算地面真相和分类器,以使彼此相互告知。

在这一点上,让我提供相同的示意图以帮助阐明。


这是与我迄今为止使用的生成模型相对应的板图。未观察到的地面真相广东11选五开奖号码查$ z $与通过向量$ \ alpha $和标量项目难度$ \ beta $参数化的每个工人模型相结合,以创建用于项目的观察到的工人广东11选五开奖号码查$ l $。 $ \ mu $,$ \ rho $和$ p $分别是$ \ alpha $,$ \ beta $和$ z $先前分布的超优先级参数。根据问题(多类,有序多类或多广东11选五开奖号码查),有关$ z $,$ \ alpha $和$ \ beta $如何产生$ l $变化的分布的详细信息,但是上图给出了一般结构。

雷卡尔(Raykar)等等扩展生成模型以允许观察到的项目特征。


该图假定项目具有$ \ psi $的特征,并且给定真实广东11选五开奖号码查$ z $时有条件地独立发出工作广东11选五开奖号码查$ l $。这听起来像是伪造的,因为大概项目特征直接或至少间接地通过标量困难驱动了工人,除非项目特征对于众包工人而言是完全不可访问的。尝试丰富以上图表以解决问题可能是一个合理的下一步,但是事实是所有生成模型都是方便的小说,因此我现在使用上面的内容。雷卡尔(Raykar)等等提供了用于联合分类的批处理EM算法,但以上内容非常适合我一直使用的在线算法。

对于每个输入对$(\ psi,\ {(w_i,l_i)\})$,这是在线过程。
  1. 使用项目特征$ \ psi $,询问使用 适当的计分规则,并将输出解释为$ P(z | \ psi)$。
  2. 使用$ P(z | \ psi)$作为在线算法中$ z $的优先分布 先前讨论过 用于处理众包广东11选五开奖号码查$ \ {(w_i,l_i)\} $。这将产生结果$ P(z | \ psi,\ {(w_i,l_i)\})$。
  3. 针对分配$ P(z | \ psi,\ {(w_i,l_i)\})$使用预期的先前评分规则损失的SGD更新分类器。例如,对数损失(多类logistic回归)的目标函数是交叉熵\ [
    \ sum_j P(z = j | \ psi,\ {(w_i,l_i)\})\ log P(z = j | \ psi)。
    \]
我有一个图表可帮助可视化在线过程。


请注意,如果您观察到特定实例的地面真理$ \ tilde z $,则更新工作模型,就好像$ P(z = j | \ psi)= 1_ {z = \ tilde z} $作为先验分布,并且分类器将更新为$ P(z = j | \ psi,\ {(w_i,l_i)\})= 1_ {z = \ tilde z} $。在这种情况下,分类器更新与``普通''逻辑回归相同,因此可以认为这是对人群数据进行逻辑回归的概括。

我总是将常量项功能添加到每个输入。因此,在没有项目特征的情况下,该算法与之前相同,除了它正在学习$ z $上的先验分布。太好了,这是一件值得指定的事情。但是,在具有项目功能的情况下,事情会变得更加有趣。如果有一个可以强烈表明地面真实性的特征(例如, lang = es 在Twitter资料上强烈地表明了西班牙裔种族),该模型可以潜在地识别出准确的工人,这些工人在广东11选五开奖号码查上的每个项目上都与同龄人不同, 如果 工人在具有共同特征的物品上与其他工人同意。如果一个工作人员碰巧变得不幸并与多个不准确的工作人员一起完成多项任务,则可能会发生这种情况。当那些不准确的工人对其他比较模糊的项目的影响减小时,这才真正开始得到回报。

这是一个真实的例子。任务是预测Twitter个人资料的性别。要求机械土耳其人工作人员访问特定的个人资料,然后选择性别:男性,女性或两者都不选。 ``都不''主要用于像这样的组织的Twitter帐户 洛杉矶道奇队, 不必要 保罗。物品的功能可以通过以下方式获得 GET用户/查找 (请注意,所有这些功能对于Mechanical Turk工人都是显而易见的)。训练示例最终看起来像
A26E8CJMP5S4WN:2,A8H56XB9K7DB5:2,AU9LVYE38Q6S2:2,AHGJTOTIPCL8X:2 WONBOTTLES,180279525|firstname taste |restname this ? ?? |lang en |description weed girls life cool #team yoooooooo #teamblasian #teamgemini #teamcoolin #teamcowboys |utc_offset utc_offset_-18000 |profile sidebar_252429 background_1a1b1f |location spacejam'n in my jet fool
如果它看起来像Vowpal Wabbit,那是因为我再次撕掉了它们的输入格式,但是广东11选五开奖号码查规范得到了丰富。特别是可以指定零个或多个worker:label对,以及一个可选的true广东11选五开奖号码查(只是一个广东11选五开奖号码查,没有worker)。这是训练集中的多次通过的样子。
initial_t = 10000
eta = 1.0
rho = 0.9
n_items = 10130
n_labels = 3
n_worker_bits = 16
n_feature_bits = 16
test_only = false
prediction file = (no output)
data file = (stdin)
cumul    since    cumul    since      example current current current  current
avg q    last     avg ce   last       counter   label predict ratings features
-0.52730 -0.52730 -0.35304 -0.35304         2      -1       0       4        7
-0.65246 -0.73211 -0.29330 -0.25527         5      -1       0       4       23
-0.62805 -0.60364 -0.33058 -0.36786        10      -1       1       4       13
-0.73103 -0.86344 -0.29300 -0.24469        19      -1       0       4       12
-0.76983 -0.81417 -0.25648 -0.21474        36      -1       0       4       20
-0.75015 -0.72887 -0.26422 -0.27259        69      -1       2       4       12
-0.76571 -0.78134 -0.25690 -0.24956       134      -1       2       4       37
-0.76196 -0.75812 -0.24240 -0.22752       263      -1       0       4       21
-0.74378 -0.72467 -0.25171 -0.26148       520      -1       2       4       12
-0.75463 -0.76554 -0.24286 -0.23396      1033      -1       2       2       38
-0.72789 -0.70122 -0.24080 -0.23874      2058      -1       0       4       30
-0.68904 -0.65012 -0.25367 -0.26656      4107      -1       2       4       25
-0.61835 -0.54738 -0.25731 -0.26097      8204      -1       0       4       11
-0.55034 -0.48273 -0.24362 -0.23001     16397      -1       2       3       12
-0.49055 -0.43083 -0.20390 -0.16423     32782      -1       2       3       29
-0.44859 -0.40666 -0.15410 -0.10434     65551      -1       2       4       12
-0.42490 -0.40117 -0.11946 -0.08477    131088      -1       0       4        9
-0.41290 -0.40090 -0.10018 -0.08089    262161      -1       2       4        9
-0.40566 -0.39841 -0.08973 -0.07927    524306      -1       0       4       33
-0.40206 -0.39846 -0.08416 -0.07858   1048595      -1       2       4       22
-0.40087 -0.39869 -0.08206 -0.07822   1620800      -1       0       4       18
applying deferred prior updates ... finished

gamma:
     \  ground truth
      |   0       1       2
label |
    0 | -1.0000 0.0023  0.0038
    1 | 0.0038  -1.0000 0.0034
    2 | 0.0038  0.0018  -1.0000
在我的笔记本电脑上生成该输出大约需要3分钟。如果那看起来像Vowpal Wabbit,那是因为我再次撕掉了它们的输出格式。前两列是EM辅助功能,类似于对数似然,因此,增加的数字表示工作人员模型能够更好地预测工作人员广东11选五开奖号码查。接下来的两列是分类器的交叉熵,因此越来越多的数字表明分类器能够更好地根据项目特征预测地面事实的后验(相对于众包工作者广东11选五开奖号码查)。

以上软件可从 Google代码存储库。叫做 弹奏钢琴,因为我发现使用众包工作者为分类器提供训练数据的过程让人联想到 冯内古特的反乌托邦,其中上一代人类大师级工匠的动作记录在磁带上,然后永久性地从工业生产中驱逐出去。马上 弹奏钢琴 只支持名义上的问题,但是我已经写了一些东西,因此希望将序数和多广东11选五开奖号码查添加到同一可执行文件中会很容易。

2011年11月7日,星期一

在洛杉矶机器学习聚会上发表11/8/2011

如果你在附近, 随时停下来。主题是使用生成模型来处理众包数据。

2011年10月28日,星期五

从众包数据在线多广东11选五开奖号码查提取

我已经申请了 在线方式 之前讨论过 标称广东11选五开奖号码查的低等级模型,并减少到我的 多广东11选五开奖号码查模型。此时,它只是以不同的广东11选五开奖号码查发射可能性转动曲柄。

不幸的是,由于多广东11选五开奖号码查减少的组合性质,它在实践中可能非常慢。这是一个示例应用程序,在该应用程序中,我要求Mechanical Turkers将多个广东11选五开奖号码查的短语放入诸如``Politics''和``Entertainment''之类的高级类别中。
pmineiro@ubuntu-152% for r in 4; do rm model.${r}; time ~/src/multionlineextract/src/multionlineextract --model model.${r} --data <(./multicat 10 =(sort -R octoplevel.max3.moe.in)) --n_items $(cat octoplevel.max3.moe.in | wc -l) --n_raw_labels $(./statsfrompm n_raw_labels) --max_raw_labels 3 --rank ${r} --priorz $(./statsfrompm priorz) --predict flass.${r} --eta 0.5; done
seed = 45
initial_t = 1000
eta = 0.500000 
rho = 0.500000 
n_items = 3803
n_raw_labels = 10
max_raw_labels = 3
n_labels (induced) = 176
n_workers = 65536
rank = 4
test_only = false
prediction file = flass.4
priorz = 0.049156,0.087412,0.317253,0.012600,0.135758,0.079440,0.109094,0.016949
,0.157750,0.034519
cumul     since       example   current   current   current
avg q     last        counter     label   predict   ratings
-3.515874 -3.515874         2        -1         0         4
-3.759951 -3.922669         5        -1         0         4
-3.263854 -2.767756        10        -1         0         4
-2.999247 -2.696840        19        -1         0         3
-2.531113 -2.014788        36        -1         9         4
-2.503801 -2.474213        69        -1         3         4
-2.452015 -2.396817       134        -1         3         4
-2.214508 -1.968222       263        -1         6         3
-2.030175 -1.842252       520        -1         3         4
-1.907382 -1.783031      1033        -1         1         4
-1.728004 -1.547266      2058        -1         2         4
-1.582127 -1.435591      4107        -1         2         4
-1.460967 -1.339532      8204        -1         9         4
-1.364336 -1.267581     16397        -1         5         4
-1.281301 -1.198209     32782        -1         3         4
-1.267093 -1.178344     38030        -1         3        -1
applying deferred prior updates ... finished
gamma:  0.0010  0.0008  0.0007  0.0006
~/src/multionlineextract/src/multionlineextract --model model.${r} --data      2
717.98s user 3.46s system 99% cpu 45:26.28 total
遗憾的是,是的,这是我笔记本电脑的一个核心需要45分钟。好消息是,在努力加快速度的同时,我提高了 顺序在线提取标称提取物 系数是4。但是推论仍然是$ O(| L | ^ 2)$,因此上面有176个有效广东11选五开奖号码查的问题比二进制问题慢7700倍。更具限制性的假设,例如``所有错误的可能性均等''(在名义情况下)或``错误可能性仅取决于与真实广东11选五开奖号码查的编辑距离''(在多广东11选五开奖号码查情况下)会更便宜确切的推论。

多在线提取 可从 nincompoop Google代码上的存储库。

2011年10月12日,星期三

正式的牧群心态

最近,我一直专注于生成模型来处理众包数据。这些模型从一组工作人员那里获取项目和一组相关的建议广东11选五开奖号码查,并在真实广东11选五开奖号码查上合成后验分布。可以将工人视为专家,并且算法提供了将专家意见综合为最终决定的过程。

在有监督的情况下,有多种方法可以实现这种综合,并提供了更好的理论保证。因此,即使生成模型可以包含已揭示的基本事实,但如果基本事实丰富,则将首选其他技术。例如,可以想象一个奇异的世界,其中一个人拥有大量标记数据,但一个人正在尝试组装一个系统,该系统将利用众包工作者将其推广到新数据。在这种情况下,众包工作者将首先检查标记的集合并提供答案,然后将使用受监督的机器学习公式从众包工作者的输出中综合决策系统。随后,将首先由众包工作者分析新颖的实例,然后根据工作者的输出自动做出最终决定。

可惜的是,众包数据通常不会揭示可笑的事实。在机器学习中,获取标记数据通常是采用众包服务的主要原因。生成模型可以在没有标记训练数据的情况下继续进行,原因是 典型的工人通常是正确的。这种假设的最终结果是,倾向于倾向于多数的工人比倾向于少数的工人更加准确,并且对后方的贡献更大。如果此基本假设不成立,则生成模型可能会做出任意错误的决定,这就是为什么在适用的情况下会首选其他技术的原因。

我所描述的是一个潜在的不正确的统计假设,由于缺乏信息而迫使系统进行统计,从而导致人们倾向于达成共识。换句话说,是成群心态的正式典范!我想知道这是否对行为金融有任何影响。毕竟,当我考虑自己的日常经历时,我当然会感到有很多意见和事实的匮乏。

2011年9月23日,星期五

从众包数据在线提取广东11选五开奖号码查

到目前为止,我一直在使用批处理EM优化我开发的用于处理众包数据的各种生成模型(名义上的, 序数多广东11选五开奖号码查)。尽管我很喜欢在线技术,但是在行走之前我不得不爬网,并且数据集的大小相当适中。但是,企业对Mechanical Turk的结果感到满意,并希望将其从涉及多个$ 10 ^ 4 $项目的任务扩展到涉及多个$ 10 ^ 6 $项目的任务。尽管这仍然可以存储在笔记本电脑上的内存中,但是开发该算法的在线变体似乎是一个很好的借口。

我以前的批量EM方法可以认为是最大化辅助函数\ [
F(\ alpha,\ beta,\ gamma,q)= E_ {Z \ sim q} [\ log L(D | \ alpha,\ beta,\ gamma,Z)] + \ log P(\ alpha,\ beta ,\ gamma)+ E_ {Z \ sim q} [\ log P(Z)] + H(q),
\] 其中$ \ alpha $是工作人员索引的参数,$ \ beta $是项目索引的参数,$ \ gamma $是全局参数,$ q $是所有未观察到的广东11选五开奖号码查的联合分布,$ Z $是所有未观察到的广东11选五开奖号码查,$ D $是项目-工人广东11选五开奖号码查三元组的数据集,$ \ log L(D | \ alpha,\ beta,\ gamma,Z)$是数据集的对数似然,$ P (\ alpha,\ beta,\ gamma)$是生成模型参数上的先验分布,$ P(Z)$是先验未观察到的广东11选五开奖号码查分布,而$ H(q)$是未观察到的广东11选五开奖号码查分布的熵。

假定未观察到的广东11选五开奖号码查分布会影响项目$ q(Z)= \ prod_i q_i(Z_i)$,先前的分布$ P(Z)= \ prod_i P_i(Z_i)$也是如此。可替代地,在该约束条件下,仅找到辅助函数的最大约束。假定数据似然独立于$(\ alpha,\ beta,Z)$,导致\ [
\ begin {split}
F(\ alpha,\ beta,\ gamma,q)&= \\
&\ sum_i E_ {Z_i \ sim q_i} [\ log L(D_i | \ alpha,\ beta_i,\ gamma,Z_i)] + \ log P(\ alpha,\ beta,\ gamma)\\
&+ \ sum_i E_ {Z_i \ sim q_i} [\ log P_i(Z_i)] + \ sum_ {q_i} H(q_i),
\ end {split}
\] 其中$ i $为项目建立索引,而$ D_i $是与项目$ i $相关联的数据集。进一步假设先验分布的形式为$ P(\ alpha,\ beta,\ gamma)= P(\ alpha,\ gamma)\ prod_i P(\ beta_i)$,并重新排列收益率[[
\ begin {aligned}
F(\ alpha,\ beta,\ gamma,q)&= \ sum_i F_i(\ alpha,\ beta_i,\ gamma,q_i),\\
F_i(\ alpha,\ beta_i,\ gamma,q_i)&= \\
E_ {Z_i \ sim q_i} [\ log L&(D_i | \ alpha,\ beta_i,\ gamma,Z_i)] + \ frac {1} {| I |} \ log P(\ alpha,\ gamma)+ \ log P(\ beta_i)+ E_ {Z_i \ sim q_i} [\ log P_i(Z_i)] + H(q_i),
\ end {aligned}
\] 其中$ | I | $是项目总数。现在,目标函数看起来像项的总和,其中$ \ beta_i $和$ q_i $仅出现一次。这表明,如果在对应于同一项目的块中流传输数据,并且已知最佳$ \ alpha $和$ \ gamma $,则可以单独最大化$ \ beta_i $和$ q_i $并将其丢弃。当然,最优的\\ alpha $和$ \ gamma $尚不清楚,但是随着时间的推移,随着遇到更多数据,估计值会越来越好。这表明以下过程:
  1. 接收与单个项目相对应的item-worker-label三元组$ D_i $。
  2. 相对于$ \ beta_i $和$ q_i $,最大化$ F_i(\ alpha,\ beta_i,\ gamma,q_i)$。
    • 基本上,我使用固定的$ \ alpha $和$ \ gamma $对这块数据运行EM。
  3. 设置$ \ alpha \ leftarrow \ alpha + \ eta_t \ nabla _ {\ alpha} F_i \ bigr | _ {\ alpha,\ beta ^ * _ i,\ gamma,q ^ * _ i} $和$ \ gamma \ leftarrow \ gamma + \ eta_t \ nabla _ {\ gamma} F_i \ bigr | _ {\ alpha,\ beta ^ * _ i,\ gamma,q ^ * _ i} $。
    • $ \ eta_t $是随时间衰减的学习,例如$ \ eta_t = \ eta_0(\ tau_0 + t)^ {-\ rho} $。
    • $ \ eta_0 \ geq 0 $,$ \ tau_0 \ geq 0 $和$ \ rho \ geq 0 $是学习算法的调整参数。
    • 有效地,$ | I | $也是一个设置先验相对重要性的调整参数。
  4. 如果需要(例如``推理模式''),输出$ \ beta ^ * _ i $和$ q ^ * _ i $。
  5. 丢弃$ \ beta ^ * _ i $和$ q ^ * _ i $。
  6. 返回到(1)。
相对于项目数,它具有很好的可伸缩性,因为没有跨输入块维护每个项目的状态。它确实要求汇总特定项目的所有广东11选五开奖号码查:但是,即使在真正的在线众包场景中,也不会出现可伸缩性问题。在实践中,项目以编程方式单独提交以进行众包分析,并且冗余评估的数量通常很少(例如5个),因此,一个缓冲众包数据直到整个项目广东11选五开奖号码查可用的接收系统对空间的要求非常小。以我为例,我实际上是将此在线算法应用于以前离线收集的数据集,因此我可以轻松地将与特定项目相对应的所有广东11选五开奖号码查放在一起。

关于工人数量的可伸缩性是一个潜在的问题。这是因为$ \ alpha $被保留为state,并且由worker索引(例如, 标称提取物,$ \ alpha_w $是工作人员$ w $的混淆矩阵)。为了克服这个问题,我使用 哈希技巧:我有固定数量的$ \ alpha $参数,并且我对工作人员ID进行了哈希处理以获得该工作人员的$ \ alpha $。当我遇到哈希冲突时,这意味着我将两个(或更多)工作程序视为同等工作,但这使我可以预先限制算法的空间使用量。在实践中,像这样的哈希技巧似乎总是奏效。在这种特殊的情况下,在大量工人的限制下,我将使用人口混淆矩阵对每个工人进行建模。由于样本复杂性压倒了(固定的)模型复杂性,因此这是一种降级的优雅方法。 (我实际上并不期望有大量的工作人员;众包似乎走的路是,一个人要做一些小的任务来确定高素质的工作人员,然后再执行较大的任务以限制那些工作人员)。

这是一个示例运行,涉及在一个小的测试数据集上进行40次传递。
% time ~/src/nincompoop/nominalonlineextract/src/nominalonlineextract --initial_t 10000 --n_items 9859 --n_labels 5 --priorz 1,1,1,1,1 --model flass --data <(./multicat 40 =(sort -R ethnicity4.noe.in)) --eta 1 --rho 0.5
initial_t = 10000
eta = 1.000000 
rho = 0.500000 
n_items = 9859
n_labels = 5
n_workers = 65536
symmetric = false
test_only = false
prediction file = (no output)
priorz = 0.199987,0.199987,0.199987,0.199987,0.199987
cumul     since       example   current   current   current
avg q     last        counter     label   predict   ratings
-1.183628 -1.183628         2        -1         0         5
-1.125888 -1.092893         5        -1         0         5
-1.145204 -1.162910        10        -1         0         5
-1.081261 -1.009520        19         0         0         5
-1.124367 -1.173712        36        -1         3         3
-1.083097 -1.039129        69        -1         0         4
-1.037481 -0.988452       134        -1         1         2
-0.929367 -0.820539       263        -1         1         5
-0.820125 -0.709057       520        -1         4         5
-0.738361 -0.653392      1033        -1         1         4
-0.658806 -0.579719      2058        -1         1         5
-0.610473 -0.562028      4107        -1         4         5
-0.566530 -0.522431      8204        -1         0         3
-0.522385 -0.478110     16397        -1         2         4
-0.487094 -0.451771     32782        -1         0         3
-0.460216 -0.433323     65551        -1         4         5
-0.441042 -0.421860    131088        -1         2         5
-0.427205 -0.413365    262161        -1         0         5
-0.420944 -0.408528    394360        -1         1        -1
~/src/nincompoop/nominalonlineextract/src/nominalonlineextract --initial_t     85.77s user 0.22s system 99% cpu 1:26.41 total
如果那种输出格式看起来很熟悉,那是因为我(再次)提高了vowpal wabbit的输出风格。第一列是渐进式验证的辅助函数,即在更新模型参数($ \ alpha $和$ \ gamma $)之前评估的(项的平均数)$ F_i $函数。这类似于对数可能性,如果一切正常,随着消耗更多数据,它应该会变得更大。

标称提取物,批处理EM类似物的实现(在上述数据集上)在大约90秒内收敛,因此运行时间非常困难。对于较大的数据集,无需对数据集进行太多遍,因此我希望在线版本变得越来越有优势。此外,我一直在改善 标称提取物 几个月,而我刚写 标称在线提取 因此后者可能会进一步提高速度。但是,对于适合于内存批处理EM的数据集来说,它具有竞争力。

标称在线提取 可从 nincompoop Google代码上的代码存储库。我将在短期内将其他算法的在线版本放在一起(基本方法适用于所有算法,但是每种特定的可能性都有不同的技巧)。

2011年9月6日,星期二

多广东11选五开奖号码查众包数据建模:第二部分

先前 我讨论了两种分析通过众包获得的多广东11选五开奖号码查分类数据集的策略。 (此处的``多广东11选五开奖号码查''是指将固定集中的零个或多个广东11选五开奖号码查分配给特定项目)。第一种策略是减少到一组独立的二元标记数据集(IBR),该数据集对应于观测值和地面真实情况中不存在特定标记的情况。 IBR速度很快,但是在成本敏感型多广东11选五开奖号码查(CSML)分类的背景下,加权Hamming损失仅能持续减少。换句话说,由IBR产生的基本事实多广东11选五开奖号码查集的分布必然是各个广东11选五开奖号码查分布的产物。第二种策略是在强大的广东11选五开奖号码查集上减少到多类广东11选五开奖号码查数据集,我称之为 多低位提取 (这是执行任务的可执行文件的名称)。 多低位提取 对应于CSML始终如一地减少为成本敏感的多类分类(CSMC),但遭受组合爆炸的困扰。中的``低等级'' 多低位提取 是指对混淆矩阵使用低秩方法来降低样本复杂性要求(不幸的是,这不能减轻计算复杂性要求)。

我从一个相对较小的测试数据集中介绍了一个轶事,该数据表明从0/1(整个集)损失的角度来看,两种方法产生的结果相同。由于IBR比 多低位提取 对于后一种方法,这并不是一个好兆头。随后,我尝试了更大的数据集,我可以说 多低位提取 有时可以大大提高后验模式的质量。一个引人注目的示例是一项涉及在Twitter上将广东11选五开奖号码查分配给面向流行文化的个人资料的任务。对于印度电影演员来说,众包工作者可靠地分配了``电影演员''广东11选五开奖号码查,但通常无法为个人资料分配额外的``宝莱坞''广东11选五开奖号码查。使用IBR,这些配置文件的后验模式通常为{``电影演员'')。但是用 多低位提取,如果只有一个工作人员为配置文件分配了“宝莱坞”广东11选五开奖号码查,而所有工作人员均分配了“电影演员”广东11选五开奖号码查,则该配置文件的后验模式为{“宝莱坞”,“电影演员”导致0/1(整个设定)的损失大大减少。尽管这可以说是设计不良的任务,但这恰恰是IBR无法捕获的广东11选五开奖号码查相关性,并且可能在实践中出现。

回想起来,毫不奇怪 多低位提取 需要更大的数据集才能胜过IBR。 IBR本质上将广东11选五开奖号码查的所有遗漏视为等效,但是要可靠地推断出联合广东11选五开奖号码查上的更复杂的错误模式,则需要足够的数据。不幸, 多低位提取 比IBR慢得多;根据上述流行文化数据集,IBR大约需要一分钟,而 多低位提取 需要4个核心小时。注意 多低位提取 是经过合理优化的代码:用C编写,利用了 代表性体操SSE使用基于SGD的稀疏M步骤,并具有多核E步骤。不幸的是,我处于尝试加快慢速学习算法的位置,这从来都不是一件好事。

中的最新版本 nincompoop 代码存储库在速度方面有很大的改进,但仍然不是我认为的快速。但是,如果您遇到一个广东11选五开奖号码查总数不多的广东11选五开奖号码查问题(例如20个),并且在实际情况下可以出现的广东11选五开奖号码查最大数目的合理上限(例如3个),我认为值得尝试。在入睡之前将其启动,也许您会在早晨感到惊喜。

2011年8月29日,星期一

从众包数据集中提取多广东11选五开奖号码查

之前,我已经讨论了用于处理众包数据的技术,这些数据与``给定项目,从一组固定的广东11选五开奖号码查中选择最佳的单个广东11选五开奖号码查''形式的任务相对应,这对应于成本敏感的多类分类(CSMC)。该处理的结果可能是最终决定,或者可能是用于训练监督学习系统的成本向量。

现在我关注的形式是``给定一个项目,从一组固定的广东11选五开奖号码查中选择零个或多个适用广东11选五开奖号码查'',这与成本敏感的多广东11选五开奖号码查分类(CSML)相对应。处理CSML的一种策略是将一系列独立的二进制分类问题简化为一组,每个问题都预测是否应为项目分配特定的广东11选五开奖号码查。我将此策略称为IBR。如果对原始CSML问题的成本函数进行加权,则IBR是一致的减少 汉明损失, 但是 与其他CSML损失不一致 (例如,整个组合损失0/1)。在实践中,对于引起的子问题有一定的遗憾,它甚至可能不是加权汉明损失的好策略。

尽管如此,这是我执行过的唯一方法。例如,如果我有一个10广东11选五开奖号码查CSML问题,我将把众包数据处理成10个对应于二进制分类的数据集,运行 标称提取物 在10个数据集的每个数据集上,然后合并结果。此策略存在一些不良方面,所有这些方面都是同一潜在问题的不同方面。首先,如上所述,当将众包处理的结果直接用于决策时,仅对于加权汉明损失是一致的。其次,当用于构造训练集时,它产生的地面真值分布始终是可分离的(即一维分布的乘积)。第三,生成的工人错误生成模型无法对标记错误中的相关性进行建模,因为每个诱发的二进制子问题都将所有错误视为等效。特别是,如果一个工人持续混淆两个不同的广东11选五开奖号码查,那么这种减少就无法利用(因为在诱发的子问题中,``信息错误''与所有其他负面响应混合在一起)。

在广东11选五开奖号码查集$ L $上使用CSML的另一种方法是在广东11选五开奖号码查功率集$ \ mathcal {P}(L)$上减少为CSMC。由于功率集基数的组合爆炸,这是每个人都知道并且没人喜欢的减少之一,但是它确实在成本上捕获了更高阶的结构。它与任何损失函数都是一致的,但通常会遇到样本复杂性问题,而用于减轻样本复杂性的技巧可能会导致遗憾在实践中不佳。这里的情况没有什么不同,因为当我简化为CSMC时,我将利用低秩近似 标称低秩提取 我最近介绍过,这在实践中可能会或可能不会很好地起作用。

我做了直接的事情 标称低秩提取 并通过映射多广东11选五开奖号码查数据集 组合号码系统, 导致 多低位提取。因为中的参数数量 标称低秩提取 模型与广东11选五开奖号码查$ | L | $的数量成正比, 多低位提取 模型与$ 2 ^ {|| L |} $之类的东西成比例。实际上,它有点小,因为我可以说如果广东11选五开奖号码查集过多,则广东11选五开奖号码查集的概率为零,例如,对于11个广东11选五开奖号码查问题,其中某个项目的基础事实集最多具有3个广东11选五开奖号码查诱导子问题中广东11选五开奖号码查的数量为$ \ sum_ {k = 0} ^ 3 {11 \ choose k} = 232 $。这个技巧非常重要,因为推理仍然是$ O(| L | ^ 2)$ 标称低秩提取 因此,使诱导广东11选五开奖号码查集保持较小是降低血压的关键。

我还在评估 多低位提取 比IBR好。我从0/1(整个集合)损失的角度看了一个问题,即我从这两种技术看了最可能的(后验)集合。两种方法趋于一致:在一个有853个项目的测试问题上,两种方法具有相同的后验模式718倍,而不同的是135倍。这不足为奇:当众包工作者达成强烈共识时,任何合理的模型都会将共识作为后验模式输出,因此``具有创造力''的唯一机会是众包工作者不同意。如果这种情况经常发生,则表明必须重新设计任务,因为任务要么定义不明确,模棱两可,要么极其困难。对于这两种方法不同的135个项目,我手动确定了我更喜欢哪个广东11选五开奖号码查集。我更喜欢IBR 29次,我喜欢30次 多低位提取 更好,有76次我没有偏好(并且可以理解为什么众包工人不同意!)。这是一个统计死角。

鉴于IBR的计算扩展能力比 多低位提取,对于大广东11选五开奖号码查集(例如$ | L | \ gg 10 $)而言,当前是明确的选择。对于小广东11选五开奖号码查集,我正在使用 多低位提取 因为我喜欢它产生的更丰富的后验分布,但这仅是直觉,目前我还没有任何量化的支持。

您可以获得当前的实现 多低位提取 作为...的一部分 标称低秩提取 来自 nincompoop代码存储库.

2011年8月20日,星期六

众包工人的低等级混乱建模

在一个 以前的帖子 我提出了 标称提取物 给定众包数据的任务,该模型用于估计地面真相的分布,该数据由有限广东11选五开奖号码查集合中的强制选择组成。该方法的灵感来自 高兴框架 Whitehill et。等,但最终也类似于 戴维德和斯凯恩 它可以追溯到1970年代后期(Dawid-Skene并未对任务难度进行建模,而GLAD则无法处理多类情况并使用对称误差模型; 标称提取物 基本上是两者的融合)。基本思想是共同估算基本事实,任务难度和每个工人 混淆矩阵 通过 电磁 。当广东11选五开奖号码查集$ K $小时,效果很好;例如,当$ K = 2 $(二进制广东11选五开奖号码查)时,该方法将估算每个工人的误报率和误报率,或者等效地计算准确性和偏差率。如果少数派通常更准确,则这允许少数派(可能是单身人士)的工作人员覆盖多数派的决策。

不幸的是,随着广东11选五开奖号码查集的增长,每个工人模型中参数的数量也随着$ O(| K | ^ 2)$增长。在我的数据集中,中位数工作人员通常执行大约100项任务,因此当$ | K |>5美元左右,每个工作者的参数数量使数据不堪重负。由于生成模型中的层次结构,降级是合理的:最终使用均值混淆矩阵对工人进行建模。但是,这令人难以理解:众包工作者的技能,动机和意图(有时是对抗性的)差异很大,并且一些个性化是可取的。

合理的方法是对从混乱矩阵的混合物中抽取的人口进行建模,并从整个人口中估算出均值,并从每个工人身上估算出混合物的权重(或者,可以通过艰苦的工作将工人离散分配给工人组) 电磁 )。但是,在准备本博客文章时,我只有这种见识,所以我没有这样做。取而代之的是,自从几周前我在大脑上完成了矩阵完成运算以来,我采用了低秩近似。

在核心 标称提取物 型号是\ [
p(L_ {ij} = l | Z_j = k)\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j},
\] 其中$ L_ {ij} $是工作人员$ i $在示例$ j $上输出的广东11选五开奖号码查,$ Z_j $是真实广东11选五开奖号码查,$ \ alpha_i $是工作人员$ i $的混淆矩阵,以及$ \ beta_j $是每个图像的困难因素。回想起来,这可以看作是按广东11选五开奖号码查,真实广东11选五开奖号码查,工作人员ID和图像ID索引的$ 4 ^ \ mathrm {th} $订单对数似然张量的临时低秩近似。

规范多元分解 顾名思义,它是张量的低秩逼近的标准。在元素方面,对于$ 4 ^ \ mathrm {th} $阶张量,它看起来像\ [
p(L_ {ij} = l | Z_j = k)\ propto \ exp(x_ {ijkl})\ approx \ exp \ left(-\ sum_n a ^ {(n)} _ i b ^ {(n)} _ j c ^ {(n)} _ k d ^ {(n)} _ l \ right)。
\] 现在实际上只对单个图像评分了几次(例如5次),因此大概最好将每个图像参数折叠成标量$ b_j ^ {(n)} = \ beta_j 1 $,产生\ [
p(L_ {ij} = l | Z_j = k)\ propto \ exp \ left(-\ beta_j \ sum_n a ^ {(n)} _ i c ^ {(n)} _ k d ^ {(n)} _ l \对)。
\] 因此,每个评估者都有一个混淆矩阵,该矩阵是等级1矩阵的共享集的线性组合,所产生的参数比 标称提取物.

估算通过中进行 标称提取物,尽管众包数据集的规模通常不大,但效率不是特别好,因此可以完成工作。为了使EM运作良好,有一个良好的起点会有所帮助;在 标称提取物 先前的规范使模型最初将未观察到的真实广东11选五开奖号码查分布估计为平滑的经验广东11选五开奖号码查分布,这是一个合理的初步猜测。这是通过确保最初混淆矩阵的对角元素小于所有其他元素来完成的,因此在此进行复制。完整的模型由\ [
\ begin {aligned}
\ gamma_n&\ sim \ mathcal {N}(0,1),\\
\ log a ^ {(n)} _ i&\ sim \ mathcal {N}(\ gamma_n,1),\\
c ^ {(n)} _ k&\ sim \ mathcal {N}(\ frac {1} {N},1),\\
d ^ {((n)} _ l&\ sim \ mathcal {N}(1,1),\\
\ log \ beta_j&\ sim \ mathcal {N}(1、1),\\
p(L_ {ij} = k | Z_j = k)&\ proto 1,\\
p(L_ {ij} = l | Z_j = k)&\propto \exp \left(-\beta_j \sum_n a^{(n)}_i c^{(n)}_k d^{(n)}_l \right) \;\; (k \neq l),
\ end {aligned}
\] 其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引广东11选五开奖号码查} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
n和\ mbox {索引近似分量} \\
\ gamma和\ mbox {混淆矩阵混合超参数} \\
a ^ {(n)} _ i和\ mbox {每个工人的混淆矩阵混合向量} \\
c ^ {(n)} {d ^ {{n}}} ^ \ top&n ^ \ mathrm {th} \ mbox {rank-1混淆矩阵} \\
\ beta_j和\ mbox {每个图片的难度} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的广东11选五开奖号码查} \\
Z_j和\ mbox {与图片关联的未知真实广东11选五开奖号码查}
\ end {array}
\] 尽管此模型减轻了样本复杂性问题,但计算复杂性仍然是$ O(| K | ^ 2)$,因为我在未观察到的广东11选五开奖号码查上保持了完整的分布,被边缘化以计算可能性,即做软EM。进行硬EM是不希望的,因为基于地面事实的分布可用于为立即进行成本敏感的决策或创建成本敏感的多类分类(CSMC)训练集提供成本向量。换句话说,最好是在众包数据对底层广东11选五开奖号码查没有决定性的情况下进行编码,而硬EM则不这样做。我怀疑吉布斯的抽样策略可能会起作用(通过抽样来估算地面真实情况的分布),但是我还没有尝试过。我也听说过软EM的一种变体,其中在e-step中将小概率强制为零,这可能值得尝试。由于我的众包数据集规模往往不大,因此这还不足以令人烦恼,无法证明进一步的创新。但是,在不久的将来,当我将一些对成本敏感的多广东11选五开奖号码查分类问题减少到电源上的CSMC上时,烦恼程度可能会显着上升。

开源实现可以 标称低秩提取 来自 nincompoop代码存储库.

2011年2月7日,星期一

:第二部分

在一个 以前的帖子,我概述了给定序广东11选五开奖号码查的众包广东11选五开奖号码查生成的生成模型。该模型包括建模图像难度($ \ alpha_j $)和评估者偏差($ \ tau_ {ik})$的参数,但与 我的名义广东11选五开奖号码查模型 没有任何术语可以反映评分者的准确性。这是一个明显的遗漏,因为从直觉上讲,生成模型的一个目标是识别准确的评分者并为其广东11选五开奖号码查赋予更高的权重。因此,我使用每个评估者($ \ lambda_i $)建模评估者准确性的附加参数以及超优先级的单个附加参数($ \ rho $)扩展了先前的模型。完整的模型如下所示:\ [
\ begin {aligned}
\ gamma_k&\ sim N(k-\ frac {1} {2},1),\\
\ tau_ {ik}&\ sim N(\ gamma_k,1),\\
\ kappa&\ sim N(1,1),\\
\ log \ alpha_j&\ sim N(\ kappa,1),\\
\ rho&\ sim N(0,1),\\
\ log \ lambda_i&\ sim N(\ rho,1),\\
P(L_ {ij} = 0 | Z_j,\ alpha_j,\ lambda_i,\ tau_i)&\ propto 1,\\
P(L_ {ij} = l | Z_j,\ alpha_j,\ lambda_i,\ tau_i)&\ propto \ exp \ left(\ sum_ {k = 1} ^ l \ alpha_j \ lambda_i(Z_j-\ tau_ {ik}) \对)。
\ end {aligned}
\] 其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引广东11选五开奖号码查} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
\ lambda_i和\ mbox {每个员工的可靠性} \\
\ rho和\ mbox {每个员工的可靠性优先级} \\
\ alpha_j和\ mbox {每个图片的难度} \\
\ kappa和\ mbox {每张图片的难度过高的平均值} \\
\ tau_ {ik}和\ mbox {每个工人广东11选五开奖号码查对阈值} \\
\ gamma_k和\ mbox {每个广东11选五开奖号码查的阈值超均值} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的广东11选五开奖号码查} \\
Z_j和\ mbox {与图片关联的未知真实广东11选五开奖号码查}
\ end {array}
\] 最新发布 有序广东11选五开奖号码查提取nincompoop 实现上述模型。

好的,因此模型有所不同,但是更好吗?为了评估这一点,我手工标记了100张图像。这使我意识到这项任务有多么困难。在完成前一个任务(种族识别)后,我觉得如果我花时间在每个示例上仔细研究与照片相关的信息,我将非常准确。但是,根据年龄估算,我觉得即使给出了完整的信息,我仍然只是在猜测。尽管如此,我可能比典型的众包工作者更关心我,我当然花了更多时间,并且跳过了我认为确实很困难的实例。因此,我的手部广东11选五开奖号码查并不完美,但它们相当不错。

这是生成模型的两个版本的堆叠方式,一个来自上一篇文章(没有建模评分器精度$ \ lambda $)和一个上述版本。我还针对奥林匹克评判算法进行了测试,该算法类似于多数投票者对有序变量的投票:最高和最低值将被丢弃,其余值将被平均。由于我正在分类,因此在求平均值后,我将最接近的广东11选五开奖号码查作为类别(例如2.4 = 2、2.6 = 3)。 \ [
\ begin {array} {c | c | c}
\ mbox {算法}&\ mbox {同意我}&\ mbox {不同意} \\ \ hline
\ mbox {奥林匹克评委}&48&51 \\
\ mbox {序号,否} \ lambda&66&34 \\
\ mbox {序号,}} \ lambda&72&28 \\
\ end {array}
\] 请注意,奥林匹克裁判的启发式方法有时无法产生广东11选五开奖号码查(如果评分低于3),因此总计不等于100。

我没有在上面的比较中使用夹紧,即我没有将生成的真实广东11选五开奖号码查告知生成模型(尽管我在ordinallabelextract中实现了夹紧)。尽管如此,生成模型的行为更像我,而带有$ \ lambda $的更复杂的生成模型的行为最像我。如果众包的目的是付钱给人们制作与我自己制作的广东11选五开奖号码查相同的广东11选五开奖号码查,那么生成模型绝对是一个胜利。另外,此时我无需做出实际的分类决策:我可以采用生成模型输出的$ p(Z_j)$向量,并将其用于训练成本敏感的多类分类器。这种表示基本事实不确定性的能力是生成模型相对于简单启发法的优势。

2011年2月4日,星期五

有序值和机械特克

是时候使用Mechanical Turk获得更多乐趣了。今天,我有兴趣通过照片和一些相关信息来估算人们的年龄。由于这最终与广告相关,因此我并不关心它们的确切年龄,而是将它们放在几个年龄段中,例如15、15至19岁以下,等等。我可以考虑将这些存储桶分为一组隐藏广东11选五开奖号码查并使用在 以前的帖子 估计隐藏的广东11选五开奖号码查。但是,这忽略了广东11选五开奖号码查的结构:广东11选五开奖号码查的自然整体排序很自然,这很可能与工作人员所犯错误的类型有关。用统计学的话来说 测量水平,广东11选五开奖号码查不仅是名义上的,而且是顺序上的。

建模工人为实例分配特定广东11选五开奖号码查的可能性的自然起点是 多模型Rasch模型,\ [
\ begin {aligned}
P (L_{ij} = l > 0 | \beta_j, \tau_i) &= \frac{\exp (\sum_{k=1}^l (\beta_j - \tau_{ik}))}{1 + \sum_{x=1}^{|K|} \exp (\sum_{k=1}^x (\beta_j - \tau_{ik}))}, \\
P(L_ {ij} = l = 0 | \ beta_j,\ tau_i)&= \ frac {1} {1 + \ sum_ {x = 1} ^ {| K |} \ exp(\ sum_ {k = 1} ^ x(\ beta_j-\ tau_ {ik}))}。
\ end {aligned}
\] 这里,$ \ beta_j $是与图像关联的标量潜在值,而$ \ tau_i $是与每个工作程序关联的潜在值的向量。当$ \ beta_j = \ tau_ {ik} $等于$ k $时,工人同样有可能分配广东11选五开奖号码查$(k-1)$和$ k $(除了也有可能分配其他广东11选五开奖号码查)。尽管该模型没有强制单调增加$ \ tau_ {ik} $,但如果不对阈值进行排序,这是工作人员不一致的迹象。例如,这可以用于识别对抗性工作人员并拒绝其工作。

Polytomous Rasch would be a great choice when the latent space is fundamentally unobservable. For instance, 如果 I were asking Mechanical Turk to rate people's 在 tractiveness, I wouldn't care much about the magnitudes of the latent variables $\beta_j$, only their relative order, deciles, etc. After all there is no objective sense in which someone is actually ``a 7''. However in my case there is an actual true age associated with the subject of each photo 和 using polytomous Rasch directly would leave me with the problem of relating the scalar latent value $\beta_j$ to the true age bucket $Z_j$ (which so far does not appear 在里面 likelihood term 在 all). To circumvent this problem I'll force the relationship between the two, $\beta_j = \alpha_j Z_j$, where $\alpha_j > 0$ is a per-image scaling parameter. I'll scale the $\tau$ by the same $\alpha_j$ to ease the prior specification, in which case $\alpha_j$ is essentially an image difficulty parameter. Now my label likelihood is given by \[
\ begin {aligned}
P (L_{ij} = l > 0 | Z_j, \alpha_j, \tau_i) &= \frac{\exp \left( \sum_{k=1}^l \alpha_j (Z_j - \tau_{ik}) \right)}{1 + \sum_{x=1}^{|K|} \exp \left( \sum_{k=1}^x \alpha_j (Z_j - \tau_{ik}) \right)}, \\
P(L_ {ij} = l = 0 | Z_j,\ alpha_j,\ tau_i)&= \ frac {1} {1 + \ sum_ {x = 1} ^ {| K |} \ exp \ left(\ sum_ { k = 1} ^ x \ alpha_j(Z_j-\ tau_ {ik})\ right)}。
\ end {aligned}
\] 现在我可以重用相同的策略 标称提取物,在E步骤中优化$ Z_j $并
M步骤中的其他参数。我还将介绍一个高于$ \ tau $和$ \ alpha $的hyperprior,其原因类似于名义情况。完整的模型如下所示:\ [
\ begin {aligned}
\ gamma_k&\ sim N(k-\ frac {1} {2},1),\\
\ tau_ {ik}&\ sim N(\ gamma_k,1),\\
\ kappa&\ sim N(1,1),\\
\ log \ alpha_j&\ sim N(\ kappa,1),\\
P(L_ {ij} = l | Z_j,\ alpha_j,\ tau_i)&\ propto \ exp \ left(\ sum_ {k = 1} ^ l \ alpha_j(Z_j-\ tau_ {ik})\ right)。
\ end {aligned}
\] 上一学期的$ 1/2 $是因为阈值是广东11选五开奖号码查发出概率在$(k-1)$和$ k $之间相等的位置。

比较我用来提取名义广东11选五开奖号码查的模型中的参数数量与该模型中的序列广东11选五开奖号码查的参数数量是很有趣的。如果有$ | I | $个评估者,$ | J | $个图像和$ | K | $个广东11选五开奖号码查,则名义模型具有$ O(| I | | K ^ 2 | + | J |)$个参数,而顺序模型具有$ O(| I | | K | + | J |)$参数。参数的减少是基于这样的假设,即答案的总排序对评估者很重要,并且会影响他们可能犯的错误。

我还没有解决一个剩下的问题,我对此感到不满意。在任何数据集中,总会有垃圾,因此我想给Mechanical Turkers一个“我不知道”的选项。当将广东11选五开奖号码查发射建模为标称时,这只是另一个答案,但是当将广东11选五开奖号码查建模为标称时,这是一个问题,因为该答案无法与其他答案进行比较。我怀疑有一种方法可以扩展上述模型,以便在广东11选五开奖号码查空间中添加一个不参与订购的附加广东11选五开奖号码查,但是目前,我只是丢弃工人选择“我不知道”的所有等级。如果每个工作人员都说“我不知道”,那么我将最终获得该图像广东11选五开奖号码查的先验分布,并且如果某些工作人员说“我不知道”,那将导致广东11选五开奖号码查的后验分布成为因此,我认为这是合理的,但是当我尝试使用广东11选五开奖号码查来训练分类器时,我会看到。

我将上述模型实现为 有序广东11选五开奖号码查提取 在里面 nincompoop 项目。

2011年1月26日,星期三

机械特克建模:第三部分

在我的 以前的帖子 我用Mechanical Turk HIT的结果讨论了我遇到的困难。我表示我将手工标记一些数据,然后在生成的模型中实施钳位(已知标记)以尝试改善结果。从那时起,我完成了钳制实现,并发布到 nincompoop.

好吧,我学会了手动标记数据的第一件事是,我基本上要求Turkers做不可能的事情。仅凭一张照片就不可能可靠地区分白人和西班牙裔(实际上是一些定义不清的名词)。我能够消除歧义的唯一原因是因为我可以访问其他信息(例如,该人的真实姓名)。获得的经验:在发送给Mechanical Turk之前,请始终尝试执行HIT以确定可行性。

我手工标记了大约20%的配置文件,伸出了1/4的手工广东11选五开奖号码查以评估广东11选五开奖号码查估计的质量,然后将其余部分钳位。最后,在保留的广东11选五开奖号码查上得到了以下结果:列是由nominallabelextract分配的广东11选五开奖号码查(即$ \ operatorname {arg \,max} _k \; p(Z = k)$),行是广东11选五开奖号码查由``机械我''分配。 (注意:无效是HIT的选择之一,表明照片不正确。)\ [
\ begin {array} {c | c | c | c | c | c | c}
&\ mbox {black}&\ mbox {white}&\ mbox {asian}&\ mbox {hispanic}&\ mbox {other}&\ mbox {invalid} \\ \ hline
\ mbox {黑色}&106&0&0&2&0&8 \\
\ mbox {白色}&0&35&0&1&0&7 \\
\ mbox {亚洲}&4&7&39&13&16&23 \\
\ mbox {西班牙}&0&4&1&3&1&1 \\
\ end {array}
\] 现在很有趣的是将它与模型在不使用任何限制值的情况下的工作方式进行比较:
\ begin {array} {c | c | c | c | c | c | c}
&\ mbox {black}&\ mbox {white}&\ mbox {asian}&\ mbox {hispanic}&\ mbox {other}&\ mbox {invalid} \\ \ hline
\ mbox {黑色}&106&0&0&2&0&8 \\
\ mbox {白色}&0&35&0&1&0&7 \\
\ mbox {亚洲}&4&7&42&11&12&26 \\
\ mbox {hispanic}&0&5&0&2&2&1 \\
\ end {array}
\] 这是洗脸,或者任何夹紧作用都会使东西稍微变质。

我标记少量数据以营救更大堆的梦想被摧毁了。发生了什么?为了直观地进行夹持以帮助需要像我一样进行标记的Mechanical Turk工作人员,以便nominallabelextract可以从对已知集合的一致性推断为对未知集合的高度可靠性。但是,当我抽查时,有时会夹住一个值(例如,西班牙裔),但是来自Mechanical Turk的所有5名工人都同意使用不同的广东11选五开奖号码查(例如,白色)。因此,我怀疑没有像我一样贴广东11选五开奖号码查的工人,因为他们都无法访问我拥有的其他信息。

因此,基本上,我必须重新设计HIT以包含其他信息。

2011年1月24日,星期一

机械特克建模第二部分

在一个 以前的帖子 我谈到了一个多值图像标注问题,我正在利用Mechanical Turk来获取训练数据。我讨论了Mechanical Turk广东11选五开奖号码查的生成模型,该模型需要每个工人的混淆矩阵模型。当时我注意到,事实上,工人似乎主要是犯了类似的错误,特别是,系统地在区分白人和西班牙裔,西班牙裔和亚裔以及白人和亚裔方面相当差。因此,我想了想,对混淆矩阵使用分层模型将使我能够使用总体水平的信息来告知我的每个工人的混淆矩阵模型,从而提高拟合度。

从那以后,我对 标称提取物 中的软件 nincompoop 通过在混淆矩阵的元素上放置分层高斯优先级来进行项目。该模型现在为\ [
\ begin {aligned}
\ gamma_ {kk}&= 0 \\
\ gamma_ {kl}&\sim N (1, 1) \;\; (k \neq l) \\
\ alpha_i ^ {(kk)}&= 0 \\
\ alpha_i ^ {(kl)}&\sim N (\gamma_{kl}, 1) \;\; (k \neq l) \\
\ log \ beta_j&\ sim N(1,1)\\
p(L_ {ij} = l | Z_j = k,\ alpha_i,\ beta_j)&\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j}
\ end {aligned}
\] 其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引广东11选五开奖号码查} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
\ gamma和\ mbox {广东11选五开奖号码查对可靠性优先级} \\
\ alpha_i和\ mbox {每个工人的广东11选五开奖号码查对可靠性} \\
\ beta_j和\ mbox {每个图片的难度} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的广东11选五开奖号码查} \\
Z_j和\ mbox {与图片关联的未知真实广东11选五开奖号码查}
\ end {array}
\] 训练仍通过``贝叶斯EM''进行。我将$ \ gamma $估计值折叠为m步,该步在数值上似乎是稳定的。

我在以前的博客文章中的数据上运行了启用了超优先级的新模型;这是得出的$ \ gamma $估算值。注意:行广东11选五开奖号码查是真实广东11选五开奖号码查$ Z $,列广东11选五开奖号码查是观察到的广东11选五开奖号码查$ L $。 \ [
\ begin {array} {c | c | c | c | c | c}
\ gamma和\ mbox {black}和\ mbox {white}和\ mbox {asian}和\ mbox {hispanic}和\ mbox {other} \\ \ hline
\ mbox {黑色}&0&1.969921&1.608217&1.538128&2.104743 \\
\ mbox {白色}&1.822261&0&1.062852&1.160873&1.767781 \\
\ mbox {亚洲}&1.494157&0.911748&0&1.003832&1.644094 \\
\ mbox {hispanic}&0.811841&0.383368&0.190436&0&1.338488 \\
\ mbox {other}&1.017143&0.579123&-0.225708&0.607709&0 \\
\ end {array}
\] 由于对角线元素为0,因此其中的单元格$ \ gamma_ {kl} < 0$ indicate that apriori a rater is more likely to output the wrong label than the correct one. So for instance the model says that when the true label is other, a rater is apriori more likely to label it asian than other. Of course, 如果 a rater is unlikely to output the true label, that raises the question of how the model can figure this out. It potentially could be identifying a small set of raters that are consistent with each other with respect to assigning the other label, 和 using that to infer that the typical rater is likely to mistake others. However, Murphy's Law being what it is, I think the above $\gamma$ matrix is telling me that my data is not very good 和 I'm 在里面 weeds.

那么,这种额外的超前机制会在广东11选五开奖号码查分配上有所作为吗?这是一个计数矩阵,其中行是非超优先模型分配,列是超优先模型分配。 \ [
\ begin {array} {c | c | c | c | c | c}
&\ mbox {黑色}&\ mbox {白色}&\ mbox {亚洲}&\ mbox {hispanic}&\ mbox {other} \\ \ hline
\ mbox {黑色}&1689&0&0&0&0 \\
\ mbox {白色}&1&908&1&4&0 \\
\ mbox {亚洲}&0&0&872&9&59 \\
\ mbox {西班牙}&4&2&9&470&7 \\
\ mbox {other}&0&2&4&3&208
\ end {array}
\] 他们大多同意,尽管超高级模型将相当一部分亚洲人转换为他人。另外,$ p(Z)$向量的大小可以略有不同,而不会影响广东11选五开奖号码查(即$ \ operatorname {arg \,max} _k \; p(Z = k)$),并且大小可以在进行成本敏感的多类分类时很重要。但是我认为不会。基本上,我的数据在某些方面非常糟糕,并且很难用统计数据克服这些糟糕的数据。仍然令我感到高兴的是,我已经实现了超级优先机制,因为它可以很容易地准确地看到我是如何被搞砸的。

幸运的是,尽管没有``像好的数据一样的数据'',但我仍有成功的可能。如果我实现了钳位(即能够为一些隐藏广东11选五开奖号码查分配已知值)并手动标记一些示例,则我可能能够利用少量的高质量数据来清理大量的低质量数据。质量数据。因此,我接下来将尝试。如果失败了,将来将会有很多``机械我''。

2011年1月18日,星期二

机械突厥建模

有一篇不错的论文 Welinder等。等 在今年的NIPS上,关于建立Mechanical Turkers的统计模型的目的是为了更好地推断出监督学习算法通常使用的``地面事实''。啊哈!当我意识到自己一直在使用Mechanical Turk时,并没有对自己的工作进行深入思考,这一刻对我来说很重要。在下一次不得不使用Mechanical Turk的时候,我决心做得更好,而这个场合已经到来。

我的(子)问题基本上是根据某人的头像来确定该人的种族。可接受的选择是``黑色'',``白色'',``亚洲'',``西班牙裔'',``其他'',或者拒绝将照片视为不是真实人物的真实头像(例如任何数据集,我的生意都很有趣)。我制作了一个简单的图像广东11选五开奖号码查为HIT,将5000张图像加载到Mechanical Turk中,并要求每个图像由5位唯一的工人进行标记。

事实证明,在过去的几年中,已经有多篇有关总体众包的论文,尤其是关于Mechanical Turk的论文。我将重点关注描述GLAD框架的早期论文。 怀特希尔(Whitehill)等等 其目的类似于Welinder等。等纸。这有三个原因。首先,我找到了Whitehill等。等容易理解并适应多类情况。其次,Whitehill等。等提供参考软件实现,在实现多类版本时可以用作有用的一致性检查。第三,Whitehill等人的一位作者。等本文是我的前顾问。

经验绩效,二元案例

尽管我的问题是多类的,但我还是决定从它的二进制版本开始,以建立直觉并测试参考实现。所以目前我将要讨论``这是黑人的照片吗?''
多数投票
下表总结了多数投票启发式方法的性能。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {正面广东11选五开奖号码查}&\ mbox {误报}&\ mbox {累积广东11选五开奖号码查} \\ \ hline
\ mbox {恰好是5之5}&\mbox{ 920 } &\mbox{ 0/100 } &\mbox{ 920 } \\
\ mbox {恰好是5中的4}&\mbox{ 460 } &\mbox{ 0/100 } &\mbox{ 1380 } \\
\ mbox {恰好是5中的3}&\mbox{ 221 } &\mbox{ 4/100 } &\mbox{ 1601 } \\
\ mbox {恰好是5中的2}&\mbox{ 41 } &\mbox{ 6/41 } &\mbox{ 1642 }
\ end {array}
\] 对于误报列,我从相关集合中选择了100个随机示例,并手动为其打了广东11选五开奖号码查。对于``5分之2''标准,我要求没有其他广东11选五开奖号码查获得超过1个广东11选五开奖号码查(严格来说,这要求访问原始的多类别评分而不是它们的二进制版本)。

总体上多数投票的表现不错。如果我坚持5分之4或更高,则误报的数量预计会很低。这是一张类似的表格,但要查找否定广东11选五开奖号码查。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {负广东11选五开奖号码查}&\ mbox {错误否定}&\ mbox {累积广东11选五开奖号码查} \\ \ hline
\ mbox {完全是0之5}&\mbox{ 2849 } &\mbox{ 1/100 } &\mbox{ 2849 } \\
\ mbox {恰好是5之1}&\mbox{ 351 } &\mbox{ 6/50 } &\mbox{ 3200 }
\ end {array}
\] 和以前一样,否定否定列实际上是我手动标记满足条件的子集。看起来高质量的负广东11选五开奖号码查仅在``5分中的0分''级别可用。为正数选择``5中有4个或更多'',为负数选择``5中有0之多''时,正例与负例的比率大约为1:2。它还留下了771张未标记的图像,这意味着训练集中正例与负例的真实比例可能高达3:4,而最低为2:9。关于相对频率的错误会在分类器中表现出来,这是由于对这些数据进行训练而导致的,导致对假阴性或假阳性的偏见。
高兴
现在,对于GLAD估算策略,我使用了 可下载的参考实现。我尝试从$ p(Z = 1)$中选择与多数表决策略的覆盖点相对应的阈值。这是肯定广东11选五开奖号码查的表格。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {正面广东11选五开奖号码查}&\ mbox {误报}&\ mbox {累积广东11选五开奖号码查} \\ \ hline
\ mbox {$ p(Z = 1)= 1 $}&\mbox{ 923 } &\mbox{ see below } &\mbox{ 923 } \\
$ 0.9869 \ leq p(Z = 1)< 1$ &\mbox{ 460 } &\mbox{ see below } &\mbox{ 1383 } \\
$ 0.6 \ leq p(Z = 1)< 0.9869$ &\mbox{ 219 } &\mbox{ see below } &\mbox{ 1602 } \\
$ 0.395 \ leq p(Z = 1)< 0.6$ &\mbox{ 41 } &\mbox{ 6/41 } &\mbox{ 1642 } \\
\ end {array}
\] 设置为“正好5分之5”和“ $ p(Z = 1)= 1 $”是相同的
除了后者包含3个额外的图像。我发现检查了另外3张图像,它们都是真实的阳性结果。 ``正好是5中的4''和``$ 0.9869 \ leq p(Z = 1)''<1 $''相差13张图片(共26张),因此我手动标记了这些图片。所有这些都是真正的积极。 ``恰好5之3''和``$ 0.6 \ leq p(Z = 1)<0.9869 $''的设置共享201张普通图片,因此我手动标记了差异。 20张图片中有2张在``恰好5张照片中有3张''设置中为假阳性,而18张图片中有0张在``$ 0.6 \ leq p(Z = 1)''中是错误肯定<0.9869 $''集。 ``正好5分之2''设置和``$ 0.395 \ leq p(Z = 1)''<0.6 $''的设置仅共享13张普通图像,因此我在后者中标记了所有图像。假阳性率是相同的,即使在两组之间仅共享1个假阳性。

这是一张否定广东11选五开奖号码查表。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {负广东11选五开奖号码查}&\ mbox {错误否定}&\ mbox {累积广东11选五开奖号码查} \\ \ hline
\ mbox {$ p(Z = 1)= 0 $}&\mbox{ 2850 } &\mbox{ see below } &\mbox{ 2850 } \\
\ mbox {$ 0< p (Z = 1) < 0.022$ } &\mbox{ 351 } &\mbox{ see below } &\mbox{ 3201 }
\ end {array}
\] 设置“完全5分之0”和设置“ $ p(Z = 1)= 0 $”相同,除了后者包含一个额外的图像。我发现检查了多余的图像,这是一个真正的负面。设置为``5分之1''和``$ 0< p (Z = 1) <0.022 $''相差17张图片(总共34张),所以我手动为其添加了广东11选五开奖号码查。 ``恰好5个中的1个''唯一性中有17个中有10个是假负数,而``$ 0''中有17个中有6个是假负数< p (Z = 1) <0.022 $''的唯一性是假阴性。

总体而言,GLAD策略显示该数据集在多数表决中略微提高了精确度。如果需要1601个阳性广东11选五开奖号码查,那么GLAD估计将有7个假阳性,而多数投票的9个假阳性。同时,如果需要3200个否定广东11选五开奖号码查,那么GLAD估计将有38个错误否定,占多数投票的42个。

泛化为多类

高兴技术的核心是关于错误概率\ [
p(L_ {ij} = Z_j | \ alpha_i,\ beta_j)= \ frac {1} {1 + e ^ {-\ alpha_i \ beta_j}}
\] 等效于假设形式为[[
p(L_ {ij} = k | Z_j = l,\ alpha_i,\ beta_j)\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j}:\; k,l \ in \ {0,1 \},
\] 其中$ \ alpha_i ^ {(k,k)} = 0 $和$ \ alpha_i ^ {(k,l)} = \ alpha_i ^ {(l,k)} $。后者的对称性从本质上说,评估者同样有可能将负数与正数混淆,将正数与负数混淆,这是Welinder等人的假设。等放松。

混淆矩阵的公式表明对$ k $和$ l $的范围不仅限于$ 0 $和$ 1 $的多类情况的简单概括。我将对称性假设放在$ \ alpha $中,以便能够对每个评估者的偏见建模。尽管我无权访问此论文,但我怀疑此模型与由...提出的模型相同 戴维德和斯凯恩 1979年(显然是关于病历的错误:他们是否可以预见30年后将如何应用其模型?)。与原始GLAD一样,培训通过``贝叶斯EM''进行(请参阅 软件发布 下面)。

实际上,这是$ | K |。当存在$ | K | $广东11选五开奖号码查时,每个评估者的(| K |-1)$参数,可能会使模型过于复杂。在我的数据集中,我的5000张图像中有167个工人,每个工人的平均评分为71。在我收集的25000个评分中,具有71个或更多评分的工人负责22960个。如果像这样的数字很典型,那么每个评估者肯定有更大的模型参数空间,因此对于二元基础事实,丢弃对称性假设和模型每个评估者的偏差大概总是有益的。

但是,当类$ | K | $变得非常大时,具有$ | K |如果没有其他假设,每个评估者的(| K |-1)$参数将无用。一种可能性是假设所有错误与 韦林德和佩罗纳,但这与我在数据中看到的错误模式不符。我怀疑在这一领域还有更多的论文空间,可以为多类观察详细说明有用的分层先验,其中每个评估者$ \ alpha $将通过总体水平估计混淆两个类的概率甚至具有特殊的混淆矩阵。我将把这种改进留给将来。 (但将来不会太远:我可以从抽查数据中得知,大多数工人正在犯同样的错误)。
经验表现
对于我的多类数据,我尝试了多数投票(5分之3)和GLAD的多类归纳。 \ [
\ begin {array} {c | c | c | c | c | c | c | c}
\ mbox {方法}&\mbox{ Asian } &\mbox{ Black } &\mbox{ Hispanic } &\mbox{ Other } &\mbox{ White } &\mbox{ Invalid } &\ mbox {没有广东11选五开奖号码查} \\ \ hline
\ mbox {Multiclass 高兴(all)}&\mbox{ 941 } &\mbox{ 1690 } &\mbox{ 490 } &\mbox{ 217 } &\mbox{ 914 } &\mbox{ 748 } &\mbox{ n/a } \\
\ mbox {多数投票}&\mbox{ 950 } &\mbox{ 1601 } &\mbox{ 137 } &\mbox{ 27 } &\mbox{ 818 } &\mbox{ 676 } &\mbox{ 793 } \\
\ mbox {多类GLAD(阈值)}&\mbox{ 724 } &\mbox{ 1599 } &\mbox{ 325 } &\mbox{ 148 } &\mbox{ 794 } &\mbox{ 617 } &\mbox{ 793 } \\
\ mbox {MV} \ bigcap \ mbox {M-GLAD(阈值)}&\mbox{ 686 } &\mbox{ 1579 } &\mbox{ 115 } &\mbox{ 27 } &\mbox{ 742 } &\mbox{ 586 } &\mbox{ 423 }
\ end {array}
\] 除非3位评分者同意,否则多数投票无法分配广东11选五开奖号码查,从而导致793张图像未分配广东11选五开奖号码查。对于Multiclass 高兴(阈值),我选择最小广东11选五开奖号码查概率为0.8461,以便分配带有该广东11选五开奖号码查的图像。这导致未分配相同数量的图像广东11选五开奖号码查。我还强迫Multiclass 高兴为每个图像分配广东11选五开奖号码查,结果表明,与广东11选五开奖号码查置信度高的图像相比,广东11选五开奖号码查置信度较低的图像上的广东11选五开奖号码查``黑色''的可能性较小。

对于每个广东11选五开奖号码查,我随机抽取了由该广东11选五开奖号码查专门通过多类GLAD(阈值)或多数表决给出的图像样本(即,我忽略了两种算法都分配了相同广东11选五开奖号码查的图像)。我手动标记了这些标记,以便评估差异集上的错误率。 \ [
\ begin {array} {c | c | c | c | c | c | c | c}
\ mbox {广东11选五开奖号码查}&\ Delta \ mbox {MV错误率}&\ Delta \ mbox {M-GLAD错误率} \\ \ hline
\ mbox {亚洲}&\mbox{ 1/38 } &\mbox{ 1/38 } \\
\ mbox {黑色}&\mbox{ 4/22 } &\mbox{ 1/20 } \\
\ mbox {西班牙文}&\mbox{ 15/22 } &\mbox{ 18/22 } \\
\ mbox {白色}&\mbox{ 11/20 } &\mbox{ 6/20 } \\
\ mbox {其他}&\mbox{ n/a } &\mbox{ 10/20 }
\ end {array}
\] 总体而言,对于Mechanical Turk社区来说,区分西班牙裔和亚裔是非常困难的(在某些情况下,我只能做得更好,因为我可以访问与照片相关的辅助信息)。由于“多数投票”分配的西班牙裔广东11选五开奖号码查较少,并且差异广东11选五开奖号码查样本的错误率较低,因此做得更好。这可能是Mechanical Turkers生成模型的``夹紧''功能的良好应用,其中手动标记语料库的子集会将隐藏变量转换为已知变量,并有助于确定评估者的参数。特别是,我应该实施夹紧,然后手动标记由Multiclass 高兴标记为西班牙裔的图像的子集。

在Mechanical Turk社区中,很难区分白人和西班牙裔以及白人和亚洲人。由于多数投票将分配更多这些广东11选五开奖号码查,并且差异广东11选五开奖号码查样本的错误率更高,因此做得更糟。

多类GLAD在多数票投票次数的严格超集上分配``其他''广东11选五开奖号码查。此处的错误率非常高:虽然有很多阿拉伯人使用此广东11选五开奖号码查,但也有很多照片最好分配给四个主要广东11选五开奖号码查之一。

在实践中,由于我将这些广东11选五开奖号码查用作有监督学习问题中的训练数据,因此我现在不必做出离散的决定。相反,我可以采用每个图像的$ p(Z = k)$向量,并使用它构建一个成本敏感的多类分类实例。


软件发布


我正在发布 初始版本 我曾使用多类GLAD软件的Google Code来获得上述结果,希望其他人会发现它有用。在Google Code上,它被称为nominallabelextract,并且是 nincompoop 项目。

总体而言,上述多类GLAD扩展看起来很有希望,但绝对不能比多数投票更好,而且我仍然没有足够高质量的数据来应对我的原始问题。一个可能的方向是实施夹紧并做一些手工贴广东11选五开奖号码查,以更好地估计容易混淆的广东11选五开奖号码查(例如,西班牙裔和亚洲裔);另一个是在混淆矩阵上引入分层先验。如果我做这些事情,我将使Google代码保持最新状态。