我说``灵感来自''是因为模型要简单得多。特别是因为在我的数据集中通常每个项目的评分很少(例如3),所以我继承了简单项目模型的传统(即,单个标量难度参数$ \ beta $)。因此,我嵌入了隐藏的广东11选五开奖号码查,而不是嵌入项目。每个工人都被建模为一个概率分类器,该分类器由与隐藏广东11选五开奖号码查原型的距离\ [
p(l_ {ij} = r | \ alpha,\ beta,\ tau,z)\ propto \ exp(-\ beta_j \ lVert \ tau_ {z_j} + \ alpha_ {z_jr}-\ tau_r-\ alpha_ {ir} \ rVert ^ 2)。
\] 这里$ l_ {ij} $是工作人员$ i $在项目$ j $上报告的广东11选五开奖号码查,$ \ alpha_ {ir} $是工作人员$ i $的$ d $维偏差矢量,广东11选五开奖号码查为$ r $ ,$ \ beta_j $是项目$ j $的难度参数,$ \ tau_r $是广东11选五开奖号码查$ r $的$ d $维原型向量,$ z_j $是项目$ j $的真实隐藏广东11选五开奖号码查,而$ d $是嵌入的维数。尽管需要随机初始化$ \ tau $才能打破对称性,但是此参数化操作可确保$ \ alpha_ {ir} = 0 $是合理的起始条件。 $ \ alpha $是$ L ^ 2 $正则化的(高斯先验),而$ \ tau $不是正则化的(无信息先验)。关于不变性的注释:通过将$ \ tau $转换并旋转到规范位置来消除$ d $对称性($ \ tau_0 $约束在原点,$ \ tau_1 $约束在由第一个单位向量等)。
尽管我的动机是可视化(对应于$ d = 2 $或$ d = 3 $),但还有其他两种可能的用法。 $ d = 1 $类似于非单调 顺序约束 并且可能适合某些问题。较大的$ d $可能有用,因为每个工人的参数从$ O(| L | ^ 2)$减少到$ O(d | L |)$,这可能与 减少处理的多广东11选五开奖号码查问题.
推理与以前一样(我对分类器使用了多项逻辑回归),但工人模型当然发生了变化。实际上,该工人模型的速度比多项式工人模型的速度慢大约3倍,但是由于该工人模型导致每个工人参数的减少,因此公平的比较可能与低秩逼近比较,后者也较慢。这是完成我的规范演示任务的软件,可从其个人资料预测Twitter用户的种族。
strategy = 名义上的embed initial_t = 10000 eta = 1.0 rho = 0.9 n_items = 16547 n_labels = 9 n_worker_bits = 16 n_feature_bits = 18 n_dims = 2 seed = 45 test_only = false prediction file = (no output) data file = (stdin) cumul since cumul since example current current current current avg q last avg ce last counter label predict ratings features -1.64616 -1.64616 -1.90946 -1.90946 2 -1 2 4 30 -1.60512 -1.56865 -1.93926 -1.95912 5 -1 2 3 32 -1.38015 -1.15517 -2.13355 -2.32784 10 -1 1 4 28 -1.11627 -0.82685 -2.08542 -2.03194 19 -1 2 3 21 -0.89318 -0.63424 -1.89668 -1.68574 36 -1 1 3 35 -0.90385 -0.91498 -1.62015 -1.31849 69 -1 8 4 27 -0.99486 -1.0903 -1.5287 -1.43162 134 -1 1 4 54 -0.93116 -0.86077 -1.42049 -1.30809 263 -1 1 4 45 -0.90436 -0.87592 -1.47783 -1.5365 520 -1 1 3 13 -0.92706 -0.95001 -1.42042 -1.36223 1033 -1 2 1 11 -0.96477 -1.00259 -1.33948 -1.25791 2058 -1 8 3 21 -0.95079 -0.93672 -1.2513 -1.16272 4107 -1 1 3 44 -0.91765 -0.88423 -1.13014 -1.0087 8204 -1 0 3 26 -0.90145 -0.88529 -0.98977 -0.84921 16397 -1 8 3 23 -0.86520 -0.82882 -0.80860 -0.62731 32782 -1 8 3 20 -0.83186 -0.79852 -0.63999 -0.47132 65551 -1 1 3 56 -0.79732 -0.76279 -0.50123 -0.36243 131088 -1 2 3 35 -0.77279 -0.74826 -0.40255 -0.30386 262161 -1 8 3 41 -0.75345 -0.73413 -0.33804 -0.27352 524306 -1 2 3 43 -0.74128 -0.72911 -0.29748 -0.25692 1048595 -1 1 4 45 -0.73829 -0.72691 -0.28774 -0.25064 1323760 -1 1 3 27 applying deferred prior updates ... finished tau: \ latent dimension | 0 1 label | 0 | 0.0000 0.0000 1 | 2.6737 0.0000 2 | 3.5386 -1.3961 3 | 1.3373 -1.2188 4 | -1.5965 -1.4927 5 | 0.0136 -2.9098 6 | -2.4236 1.4345 7 | -0.0450 2.2672 8 | 2.1513 -1.5638 447.48s user 1.28s system 97% cpu 7:38.84 total上面的过程会为每个项目的隐藏广东11选五开奖号码查生成估计值(后验分布),以及将尝试推广到新实例的分类器和尝试推广到新工人的工人模型。此外,还有一些可视化的东西:
- 隐藏的广东11选五开奖号码查原型向量$ \ tau_r $。靠得更近意味着两个广东11选五开奖号码查更容易混淆。
- 每个工人的噪声矢量$ \ alpha_ {ir} $。这些调整每位用户的隐藏广东11选五开奖号码查原型,导致偏差和准确性上的差异。
- 通过在广东11选五开奖号码查上的后分布,通过形成隐藏的广东11选五开奖号码查原型向量的凸组合,可以将这些项放置到潜在空间中。
结果取决于随机种子。最受欢迎的广东11选五开奖号码查(亚洲,西班牙,黑色,白色和N / A)保持相对位置,但不太受欢迎的广东11选五开奖号码查会四处走动。这是上面针对不同随机种子的图:请注意,x轴缩小了,但这对于后续图更方便。 (单击图像放大)。
在其余的情节中,我会坚持使用这种随机种子。现在,我将在绘图上为每个工人的原型矢量($ \ tau_z + \ alpha_ {iz} $)放置一个点。 (单击图像放大)。
点的图案提供了有关整个工人群体中错误图案分布的一些直觉。例如,西班牙裔广东11选五开奖号码查周围的点具有比水平扩展更多的水平扩展。这表明在区分白人和西班牙裔与区分黑人和西班牙裔之间存在更多差异。白人和西班牙裔之间的区别更多是文化而非种族。 美国人口普查局将白人列为种族,但将“西班牙裔或拉丁裔”列为种族;因此,从某种意义上说,这是糟糕的实验设计,但是由于广告商非常关注这种区别,因此我必须使其发挥作用。
最后,这是一些根据个人资料的隐藏广东11选五开奖号码查上的后验分布嵌入到潜在空间中的个人资料照片。单击下面的图像以获取矢量版本,您可以放大并查看详细信息。
在某些情况下,鉴于其嵌入位置,这些照片似乎没有任何意义。其中一些是因为工人是嘈杂的贴广东11选五开奖号码查者。但是,工人可以访问并根据整个配置文件决定广东11选五开奖号码查。因此,最好将这些照片视为``特定种族选择使用的个人资料照片的示例'',而不是这些种族本身的照片的示例。
最新版本 弹奏钢琴 可从 Google代码存储库.