2011年10月8日,星期六

从众包数据在线序标签提取

我已经应用了在线EM方法 先前讨论过 给我 序标签的生成模型。真的没有什么奇怪的,只是详细说明与 戴维德·史凯恩多发性拉希 作为标签发射可能性。如果您使用的标签具有明显的总排序量(例如, 热不热 ),您应该真正使用此模型而不是标称标签模型。主要优点在于,每个评估者的特征在于$ O(| L |)$参数而不是$ O(| L | ^ 2)$参数,其中$ L $是标签集。这种减少是由于假设相邻标签之间的错误(按顺序排列)比远端标签之间的错误更有可能。顺便说一下,这就是为什么订购必须突出的原因。标签集上的任意总排序将不会显示所需的错误模式。

这是数据集的示例应用程序,在该数据集中,我让Mechanical Turkers估算了Twitter个人资料所有者的年龄,并从一组固定的年龄范围中选择最佳答案。
pmineiro@ubuntu-67% ~/src/nincompoop/ordinalonlineextract/src/ordinalonlineextract --initial_t 10000 --n_worker_bits 16 --n_items 4203 --n_labels 6 --priorz 555,3846,7786,5424,1242,280 --model flass --data <(./multicat 80 =(sort -R agehit.ooe.in)) --eta 1 --rho 0.9
initial_t = 10000
eta = 1.000000
rho = 0.900000
n_items = 4203
n_labels = 6
n_workers = 65536
test_only = false
prediction file = (no output)
priorz = 0.029004,0.201002,0.406910,0.283449,0.064908,0.014633
cumul     since       example   current   current   current
avg q     last        counter     label   predict   ratings
-1.092649 -1.092649         2        -1         2         4
-1.045608 -1.017383         5        -1         2         5
-1.141637 -1.233824        10        -1         2         5
-1.230889 -1.330283        19        -1         2         5
-1.199410 -1.159306        36        -1         3         3
-1.177825 -1.155147        69        -1         2         4
-1.151384 -1.122146       134        -1         2         5
-1.153009 -1.154689       263        -1         1         5
-1.151538 -1.149990       520        -1         3         4
-1.146140 -1.140607      1033        -1         2         5
-1.124684 -1.103209      2058        -1         1         5
-1.107670 -1.090658      4107        -1         0         4
-1.080002 -1.052260      8204        -1         2         4
-1.051428 -1.022821     16397        -1         5         5
-1.023710 -0.995977     32782        -1         4         2
-0.998028 -0.972324     65551        -1         2         3
-0.976151 -0.954265    131088        -1         2         3
-0.958616 -0.941080    262161        -1         2         5
-0.953415 -0.935008    336240        -1         5        -1
applying deferred prior  更新 s ... finished
kappa = 0.0423323
rho_lambda = 0.00791047
gamma = 0.4971 1.4993 2.5006 3.5035 4.5022
这比我想要的慢:上面的输出需要9分钟才能在笔记本电脑上完成。希望我会在不久的将来发现一些其他优化( 更新 :现在只需不到4分钟的时间; 另一个更新:现在大约需要30秒)。

该模型在标签上产生后验分布,可直接用于决策或构建成本向量以训练成本敏感的分类器。为了显示后验的非平凡性质,这是两个记录的简洁示例,两个记录的每种类型的评级具有相同的编号,但是对于该模型,模型在地面实况上选择了非常不同的后验分布。首先,输入:
KevinWihardjo|A1U4W67HW5V0FO:2 A1J8TVICSRC70W:1 A27UXXW0OEBA0:2 A2V3P1XE33NYC3:2 A1MX4AZU19PR92:1
 塔尼亚扎赫里纳|A3EO2GJAMSBATI:2 A2P0F978S0K4LF:2 AUI8BVP9IRQQJ:2 A2L54KVSIY1GOM:1 A1XXDKKNVQD4XE:1
每个配置文件都有三个图尔克语说``2''(20-24)和两个图尔克语说``1''(15-19)。现在后验分布
KevinWihardjo   -0.142590       0.000440        0.408528        0.590129        0.000903        0.000000        0.000000
taniazahrina    0.954630        0.000003        0.999001        0.000996        0.000000        0.000000        0.000000
第二列是项目难度($ \ log \ alpha $),其余列是标签上的后验分布。对于第一个轮廓,后验分布在标签1和2之间,且模式为2;而对于第二个轮廓,后验集中在标签1上。模型执行此操作的原因很多,例如,评价者说“为2 塔尼亚扎赫里纳 可能会对整个数据集的较高年龄响应产生偏见。老实说,对于这些配置文件,我不知道他们的真实年龄是多少,所以我不知道哪个后验``更好''。我确实有数据表明序号标签模型是 比奥运裁判的启发法更准确 (即放弃最高和最低分数,然后平均剩余的分数)。

顺序在线提取 可从 nincompoop Google Code中的存储库。

没意见:

发表评论