2011年1月26日,星期三

机械特克建模:第三部分

在我的 以前的帖子 我用Mechanical Turk HIT的结果讨论了我遇到的困难。我表示我将手工标记一些数据,然后在生成的模型中实施钳位(已知标记)以尝试改善结果。从那时起,我完成了钳制实现,并发布到 nincompoop .

好吧,我学会了手动标记数据的第一件事是,我基本上要求Turkers做不可能的事情。仅凭一张照片就不可能可靠地区分白人和西班牙裔(实际上是一些定义不清的名词)。我能够消除歧义的唯一原因是因为我可以访问其他信息(例如,该人的真实姓名)。获得的经验:在发送给Mechanical Turk之前,请始终尝试执行HIT以确定可行性。

我手工标记了大约20%的配置文件,伸出了1/4的手工标签以评估标签估计的质量,然后将其余部分钳位。最后,在保留的标签上得到了以下结果:列是由nominallabelextract分配的标签(即$ \ operatorname {arg \,max} _k \; p(Z = k)$),行是标签由``机械我''分配。 (注意:无效是HIT的选择之一,表明照片不正确。)\ [
\ begin {array} {c | c | c | c | c | c | c}
&\ mbox {black}&\ mbox {white}&\ mbox {asian}&\ mbox {hispanic}&\ mbox {other}&\ mbox {invalid} \\ \ hline
\ mbox {黑色}&106&0&0&2&0&8 \\
\ mbox {白色}&0&35&0&1&0&7 \\
\ mbox {亚洲}&4&7&39&13&16&23 \\
\ mbox {西班牙}&0&4&1&3&1&1 \\
\ end {array}
\]现在很有趣的是将它与模型在不使用任何限制值的情况下的工作方式进行比较:
\ begin {array} {c | c | c | c | c | c | c}
&\ mbox {black}&\ mbox {white}&\ mbox {asian}&\ mbox {hispanic}&\ mbox {other}&\ mbox {invalid} \\ \ hline
\ mbox {黑色}&106&0&0&2&0&8 \\
\ mbox {白色}&0&35&0&1&0&7 \\
\ mbox {亚洲}&4&7&42&11&12&26 \\
\ mbox {hispanic}&0&5&0&2&2&1 \\
\ end {array}
\]这是洗脸,或者任何夹紧作用都会使东西稍微变质。

我标记少量数据以营救更大堆的梦想被摧毁了。发生了什么?为了直观地进行夹持以帮助需要像我一样进行标记的Mechanical Turk工作人员,以便nominallabelextract可以从对已知集合的一致性推断为对未知集合的高度可靠性。但是,当我抽查时,有时会夹住一个值(例如,西班牙裔),但是来自Mechanical Turk的所有5名工人都同意使用不同的标签(例如,白色)。因此,我怀疑没有像我一样贴标签的工人,因为他们都无法访问我拥有的其他信息。

因此,基本上,我必须重新设计HIT以包含其他信息。

2011年1月24日,星期一

机械特克建模第二部分

在一个 以前的帖子 我谈到了一个多值图像标注问题,我正在利用Mechanical Turk来获取训练数据。我讨论了Mechanical Turk标签的生成模型,该模型需要每个工人的混淆矩阵模型。当时我注意到,事实上,工人似乎主要是犯了类似的错误,特别是,系统地在区分白人和西班牙裔,西班牙裔和亚裔以及白人和亚裔方面相当差。因此,我想了想,对混淆矩阵使用分层模型将使我能够使用总体水平的信息来告知我的每个工人的混淆矩阵模型,从而提高拟合度。

从那以后,我对 标称提取物 中的软件 nincompoop 通过在混淆矩阵的元素上放置分层高斯优先级来进行项目。该模型现在为\ [
\ begin {aligned}
\ gamma_ {kk}&= 0 \\
\ gamma_ {kl}&\sim N (1, 1) \;\; (k \neq l) \\
\ alpha_i ^ {(kk)}&= 0 \\
\ alpha_i ^ {(kl)}&\sim N (\gamma_{kl}, 1) \;\; (k \neq l) \\
\ log \ beta_j&\ sim N(1,1)\\
p(L_ {ij} = l | Z_j = k,\ alpha_i,\ beta_j)&\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j}
\ end {aligned}
\]其中\ [
\ begin {array} {c | c}
\ mbox {变量}和\ mbox {说明} \\ \ hline
k,l和\ mbox {索引标签} \\
j&\ mbox {为图片建立索引} \\
i&\ mbox {为工作者编制索引} \\
\ gamma和\ mbox {标签对可靠性优先级} \\
\ alpha_i和\ mbox {每个工人的标签对可靠性} \\
\ beta_j和\ mbox {每个图片的难度} \\
L_ {ij}和\ mbox {观察到的由工作人员分配给图像的标签} \\
Z_j和\ mbox {与图片关联的未知真实标签}
\ end {array}
\]训练仍通过``贝叶斯EM''进行。我将$ \ gamma $估计值折叠为m步,该步在数值上似乎是稳定的。

我在以前的博客文章中的数据上运行了启用了超优先级的新模型;这是得出的$ \ gamma $估算值。注意:行标签是真实标签$ Z $,列标签是观察到的标签$ L $。 \ [
\ begin {array} {c | c | c | c | c | c}
\ gamma和\ mbox {black}和\ mbox {white}和\ mbox {asian}和\ mbox {hispanic}和\ mbox {other} \\ \ hline
\ mbox {黑色}&0&1.969921&1.608217&1.538128&2.104743 \\
\ mbox {白色}&1.822261&0&1.062852&1.160873&1.767781 \\
\ mbox {亚洲}&1.494157&0.911748&0&1.003832&1.644094 \\
\ mbox {hispanic}&0.811841&0.383368&0.190436&0&1.338488 \\
\ mbox {other}&1.017143&0.579123&-0.225708&0.607709&0 \\
\ end {array}
\]由于对角线元素为0,因此其中的单元格$ \ gamma_ {kl} < 0$ indicate that apriori a rater is more likely to output the wrong label than the correct one. So for instance the model says that when the true label is other, a rater is apriori more likely to label it asian than other. Of course, if a rater is unlikely to output the true label, that raises the question of how the model can figure this out. It potentially could be identifying a small set of raters that are consistent with each other with respect to assigning the other label, and using that to infer that the typical rater is likely to mistake others. However, Murphy's Law being what it is, I think the above $\gamma$ matrix is telling me that my data is not very good and I'm in the weeds.

那么,这种额外的超前机制会在标签分配上有所作为吗?这是一个计数矩阵,其中行是非超优先模型分配,列是超优先模型分配。 \ [
\ begin {array} {c | c | c | c | c | c}
&\ mbox {黑色}&\ mbox {白色}&\ mbox {亚洲}&\ mbox {hispanic}&\ mbox {other} \\ \ hline
\ mbox {黑色}&1689&0&0&0&0 \\
\ mbox {白色}&1&908&1&4&0 \\
\ mbox {亚洲}&0&0&872&9&59 \\
\ mbox {西班牙}&4&2&9&470&7 \\
\ mbox {other}&0&2&4&3&208
\ end {array}
\]他们大多同意,尽管超高级模型将相当一部分亚洲人转换为他人。另外,$ p(Z)$向量的大小可以略有不同,而不会影响标签(即$ \ operatorname {arg \,max} _k \; p(Z = k)$),并且大小可以在进行成本敏感的多类分类时很重要。但是我认为不会。基本上,我的数据在某些方面非常糟糕,并且很难用统计数据克服这些糟糕的数据。仍然令我感到高兴的是,我已经实现了超级优先机制,因为它可以很容易地准确地看到我是如何被搞砸的。

幸运的是,尽管没有``像好的数据一样的数据'',但我仍有成功的可能。如果我实现了钳位(即能够为一些隐藏标签分配已知值)并手动标记一些示例,则我可能能够利用少量的高质量数据来清理大量的低质量数据。质量数据。因此,我接下来将尝试。如果失败了,将来将会有很多``机械我''。

2011年1月18日,星期二

机械突厥建模

有一篇不错的论文 Welinder等。 等 在今年的NIPS上,关于建立Mechanical Turkers的统计模型的目的是为了更好地推断出监督学习算法通常使用的``地面事实''。啊哈!当我意识到自己一直在使用Mechanical Turk时,并没有对自己的工作进行深入思考,这一刻对我来说很重要。在下一次不得不使用Mechanical Turk的时候,我决心做得更好,而这个场合已经到来。

我的(子)问题基本上是根据某人的头像来确定该人的种族。可接受的选择是``黑色'',``白色'',``亚洲'',``西班牙裔'',``其他'',或者拒绝将照片视为不是真实人物的真实头像(例如任何数据集,我的生意都很有趣)。我制作了一个简单的图像标签为HIT,将5000张图像加载到Mechanical Turk中,并要求每个图像由5位唯一的工人进行标记。

事实证明,在过去的几年中,已经有多篇有关总体众包的论文,尤其是关于Mechanical Turk的论文。我将重点关注描述GLAD框架的早期论文。 怀特希尔(Whitehill)等 等 其目的类似于Welinder等。等纸。这有三个原因。首先,我找到了Whitehill等。等容易理解并适应多类情况。其次,Whitehill等。等提供参考软件实现,在实现多类版本时可以用作有用的一致性检查。第三,Whitehill等人的一位作者。等本文是我的前顾问。

经验绩效,二元案例

尽管我的问题是多类的,但我还是决定从它的二进制版本开始,以建立直觉并测试参考实现。所以目前我将要讨论``这是黑人的照片吗?''
多数投票
下表总结了多数投票启发式方法的性能。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {正面标签}&\ mbox {误报}&\ mbox {累积标签} \\ \ hline
\ mbox {恰好是5之5}&\mbox{ 920 } &\mbox{ 0/100 } &\mbox{ 920 } \\
\ mbox {恰好是5中的4}&\mbox{ 460 } &\mbox{ 0/100 } &\mbox{ 1380 } \\
\ mbox {恰好是5中的3}&\mbox{ 221 } &\mbox{ 4/100 } &\mbox{ 1601 } \\
\ mbox {恰好是5中的2}&\mbox{ 41 } &\mbox{ 6/41 } &\mbox{ 1642 }
\ end {array}
\]对于误报列,我从相关集合中选择了100个随机示例,并手动为其打了标签。对于``5分之2''标准,我要求没有其他标签获得超过1个标签(严格来说,这要求访问原始的多类别评分而不是它们的二进制版本)。

总体上多数投票的表现不错。如果我坚持5分之4或更高,则误报的数量预计会很低。这是一张类似的表格,但要查找否定标签。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {负标签}&\ mbox {错误否定}&\ mbox {累积标签} \\ \ hline
\ mbox {完全是0之5}&\mbox{ 2849 } &\mbox{ 1/100 } &\mbox{ 2849 } \\
\ mbox {恰好是5之1}&\mbox{ 351 } &\mbox{ 6/50 } &\mbox{ 3200 }
\ end {array}
\]和以前一样,否定否定列实际上是我手动标记满足条件的子集。看起来高质量的负标签仅在``5分中的0分''级别可用。为正数选择``5中有4个或更多'',为负数选择``5中有0之多''时,正例与负例的比率大约为1:2。它还留下了771张未标记的图像,这意味着训练集中正例与负例的真实比例可能高达3:4,而最低为2:9。关于相对频率的错误会在分类器中表现出来,这是由于对这些数据进行训练而导致的,导致对假阴性或假阳性的偏见。
高兴
现在,对于GLAD估算策略,我使用了 可下载的参考实现。我尝试从$ p(Z = 1)$中选择与多数表决策略的覆盖点相对应的阈值。这是肯定标签的表格。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {正面标签}&\ mbox {误报}&\ mbox {累积标签} \\ \ hline
\ mbox {$ p(Z = 1)= 1 $}&\mbox{ 923 } &\mbox{ see below } &\mbox{ 923 } \\
$ 0.9869 \ leq p(Z = 1)< 1$ &\mbox{ 460 } &\mbox{ see below } &\mbox{ 1383 } \\
$ 0.6 \ leq p(Z = 1)< 0.9869$ &\mbox{ 219 } &\mbox{ see below } &\mbox{ 1602 } \\
$ 0.395 \ leq p(Z = 1)< 0.6$ &\mbox{ 41 } &\mbox{ 6/41 } &\mbox{ 1642 } \\
\ end {array}
\]设置为“正好5分之5”和“ $ p(Z = 1)= 1 $”是相同的
除了后者包含3个额外的图像。我发现检查了另外3张图像,它们都是真实的阳性结果。 ``正好是5中的4''和``$ 0.9869 \ leq p(Z = 1)''<1 $''相差13张图片(共26张),因此我手动标记了这些图片。所有这些都是真正的积极。 ``恰好5之3''和``$ 0.6 \ leq p(Z = 1)<0.9869 $''的设置共享201张普通图片,因此我手动标记了差异。 20张图片中有2张在``恰好5张照片中有3张''设置中为假阳性,而18张图片中有0张在``$ 0.6 \ leq p(Z = 1)''中是错误肯定<0.9869 $''集。 ``正好5分之2''设置和``$ 0.395 \ leq p(Z = 1)''<0.6 $''的设置仅共享13张普通图像,因此我在后者中标记了所有图像。假阳性率是相同的,即使在两组之间仅共享1个假阳性。

这是一张否定标签表。 \ [
\ begin {array} {c | c | c | c}
\ mbox {标准}&\ mbox {负标签}&\ mbox {错误否定}&\ mbox {累积标签} \\ \ hline
\ mbox {$ p(Z = 1)= 0 $}&\mbox{ 2850 } &\mbox{ see below } &\mbox{ 2850 } \\
\ mbox {$ 0< p (Z = 1) < 0.022$ } &\mbox{ 351 } &\mbox{ see below } &\mbox{ 3201 }
\ end {array}
\]设置“完全5分之0”和设置“ $ p(Z = 1)= 0 $”相同,除了后者包含一个额外的图像。我发现检查了多余的图像,这是一个真正的负面。设置为``5分之1''和``$ 0< p (Z = 1) <0.022 $''相差17张图片(总共34张),所以我手动为其添加了标签。 ``恰好5个中的1个''唯一性中有17个中有10个是假负数,而``$ 0''中有17个中有6个是假负数< p (Z = 1) <0.022 $''的唯一性是假阴性。

总体而言,GLAD策略显示该数据集在多数表决中略微提高了精确度。如果需要1601个阳性标签,那么GLAD估计将有7个假阳性,而多数投票的9个假阳性。同时,如果需要3200个否定标签,那么GLAD估计将有38个错误否定,占多数投票的42个。

泛化为多类

高兴 技术的核心是关于错误概率\ [
p(L_ {ij} = Z_j | \ alpha_i,\ beta_j)= \ frac {1} {1 + e ^ {-\ alpha_i \ beta_j}}
\]等效于假设形式为[[
p(L_ {ij} = k | Z_j = l,\ alpha_i,\ beta_j)\ prope e ^ {-\ alpha_i ^ {(k,l)} \ beta_j}:\; k,l \ in \ {0,1 \},
\]其中$ \ alpha_i ^ {(k,k)} = 0 $和$ \ alpha_i ^ {(k,l)} = \ alpha_i ^ {(l,k)} $。后者的对称性从本质上说,评估者同样有可能将负数与正数混淆,将正数与负数混淆,这是Welinder等人的假设。等放松。

混淆矩阵的公式表明对$ k $和$ l $的范围不仅限于$ 0 $和$ 1 $的多类情况的简单概括。我将对称性假设放在$ \ alpha $中,以便能够对每个评估者的偏见建模。尽管我无权访问此论文,但我怀疑此模型与由...提出的模型相同 戴维德和斯凯恩 1979年(显然是关于病历的错误:他们是否可以预见30年后将如何应用其模型?)。与原始GLAD一样,培训通过``贝叶斯EM''进行(请参阅 软件发布 下面)。

实际上,这是$ | K |。当存在$ | K | $标签时,每个评估者的(| K |-1)$参数,可能会使模型过于复杂。在我的数据集中,我的5000张图像中有167个工人,每个工人的平均评分为71。在我收集的25000个评分中,具有71个或更多评分的工人负责22960个。如果像这样的数字很典型,那么每个评估者肯定有更大的模型参数空间,因此对于二元基础事实,丢弃对称性假设和模型每个评估者的偏差大概总是有益的。

但是,当类$ | K | $变得非常大时,具有$ | K |如果没有其他假设,每个评估者的(| K |-1)$参数将无用。一种可能性是假设所有错误与 韦林德和佩罗纳,但这与我在数据中看到的错误模式不符。我怀疑在这一领域还有更多的论文空间,可以为多类观察详细说明有用的分层先验,其中每个评估者$ \ alpha $将通过总体水平估计混淆两个类的概率甚至具有特殊的混淆矩阵。我将把这种改进留给将来。 (但将来不会太远:我可以从抽查数据中得知,大多数工人正在犯同样的错误)。
经验表现
对于我的多类数据,我尝试了多数投票(5分之3)和GLAD的多类归纳。 \ [
\ begin {array} {c | c | c | c | c | c | c | c}
\ mbox {方法}&\mbox{ Asian } &\mbox{ Black } &\mbox{ Hispanic } &\mbox{ Other } &\mbox{ White } &\mbox{ Invalid } &\ mbox {没有标签} \\ \ hline
\ mbox {Multiclass 高兴 (all)}&\mbox{ 941 } &\mbox{ 1690 } &\mbox{ 490 } &\mbox{ 217 } &\mbox{ 914 } &\mbox{ 748 } &\mbox{ n/a } \\
\ mbox {多数投票}&\mbox{ 950 } &\mbox{ 1601 } &\mbox{ 137 } &\mbox{ 27 } &\mbox{ 818 } &\mbox{ 676 } &\mbox{ 793 } \\
\ mbox {多类GLAD(阈值)}&\mbox{ 724 } &\mbox{ 1599 } &\mbox{ 325 } &\mbox{ 148 } &\mbox{ 794 } &\mbox{ 617 } &\mbox{ 793 } \\
\ mbox {MV} \ bigcap \ mbox {M-GLAD(阈值)}&\mbox{ 686 } &\mbox{ 1579 } &\mbox{ 115 } &\mbox{ 27 } &\mbox{ 742 } &\mbox{ 586 } &\mbox{ 423 }
\ end {array}
\]除非3位评分者同意,否则多数投票无法分配标签,从而导致793张图像未分配标签。对于Multiclass 高兴 (阈值),我选择最小标签概率为0.8461,以便分配带有该标签的图像。这导致未分配相同数量的图像标签。我还强迫Multiclass 高兴 为每个图像分配标签,结果表明,与标签置信度高的图像相比,标签置信度较低的图像上的标签``黑色''的可能性较小。

对于每个标签,我随机抽取了由该标签专门通过多类GLAD(阈值)或多数表决给出的图像样本(即,我忽略了两种算法都分配了相同标签的图像)。我手动标记了这些标记,以便评估差异集上的错误率。 \ [
\ begin {array} {c | c | c | c | c | c | c | c}
\ mbox {标签}&\ Delta \ mbox {MV错误率}&\ Delta \ mbox {M-GLAD错误率} \\ \ hline
\ mbox {亚洲}&\mbox{ 1/38 } &\mbox{ 1/38 } \\
\ mbox {黑色}&\mbox{ 4/22 } &\mbox{ 1/20 } \\
\ mbox {西班牙文}&\mbox{ 15/22 } &\mbox{ 18/22 } \\
\ mbox {白色}&\mbox{ 11/20 } &\mbox{ 6/20 } \\
\ mbox {其他}&\mbox{ n/a } &\mbox{ 10/20 }
\ end {array}
\]总体而言,对于Mechanical Turk社区来说,区分西班牙裔和亚裔是非常困难的(在某些情况下,我只能做得更好,因为我可以访问与照片相关的辅助信息)。由于“多数投票”分配的西班牙裔标签较少,并且差异标签样本的错误率较低,因此做得更好。这可能是Mechanical Turkers生成模型的``夹紧''功能的良好应用,其中手动标记语料库的子集会将隐藏变量转换为已知变量,并有助于确定评估者的参数。特别是,我应该实施夹紧,然后手动标记由Multiclass 高兴 标记为西班牙裔的图像的子集。

在Mechanical Turk社区中,很难区分白人和西班牙裔以及白人和亚洲人。由于多数投票将分配更多这些标签,并且差异标签样本的错误率更高,因此做得更糟。

多类GLAD在多数票投票次数的严格超集上分配``其他''标签。此处的错误率非常高:虽然有很多阿拉伯人使用此标签,但也有很多照片最好分配给四个主要标签之一。

在实践中,由于我将这些标签用作有监督学习问题中的训练数据,因此我现在不必做出离散的决定。相反,我可以采用每个图像的$ p(Z = k)$向量,并使用它构建一个成本敏感的多类分类实例。


软件发布


我正在发布 初始版本 我曾使用多类GLAD软件的Google Code来获得上述结果,希望其他人会发现它有用。在Google Code上,它被称为nominallabelextract,并且是 nincompoop 项目。

总体而言,上述多类GLAD扩展看起来很有希望,但绝对不能比多数投票更好,而且我仍然没有足够高质量的数据来应对我的原始问题。一个可能的方向是实施夹紧并做一些手工贴标签,以更好地估计容易混淆的标签(例如,西班牙裔和亚洲裔);另一个是在混淆矩阵上引入分层先验。如果我做这些事情,我将使Google代码保持最新状态。

2011年1月2日,星期日

幸福是一条温馨的推文

通常,获得培训标签是完成任务的限制因素。为此, 拉米奇等 等 对Twitter进行有趣的观察:推文中包含与Twitter约定相对应的注释。表情符号,#标签和指向提供有关推文的情感,语义和社交内容的信息。

因此,我决定制造一个Twitter幸福探测器。在维基百科的一点帮助下,我了解了 常见表情 用于表示幸福和悲伤。对于任何特定的推文,如果它包含至少一个快乐的图释且不包含悲伤的图释,我称其为“高兴”。如果它包含至少一个悲伤的图释而没有快乐的图释,我就称它为悲伤。否则我称其为模棱两可。大多数推文是模棱两可的,目标是将其概括化。但对于培训,我只会使用明确的推文。

有几个功能 新的誓言兔 在一起使这个问题易于攻击:支持稀疏的高基数功能;通过哈希技巧控制模型复杂度;的 -自适应 标志,就像自动改善的tf-idf加权;对n-gram扩展的本地支持;当然,在午餐结束之前,可以在笔记本电脑上浏览数以千万计的推文的功能。在一周的推文上进行训练并在未来一天的推文上进行测试,得出的AUC为0.87,即,给定随机的快乐和悲伤推文,所得回归器有87%的可能性将快乐推文的得分评为比悲伤推文更高的分数。 (注意:解析时必须删除表情符号,否则,AUC为1。这里的要点是泛化为模棱两可的推文。)在这一点上,我没有利用vowpal中的LDA支持,我只是对每个令牌进行编码名义上,因此大概可以改善这一点。

我从未来进一步抽取了10000条推文的随机样本,结果发现这些推文大多是模棱两可的,因为那是大多数推文的意思。然后,我对它们进行了排名,这是10条最幸福和10条最可悲的推文。只是重申一下,在解析过程中表情符号会从推文中剥离:最幸福和最悲伤的几条推文中都有表情符号,这表明从推文中的其他标记预测表情符号存在的难度。

10个最幸福的推文

@WRiTExMiND no doubt! <--guess who I got tht from? Bwahaha anyway doe I like surprising people it's kinda my thing so ur welcome! And hi :)
@skvillain yeh wiz is dope, got his own lil wave poppin! I'm fuccin wid big sean too he signed to kanye label g.o.o.d music
And @pumahbeatz opened for @MarshaAmbrosius & blazed! So proud of him! Go bro! & Marsha was absolutely amazing! Awesome night all around. =)
Awesome! RT @robscoms: Great 24 hours with nephews. Watched Tron, homemade mac & cheese for dinner, Wii, pancakes & Despicable Me this am!
Good Morning 2 U Too RT @mzmonique718: Morningggg twitt birds!...up and getting ready for church...have a good day and LETS GO GIANTS!
Goodmorning #cleveland, have a blessed day stay focused and be productive and thank god for life
AMEN!!!>>>RT @DrSanlare: Daddy looks soooo good!!! God is amazing! To GOD be the glory and victory #TeamJesus Glad I serve an awesome God
AGREED!! RT @ILoveElizCruz: Amen to dat... We're some awesome people! RT @itsVonnell_Mars: @ILoveElizCruz gotta love my sign lol
#word thanks! :) RT @Steph0e: @IBtunes HAppy Birthday love!!! =) still a fan of ya movement... yay you get another year to be dope!!! YES!!
Happy bday isaannRT @isan_coy: Selamatt ulang tahun yaaa RT @Phitz_bow: Selamat siangg RT @isan_coy: Slamat pagiiii

10条最悲伤的推文

Migraine, sore throat, cough & stomach pains. Why me God?
Ik moet werken omg !! Ik lig nog in bed en ben zo moe .. Moet alleen opstaan en tis koud buitn :(
I Feel Horrible ' My Voice Is Gone Nd I'm Coughing Every 5 Minutes ' I Hate Feeling Like This :-/
SMFH !!! Stomach Hurting ; Aggy ; Upset ; Tired ;; Madd Mixxy Shyt Yo !
Worrying about my dad got me feeling sick I hate this!! I wish I could solve all these problems but I am only 1 person & can do so much..
Malam2 menggigil+ga bs napas+sakit kepala....badan remuk redam *I miss my husband's hug....#nangismanja#
Waking up with a sore throat = no bueno. Hoping someone didn't get me ill and it's just from sleeping. D:
Aaaa ini tenggorokan gak enak, idung gatel bgt bawaannya pengen bersin terus. Calon2 mau sakit nih -___-
I'm scared of being alone, I can't see to breathe when I am lost in this dream, I need you to hold me?
Why the hell is suzie so afraid of evelyn! Smfh no bitch is gonna hav me scared I dnt see it being possible its not!

观察结果


首先,表情符号是通用的,这使得该技巧可用于许多不同的语言(我认为?我看不懂其中的某些语言)。

其次,Twitter数据非常干净。像这样的愚蠢想法从未与Web数据一起使用,因为始终存在将内容与有效负载的其他部分(导航,结构等)分开的巨大障碍。此外,网页很大,而推文很短,因此在网页可能有多个推文的情况下,推文可以具有清晰的情感基调。

第三,vowpal应该在人们遇到文本分类问题时尝试使用的工具列表中。总共花了不到半天的时间,其中大部分是数据争执。