2011年3月27日,星期日

关于利用Twitter社交图谱

最近,我忙于构建各种分类器,这些分类器采用Twitter资料并预测广告主感兴趣的属性:性别和种族。最初,我专注于将最新的推文作为功能的来源,并取得了一些成功。然后,我开始合并Twitter个人资料的其他部分,以改进分类器。


快速又脏

看起来有两个额外的信息来源立即很有希望:生物图谱和社会图谱。由于我正在使用由提供的稀疏逻辑回归 Vowpal兔子 ,我首先进行了尽可能幼稚的编码:我通过与标签之间的相互信息获取了前N个令牌,并名义上对它们进行了编码。要澄清的是,生物中的代币或多或少是您期望的。而社交图中的令牌是连接另一端上帐户的数字Twitter身份(我仅考虑遵循行为,而忽略了遵循行为)。应用于性别分类器的这种幼稚方法导致了生物令牌的一些改进,但对于社会令牌却基本上没有改进。

半监督

正如该博客上最近的主题一样,我所处的一个重要方面是未标记的配置文件比标记的配置文件大4个数量级。因此,我使用了大量的BIOS,使用LDA从它们中构建主题模型,然后将所得到的特征用作我监督的分类器的输入。我还使用了大量社交图边缘集,使用LDA从它们中建立主题模型,然后将所得特征用作我的监督分类器的输入。

令人惊讶的是,bios LDA功能没有比生物令牌的名义编码好得多。但是,社交图LDA功能的确比社交令牌的名义编码做得更好。

这是怎么回事?

因为社交图信息以LDA功能的形式有用,所以这表明名义编码的问题是样本复杂度和分类技术的某种组合(或更可能是:我在某个地方犯了错误)。虽然我对发生的事情不完全了解,但这一集促使我查看了社交图谱与生物图谱之间的统计数据。

因此,展示1是出现在生物或社交边缘集中的单个令牌的排名频率。这意味着什么:
  • 对于bio:如果您从串联在一起的所有bios中选择一个随机词(或等效地,从所有bios中抽取与单词数成正比的样本,然后在该bio中选择一个随机词),则这是第N个最常使用的概率令牌将是您选择的令牌。
  • 对于社交:如果您从所有“ A跟随B”关系的(有向)图中选择一个随机边(或等效地,从所有推特帐户中抽取与所跟随的帐户数量成比例的样本,然后选择一个随机帐户,该推特配置文件是之后),这是第N个最常关注的Twitter帐户将成为所选边沿关注的那个帐户的可能性。
毫无疑问,以这种方式进行采样时,您选择的是生物中出现频率最高的令牌,而不是跟踪频率最高的Twitter帐户。从这种角度来看,生物令牌比社交令牌具有更大的头部和更短的尾巴。所以我想,``啊哈,这就是问题所在,由于社会边缘集的繁重尾巴,名义编码遇到了样本复杂性问题''。

但是,我现在认为这是不正确的。考虑类似的展览2,但是排名和频率是根据帐户而不是代币。换一种说法:
  • 对于个人生物:如果您选择一个随机的Twitter帐户,则这是该帐户个人生物中的至少一个令牌将成为第N个最常出现的令牌的概率。
  • 对于社交用户:如果您选择一个随机的Twitter帐户,则这是该帐户遵循第N个最常关注的Twitter帐户的概率。
可以说上述采样过程对于名义编码策略而言更为重要:由于我在总配置文件中标注的比例很小(例如1000个配置文件中有1个配置文件),因此我的样本只能支持对超过一定速率的令牌进行名义推断 每个配置文件 (例如,每100个配置文件中有1个配置文件,因此我可以预期有10个与令牌的存在相关的标记样本)。因此,展示2:
以这种方式看,社交图的头更重要:换句话说,大约有100个单词可能对生物的名义编码有用,而大约有1000个推特帐户可能对社交图有用。社会边缘集的名义编码。从根本上来说,展览1与展览2的区别在于,大多数个人资料的追踪者数量都比其个人传记中的单词要多,因此对整个个人资料进行采样会产生更多的社会令牌(或者:展览1中的图归一化为1,展览2中的图归一化才不是)。

因此,现在我认为正在发生的事情是,在足够频繁的生物令牌中,有许多对性别具有决定性的含义:诸如“父亲”,“母亲”,“丈夫”和“妻子”等明显的词;但也不太明显,例如女性更有可能说“ b子”,而印尼男性则更有可能说“ saya”。同时,在Twitter上最受欢迎的一组帐户中,该帐户的追随者的性别偏爱相对不是很强。例如, 酷玩乐队 有很多追随者,但据我所知,男女追随酷玩乐队的可能性几乎相同。虽然 奥普拉 从直觉上来说,这听起来像是两极分化,而追随奥普拉的女性只有男性的两倍。与此相比:男人在其生物中使用“吮吸”一词的可能性是42倍,而女人在使用“女孩”一词的可能性是20倍。有一些受欢迎的Twitter帐户在性别两极分化方面相对比较极端(例如, 单身女人克里斯·布鲁萨德),但总的来说,人们在描述自己时说的关于性别的最普遍的说法比人们选择遵循的最常见的推特帐户更具吸引力(一旦考虑到最近的推文)。

因此,我的收获是:要真正利用社交图谱,就需要加强我的技术。这意味着:
  • 获取更多带标签的数据。在这里,积极的学习技巧对于防止我的机械特克账单爆炸是至关重要的。
  • 更广泛地利用未标记的社交图数据。这包括在社交图谱上尝试更多无监督的技术;但同时也要进行更明确的半监督技术(而不是:无监督,然后再进行监督)。

没意见:

发表评论