2011年3月3日,星期四

享受闪电般快速LDA的另一个原因

在我目前的情况下,我面临着涉及大量未标记数据和少量标记数据的问题。这使我陷入 半监督学习 区。

一种流行的半监督技术是对未标记的数据使用非监督技术来学习数据表示,然后对较小的标记数据使用具有监督技术的结果数据表示。我正在查看Twitter数据,推文是文本(可以说是``非自然语言''),所以 LDA 是这里的自然选择,最近开发的 超快速实施Vowpal兔子 是德国人。

Twitter还是一个社交网络,但是以最直接的方式(名义上编码直接连接的身份)并入社交图信息类似于编码文本令牌的最直接的方式。当您有数以百万计的带有标签的示例时,它会很好用,但其他方面则很少,因此非常有用。

当您使用锤子时,一切看起来都像钉子,因此我想也许可以将与顶点关联的边集视为文档,然后对所有边集执行LDA。原来 这已经完成了,结果看起来合理。从我的角度来看,我不在乎潜在因素是社区还是兴趣(使用Twitter,可能两者兼而有之),只是最终的功能最终可以改善我的受监督学习者。

没意见:

发表评论