2010年12月29日,星期三

快如闪电的LDA

好吧,我在一家基于Twitter的初创公司有一个新的演出。提示,有一个 vowpal wabbit的新版本 可用,所以我认为我会努力。

新vowpal的热门功能之一是 在线LDA (谢谢 马特·霍夫曼!)。但是Tweets确实很小,因此很自然地要问像LDA这样的模型对于这样的简短文档是否有效。 拉米奇等等 想知道同一件事。
尽管LDA和相关模型在新闻报道和学术摘要中的应用已有很长的历史,但一个开放的问题是,它们是否适用于像Twitter帖子一样短的文档,并且其文本与传统研究的馆藏大相径庭–在这里我们发现答案是肯定的。
因此,我抽取了400万条推文样本,对其进行了标记化,然后将其提供给vowpal,并提出了10个主题模型。播放时间:3分钟。除了要注意的是,一条推文平均以11个令牌(即不多)结尾,我将为您省去令牌化的详细信息。

尽管10个主题实在太小了,除了笔触广泛(我只是在热身)之外,什么都没有,但是结果很有趣,所以我想我应该把它粘贴在这里。这是每个主题的前十个标记,每行1个主题。
arenas  carter  villain guiding hoooo   ipods   amir    crazzy   confessions     snort   #awesome
de      la      a       y       que     el      en      no      me     mi      es
the     to      a       my      is      and     in      for     of     you     on
na      ka      sa      ko      ng      mo      ba      ang     ni     pa      wa
di      yg      ga      ada     aja     ya      ini     ke      mau    gw      dan
#fb     alpha    在 lantic        2dae    orgy    und     tales   ich    fusion  koolaid creme
ik      de      je      een     en      met     is      in      op     niet    het
maggie  paula   opposition      gems    oiii    kemal   industrial     cancun  ireng   unplug  controllers
9700    t0      bdae    concentration   0ut     day'    armpit  kb     2007    0f      s0
yu      ma      ii      lmaoo   lml     youu    juss    mee     uu     yeaa    ohh
除了成为一个体面的语言检测器之外,该模型还确定了Twitter用户认为很棒的内容(在竞技场中吸食,用ipod欺骗平民)以及人们选择同时选择性地发到Facebook的鸣叫(发牢骚,奶油和koolaid)。

按比例放大,在3500万条推文上运行的100个主题模型在我的笔记本电脑上花费了3小时15分钟。 拉米奇等等 报告称在96个工作日内对800万条推文进行了大约800个主题的LDA模型培训(24台机器为4天)。这不是一个苹果一个苹果,但我认为vowpal中的在线LDA实施要快2到3个数量级。

4条评论:

  1. 祝贺新演出!我希望博客继续-我'm really enjoying reading it. Can you say anything about the new job? In particular, are you still working on decision making type 问题?

    回复 删除
  2. 这项新工作是在一家拥有几个受欢迎的Twitter移动客户端的初创公司中进行的,除其他外,该公司希望使用机器学习来使Twitter体验更好。

    因此,对于决策类型问题,绝对可以。有几个公认的"problems"关于Twitter的用户体验,机器学习可以帮助例如基于内容而不是高音扬声器的身份定义流;过滤Twitter流并确定其优先级,以便更有效地使用;并发现新的Twitter帐户。当然,存在货币化问题,这些问题将利用机器学习来提高效率。

    回复 删除
  3. 您还记得您使用了哪些大众选择?

    回复 删除
    回覆
    1. This was very early in the implementation, so I would advise consulting the latest documentation. Also the Vowpal兔子 yahoo group (http://tech.groups.yahoo.com/group/vowpal_wabbit/) is extremely friendly and 马特·霍夫曼 hangs out there, so you can get the best possible information by asking questions there.

      删除