新vowpal的热门功能之一是 在线LDA (谢谢 马特·霍夫曼!)。但是Tweets确实很小,因此很自然地要问像LDA这样的模型对于这样的简短文档是否有效。 拉米奇等等 想知道同一件事。
尽管LDA和相关模型在新闻报道和学术摘要中的应用已有很长的历史,但一个开放的问题是,它们是否适用于像Twitter帖子一样短的文档,并且其文本与传统研究的馆藏大相径庭–在这里我们发现答案是肯定的。因此,我抽取了400万条推文样本,对其进行了标记化,然后将其提供给vowpal,并提出了10个主题模型。播放时间:3分钟。除了要注意的是,一条推文平均以11个令牌(即不多)结尾,我将为您省去令牌化的详细信息。
尽管10个主题实在太小了,除了笔触广泛(我只是在热身)之外,什么都没有,但是结果很有趣,所以我想我应该把它粘贴在这里。这是每个主题的前十个标记,每行1个主题。
arenas carter villain guiding hoooo ipods amir crazzy confessions snort #awesome de la a y que el en no me mi es the to a my is and in for of you on na ka sa ko ng mo ba ang ni pa wa di yg ga ada aja ya ini ke mau gw dan #fb alpha 在 lantic 2dae orgy und tales ich fusion koolaid creme ik de je een en met is in op niet het maggie paula opposition gems oiii kemal industrial cancun ireng unplug controllers 9700 t0 bdae concentration 0ut day' armpit kb 2007 0f s0 yu ma ii lmaoo lml youu juss mee uu yeaa ohh除了成为一个体面的语言检测器之外,该模型还确定了Twitter用户认为很棒的内容(在竞技场中吸食,用ipod欺骗平民)以及人们选择同时选择性地发到Facebook的鸣叫(发牢骚,奶油和koolaid)。
按比例放大,在3500万条推文上运行的100个主题模型在我的笔记本电脑上花费了3小时15分钟。 拉米奇等等 报告称在96个工作日内对800万条推文进行了大约800个主题的LDA模型培训(24台机器为4天)。这不是一个苹果一个苹果,但我认为vowpal中的在线LDA实施要快2到3个数量级。
祝贺新演出!我希望博客继续-我'm really enjoying reading it. Can you say anything about the new job? In particular, are you still working on decision making type 问题?
回复 删除这项新工作是在一家拥有几个受欢迎的Twitter移动客户端的初创公司中进行的,除其他外,该公司希望使用机器学习来使Twitter体验更好。
回复 删除因此,对于决策类型问题,绝对可以。有几个公认的"problems"关于Twitter的用户体验,机器学习可以帮助例如基于内容而不是高音扬声器的身份定义流;过滤Twitter流并确定其优先级,以便更有效地使用;并发现新的Twitter帐户。当然,存在货币化问题,这些问题将利用机器学习来提高效率。
您还记得您使用了哪些大众选择?
回复 删除This was very early in the implementation, so I would advise consulting the latest documentation. Also the Vowpal兔子 yahoo group (http://tech.groups.yahoo.com/group/vowpal_wabbit/) is extremely friendly and 马特·霍夫曼 hangs out there, so you can get the best possible information by asking questions there.
删除