2011年3月23日,星期三

社会图谱上的LDA

在我的 以前的帖子 我指出我面临各种半监督的问题,并且我希望在社交图中利用LDA来构建特征表示,以提高我在各种分类任务上的性能。既然我已经真正做到了,我想我会分享一些结果。

图上的LDA

该策略是将社交图的每个顶点处的边集视为文档,然后将LDA应用于生成的文档语料库,类似于 张等等 由于我正在考虑Twitter的社交图谱,因此潜在因素可能代表兴趣或社区,但实际上我并不在乎,只要所得到的功能改善了我的监督分类器即可。

当LDA首次应用于Computer Vision时,它基本上未经修改就被首次应用 取得了一些成功。然后将生成模型调整到问题域以提高性能(例如,在Computer Vision的情况下,通过合并 空间结构)。这样做是出于非常实际的原因:当您应用标准生成模型时,您就可以利用他人的优化和正确实现!出于同样的原因,我在这里坚持使用原始的LDA,但是我发现有些方面并不完美。
  • 在有向社交图(例如Twitter)上,有两种边缘,类似于文档中存在的两种不同标记。 LDA只有一种令牌类型。可以通过在每个边缘前面加上“ +”或“-”指示方向来解决此问题。在实践中,我仅通过对输出边进行建模(即有人跟随的一组人)来回避此问题。
  • 一个边在边集中只能存在一次,而使用香草LDA,令牌可以在文本文档中多次出现。考虑到边缘发射概率之间的这种负相关性可能会改善结果。

广泛的社会话题

即使我实际上并不关心了解潜在因素,也可以用来娱乐博客。所以现在找乐子。我从Twitter用户的随机样本中对边缘集运行了10个主题的LDA模型,以便获得图形结构的广泛概述。以下是每个主题的十大最可能的Twitter帐户:
1Ugglytruth globovision LuisChataing juanes tusabiasque AlejandroSanz Calle13Oakly Shakira Erikadlv ChiguireBipolar ricky_martin BlackberryVzla miabuelasabia CiudadBizarra ElUniversal chavezcandanga luisfonsi ElChisteDelDia noticias24
2detikcom SoalCINTA sherinamunaf Metro_TV soalBOWBOW radityadika kompasdotcom TMCPoldaMetro IrfanBachdim10 ayatquran agnezmo pepatah AdrieSubono desta80s Cinema21 Fitrop vidialdiano ihatequotes sarseh
3RevRunWisdom NICKIMINAJ drakkardnoir TreySongz kanyewest chrisbrown iamdiddy myfabolouslife KevinHart4real LilTunechi KimKardashian MissKeriBaby 50cent RealWizKhalifa lilduval MsLaurenLondon BarackObama Ludacris Tyrese
4justinbieber radityadika Poconggg IrfanBachdim10 snaptu AdrieSubono MentionKe TheSalahGaul vidialdiano FaktanyaAdalah TweetRAMALAN soalBOWBOW unfollowr disneywords DamnItsTrue SoalCINTA sherinamunaf widikidiw PROMOTEforfor
5NICKIMINAJ KevinHart4real TreySongz RevRunWisdom RealWizKhalifa chrisbrown drakkardnoir Wale kanyewest lilduval Sexstrology myfabolouslife LilTunechi ZodiacFacts106andpark Ba​​rackObama Tyga FreakyFact KimKardashian
6ConanOBrien cnnbrk shitmydadsays BarackObama THE_REAL_SHAQ Theion jimmyfallon nytimes StephenAtHome BreakingNews mashable google BillGates rainnwilson twitter espn ochocinco TIME SarahKSilverman
7Ladygaga KimKardashian katyperry taylorswift13布兰妮斯皮尔斯PerltonHilton KhloeKardashian aplusk TheEllenShow KourtneyKardash rihanna jtimberlake justinbieber RyanSeacrest ParisHilton nicolerichie LaurenConrad selenagomez Pink
8iambdsami Z33kCare4women DONJAZZYMOHITS MriLL87WiLL chineyIee NICKIMINAJ MrStealYaBitch FreddyAmazin制片人Hitmann MI_Abaga DoucheMyCooch WomenLoveBrickz Uncharted_ WhyYouMadDoe MrsRoxxanne I_M_Ronnie B?
9Woodytalk vajiramedhi chocoopal PM_Abhisit js100radio kalamare Trevornoah GarethCliff suthichai Domepakornlam ploy_chermarn crishorwang paulataylor Noom_Kanchai jjetrin Khunnie0624 ThaksinLive DJFreshSA R​​adioblogger
10myfabolouslife IAMBIGO NICKIMINAJ GuessImLucky DroManoti GFBIVO90 Sexstrology FASTLANE_STUDDA PrettyboiSunny Ms_MAYbeLLine ZodiacFacts FlyLikeSpace RobbRF50PKF CLOUD9ACE Jimmy_Smacks LadieoloGistPKF TreySongz Prince_Japan
大致而言,我看到西班牙裔(主题1),亚洲(主题2),嘻哈(主题3),具有西方影响力的亚洲人(主题4),具有占星学影响力的嘻哈(主题5),新闻和喜剧(主题6) ,北美名人(主题7),嘻哈(主题8),亚洲(主题9)和嘻哈(主题10)。

是的,这些数据是在查理·希恩(Charlie Sheen)之前收集的 暴涨.

shitmydadsays是一个新闻网站

实际上,主题6确实令人着迷。也许最好将其称为“新闻速递之类”。毫无疑问,新闻兴趣和喜剧兴趣是相交的,但因果关系尚不清楚:是否需要观看新闻以了解笑话,还是需要通过笑话来避免在观看新闻后出现严重的沮丧情绪?

贾斯汀·贝伯的文化多义性

使用LDA分析文本时,针对多个主题具有较高发射概率的标记通常具有多种含义。在这里,我们看到Justinbieber对于主题4和7的发射概率很高,否则主题分别是亚洲和北美。一种解释是,贾斯汀比伯的吸引力跨越了两种文化。

1条评论:

  1. hey you might be interested in my research http://www.akshaybhat.com/LPMR/

    我使用了2009年以来完整的Twitter社交网络(3600万用户),并在Hadoop上实现了社区检测算法。

    回复删除