图上的LDA
该策略是将社交图的每个顶点处的边集视为文档,然后将LDA应用于生成的文档语料库,类似于 张等等 由于我正在考虑Twitter的社交图谱,因此潜在因素可能代表兴趣或社区,但实际上我并不在乎,只要所得到的功能改善了我的监督分类器即可。当LDA首次应用于Computer Vision时,它基本上未经修改就被首次应用 取得了一些成功。然后将生成模型调整到问题域以提高性能(例如,在Computer Vision的情况下,通过合并 空间结构)。这样做是出于非常实际的原因:当您应用标准生成模型时,您就可以利用他人的优化和正确实现!出于同样的原因,我在这里坚持使用原始的LDA,但是我发现有些方面并不完美。
- 在有向社交图(例如Twitter)上,有两种边缘,类似于文档中存在的两种不同标记。 LDA只有一种令牌类型。可以通过在每个边缘前面加上“ +”或“-”指示方向来解决此问题。在实践中,我仅通过对输出边进行建模(即有人跟随的一组人)来回避此问题。
- 一个边在边集中只能存在一次,而使用香草LDA,令牌可以在文本文档中多次出现。考虑到边缘发射概率之间的这种负相关性可能会改善结果。
广泛的社会话题
即使我实际上并不关心了解潜在因素,也可以用来娱乐博客。所以现在找乐子。我从Twitter用户的随机样本中对边缘集运行了10个主题的LDA模型,以便获得图形结构的广泛概述。以下是每个主题的十大最可能的Twitter帐户:1 | Ugglytruth globovision LuisChataing juanes tusabiasque AlejandroSanz Calle13Oakly Shakira Erikadlv ChiguireBipolar ricky_martin BlackberryVzla miabuelasabia CiudadBizarra ElUniversal chavezcandanga luisfonsi ElChisteDelDia noticias24 |
2 | detikcom SoalCINTA sherinamunaf Metro_TV soalBOWBOW radityadika kompasdotcom TMCPoldaMetro IrfanBachdim10 ayatquran agnezmo pepatah AdrieSubono desta80s Cinema21 Fitrop vidialdiano ihatequotes sarseh |
3 | RevRunWisdom NICKIMINAJ drakkardnoir TreySongz kanyewest chrisbrown iamdiddy myfabolouslife KevinHart4real LilTunechi KimKardashian MissKeriBaby 50cent RealWizKhalifa lilduval MsLaurenLondon BarackObama Ludacris Tyrese |
4 | justinbieber radityadika Poconggg IrfanBachdim10 snaptu AdrieSubono MentionKe TheSalahGaul vidialdiano FaktanyaAdalah TweetRAMALAN soalBOWBOW unfollowr disneywords DamnItsTrue SoalCINTA sherinamunaf widikidiw PROMOTEforfor |
5 | NICKIMINAJ KevinHart4real TreySongz RevRunWisdom RealWizKhalifa chrisbrown drakkardnoir Wale kanyewest lilduval Sexstrology myfabolouslife LilTunechi ZodiacFacts106andpark BarackObama Tyga FreakyFact KimKardashian |
6 | ConanOBrien cnnbrk shitmydadsays BarackObama THE_REAL_SHAQ Theion jimmyfallon nytimes StephenAtHome BreakingNews mashable google BillGates rainnwilson twitter espn ochocinco TIME SarahKSilverman |
7 | Ladygaga KimKardashian katyperry taylorswift13布兰妮斯皮尔斯PerltonHilton KhloeKardashian aplusk TheEllenShow KourtneyKardash rihanna jtimberlake justinbieber RyanSeacrest ParisHilton nicolerichie LaurenConrad selenagomez Pink |
8 | iambdsami Z33kCare4women DONJAZZYMOHITS MriLL87WiLL chineyIee NICKIMINAJ MrStealYaBitch FreddyAmazin制片人Hitmann MI_Abaga DoucheMyCooch WomenLoveBrickz Uncharted_ WhyYouMadDoe MrsRoxxanne I_M_Ronnie B? |
9 | Woodytalk vajiramedhi chocoopal PM_Abhisit js100radio kalamare Trevornoah GarethCliff suthichai Domepakornlam ploy_chermarn crishorwang paulataylor Noom_Kanchai jjetrin Khunnie0624 ThaksinLive DJFreshSA Radioblogger |
10 | myfabolouslife IAMBIGO NICKIMINAJ GuessImLucky DroManoti GFBIVO90 Sexstrology FASTLANE_STUDDA PrettyboiSunny Ms_MAYbeLLine ZodiacFacts FlyLikeSpace RobbRF50PKF CLOUD9ACE Jimmy_Smacks LadieoloGistPKF TreySongz Prince_Japan |
是的,这些数据是在查理·希恩(Charlie Sheen)之前收集的 暴涨.
hey you might be interested in my research http://www.akshaybhat.com/LPMR/
回复删除我使用了2009年以来完整的Twitter社交网络(3600万用户),并在Hadoop上实现了社区检测算法。