2011年1月2日,星期日

幸福是一条温馨的推文

通常,获得培训标签是完成任务的限制因素。为此, 拉米奇等等 对Twitter进行有趣的观察:推文中包含与Twitter约定相对应的注释。表情符号,#标签和指向提供有关推文的情感,语义和社交内容的信息。

因此,我决定制造一个Twitter幸福探测器。在维基百科的一点帮助下,我了解了 常见表情 用于表示幸福和悲伤。对于任何特定的推文,如果它包含至少一个快乐的图释且不包含悲伤的图释,我称其为“高兴”。如果它包含至少一个悲伤的图释而没有快乐的图释,我就称它为悲伤。否则我称其为模棱两可。大多数推文是模棱两可的,目标是将其概括化。但对于培训,我只会使用明确的推文。

有几个功能 新的誓言兔 在一起使这个问题易于攻击:支持稀疏的高基数功能;通过哈希技巧控制模型复杂度;的 -自适应 标志,就像自动改善的tf-idf加权;对n-gram扩展的本地支持;当然,在午餐结束之前,可以在笔记本电脑上浏览数以千万计的推文的功能。在一周的推文上进行训练并在未来一天的推文上进行测试,得出的AUC为0.87,即,给定随机的快乐和悲伤推文,所得回归器有87%的可能性将快乐推文的得分评为比悲伤推文更高的分数。 (注意:解析时必须删除表情符号,否则,AUC为1。这里的要点是泛化为模棱两可的推文。)在这一点上,我没有利用vowpal中的LDA支持,我只是对每个令牌进行编码名义上,因此大概可以改善这一点。

我从未来进一步抽取了10000条推文的随机样本,结果发现这些推文大多是模棱两可的,因为那是大多数推文的意思。然后,我对它们进行了排名,这是10条最幸福和10条最可悲的推文。只是重申一下,在解析过程中表情符号会从推文中剥离:最幸福和最悲伤的几条推文中都有表情符号,这表明从推文中的其他标记预测表情符号存在的难度。

10个最幸福的推文

@WRiTExMiND no doubt! <--guess who I got tht from? Bwahaha anyway doe I like surprising people it's kinda my thing so ur welcome! And hi :)
@skvillain yeh wiz is dope, got his own lil wave poppin! I'm fuccin wid big sean too he signed to kanye label g.o.o.d music
And @pumahbeatz opened for @MarshaAmbrosius & blazed! So proud of him! Go bro! & Marsha was absolutely amazing! Awesome night all around. =)
Awesome! RT @robscoms: Great 24 hours with nephews. Watched Tron, homemade mac & cheese for dinner, Wii, pancakes & Despicable Me this am!
Good Morning 2 U Too RT @mzmonique718: Morningggg twitt birds!...up and getting ready for church...have a good day and LETS GO GIANTS!
Goodmorning #cleveland, have a blessed day stay focused and be productive and thank god for life
AMEN!!!>>>RT @DrSanlare: Daddy looks soooo good!!! God is amazing! To GOD be the glory and victory #TeamJesus Glad I serve an awesome God
AGREED!! RT @ILoveElizCruz: Amen to dat... We're some awesome people! RT @itsVonnell_Mars: @ILoveElizCruz gotta love my sign lol
#word thanks! :) RT @Steph0e: @IBtunes HAppy Birthday love!!! =) still a fan of ya movement... yay you get another year to be dope!!! YES!!
Happy bday isaannRT @isan_coy: Selamatt ulang tahun yaaa RT @Phitz_bow: Selamat siangg RT @isan_coy: Slamat pagiiii

10条最悲伤的推文

Migraine, sore throat, cough & stomach pains. Why me God?
Ik moet werken omg !! Ik lig nog in bed en ben zo moe .. Moet alleen opstaan en tis koud buitn :(
I Feel Horrible ' My Voice Is Gone Nd I'm Coughing Every 5 Minutes ' I Hate Feeling Like This :-/
SMFH !!! Stomach Hurting ; Aggy ; Upset ; Tired ;; Madd Mixxy Shyt Yo !
Worrying about my dad got me feeling sick I hate this!! I wish I could solve all these problems but I am only 1 person & can do so much..
Malam2 menggigil+ga bs napas+sakit kepala....badan remuk redam *I miss my husband's hug....#nangismanja#
Waking up with a sore throat = no bueno. Hoping someone didn't get me ill and it's just from sleeping. D:
Aaaa ini tenggorokan gak enak, idung gatel bgt bawaannya pengen bersin terus. Calon2 mau sakit nih -___-
I'm scared of being alone, I can't see to breathe when I am lost in this dream, I need you to hold me?
Why the hell is suzie so afraid of evelyn! Smfh no bitch is gonna hav me scared I dnt see it being possible its not!

观察结果


首先,表情符号是通用的,这使得该技巧可用于许多不同的语言(我认为?我看不懂其中的某些语言)。

其次,Twitter数据非常干净。像这样的愚蠢想法从未与Web数据一起使用,因为始终存在将内容与有效负载的其他部分(导航,结构等)分开的巨大障碍。此外,网页很大,而推文很短,因此在网页可能有多个推文的情况下,推文可以具有清晰的情感基调。

第三,vowpal应该在人们遇到文本分类问题时尝试使用的工具列表中。总共花了不到半天的时间,其中大部分是数据争执。

2条评论:

  1. FWIW,Google翻译确定了我无法'读作印尼语,荷兰语和另外2个印尼语。我想知道'印度尼西亚曾经(或多或少)是荷兰东印度群岛是一个巧合吗?相对于说英语的人来说,有很多印尼推特吗?或者说,它们在情绪上更具可察觉性吗?

    回复删除
  2. 我公司'我工作的人拥有几个Twitter移动应用程序。我的Twitter数据来自那里,而不是Twitter,我'我们注意到数据中有一些特殊之处。特别是他们有一个在印尼非常受欢迎的客户,因此我在全球范围内有很多地理标签。

    回复删除