2011年7月26日,星期二

日志TF

我使用一种编码来解决文本广东11选五开奖号码查问题,该编码在经验上有助于在使用线性广东11选五开奖号码查器(例如 Vowpal兔子 与名义上编码的令牌。换句话说,如果您要输入这样的输入
1 |男孩会男孩
-1 |我来了,我看到了我被征服了
对于Vowpal来说,希望构建一个二进制广东11选五开奖号码查器,您可以做得更好。

在使用logistic损失的情况下,一个是用unigram进行logistic回归,这形成了 生成辨别对 与多项朴素的贝叶斯。因此,如果编码有助于改善朴素的贝叶斯,那么它也可以改善与字母组合的逻辑回归。 伦尼(Rennie)等。等 提出了多项多项式朴素贝叶斯改进,包括对数项频率(TF)编码。为了获得动力,请考虑朴素贝叶斯背后的生成模型,该模型说,以类标签为条件,文档的可能性由\ [
p(D | \ theta)\ propto \ prod_ {w \ in V} \ theta_w ^ {c_w(D)},
\]其中$ V $是词汇量,$ \ theta $是特定于标记的类标签分布,而$ c_w(D)$是文档中标记$ w $的计数。伦尼(Rennie)等。等声称这种生成模型的问题在于,相对于凭经验观察到的结果,它低估了文档中重复标记的可能性(我同意,已经看到包含由标记``HA''组成的推文重复了11次)。这个问题类似于高斯分布,在最小二乘回归中,离群值的可能性不足。 一种解决方法 用诸如t分布之类的较重的分布代替。他们特别建议\ [
p(D | \ theta)\ propto \ prod_ {w \ in V} \ theta_w ^ {\ log_2(1 + c_w(D))},
\]在结构上是相同的,但使用了计数这一术语。在实践中,我喜欢保留双字扩展的字序,因此我将$ \ log_2(1 + c_w(D))/ c_w(D)$权重分配给输入中每个令牌实例,从而得到
1 |男孩:0.792将会:1是:1男孩:0.792
-1 |我:0.666来了:1我:0.666看到了:1我:0.666被征服了:1
实际上,这可以可靠地提高文本广东11选五开奖号码查性能。他们在该论文中提到的其他一些技巧可以解决某些问题,而不是其他一些问题,因此通常都值得尝试,但是以我的经验,这确实是有帮助的。

日志TF LDA

现在可以进行更多投机活动了。考虑LDA的生成模型,确定每个职位的所有主题分配的条件,然后查看共享相同主题分配的那些职位上单词的分布:这是多项式分布。但是,等等,我们已经确定多项式低估了文档中标记重复的可能性;理所当然地,LDA也遭受同样的问题。我建议只做上面概述的log TF转换;尽管从数学上讲这可能没有意义(结果的可能性与Dirichlet不共轭),但在操作上没有特别的困难。对于变体方法,文档通过单词计数进行汇总,分数计数没有根本问题。对于Gibbs抽样,可以维护对主题的单词分配的各种计数以及每个文档的总数,这仍然可以是分数。

怎么知道最终的模型更好?我认为查看困惑不会有所帮助,因为通过更改令牌计数,可以更改困惑的定义。因此,我将看一下使用LDA的端到端上下文。例如,使用LDA作为监督广东11选五开奖号码查系统的深度学习特征提取器,我将研究log TF LDA是否产生更好的整体广东11选五开奖号码查性能。

2条评论:

  1. You might want to take a look 在 'Term Weighting Schemes for Latent Dirichlet Allocation' by Andrew T. Wilson and Peter A. Chew (http://aclweb.org/anthology/N/N10/N10-1070.pdf). To be honest, I never could quite figure out what they were doing but it looks pretty close to what you describe.

    回复删除
  2. 经过粗略的检查,尽管它们使用语料库水平的频率信息,但有一定的相似性。我喜欢log TF(除了简洁的动机)的一件事是,它完全是本地文档,因此可以在线计算(尽管当广东11选五开奖号码查的文本较长时,我在实践中对广东11选五开奖号码查任务的提升通常会更大;在对短文本序列进行广东11选五开奖号码查时,语料库级别的信息更为有用。

    总体而言,该文件建议在实践中这种方法可能有效。

    回复删除