我当前的问题域的特征是大量的未标记数据和少量的标记数据。最近我
经历了一些成功 通过将LDA应用于未标记的数据以创建社交图的表示形式,并在我的监督分类器中使用所得特征。
数篇论文指出,同时提取主题和估计分类器比上述过程具有更好的性能:1)提取主题而不考虑分类问题,然后2)在监督分类器中使用主题。不幸的是,我读过的论文都假定始终遵循文档类。我的案例是更经典的半监督:我想利用所有未标记和标记的数据来构建最佳分类器。出乎意料的是,尽管我觉得这是很典型的,但我在文献中没有看到这种情况。
LDA是一个生成模型,因此从直觉上看,应该感觉很容易将其适应于仅部分观察到关联文档信息的情况:在实践中存在一些陷阱。我将深入研究LDA的两个扩展的推理策略,这些扩展旨在与(充分观察到的)关联文档标签一起使用,以查看是否可以找到一种方法来使它们适应半监督数据的情况。
监督的LDA
首先是
有监督的LDA方法 来自“教父”本人(Blei)和乔恩·麦考利夫(Jon McAuliffe)。在进入细节之前,我将重复本文的总体结果:联合评估主题和分类器比先评估主题然后再评估主题更好。让我再次想起,当每个文档都与受监管信息相关联时,便证明了这一结果。
这是本文图1中模型的平板显示。
该模型与原始LDA相似,但具有额外的标签发射步骤。
- 绘制主题比例$ \ theta | \ alpha \ sim \ mbox {Dir}(\ alpha)$。
- 每个字
- 绘制主题分配$ z_n | \ theta \ sim \ mbox {Mult}(\ theta)$。
- 画字$ w_n | z_n,\ beta_ {1:K} \ sim \ mbox {Mult}(\ beta_ {z_n})$。
- 绘制响应变量$ y | z_ {1:N},\ eta,\ delta \ sim \ mbox {GLM}(\ tilde z,\ eta,\ delta)$。
其中$ \ tilde z = \ frac {1} {N} \ sum_n z_n $是文档中的经验主题频率,并且
GLM 是广义线性模型。
在监督的LDA论文中,通过变数EM进行推理。辅助函数$ \ mathcal {L} $是使用变化分布$ q $派生的,其中每个主题向量是从每个文档$ \ gamma $参数化的Dirichlet分布中提取的,而每个单词是从每个文档位置$ \ phi_n $参数化多项式分布。对于单个文档,它看起来像\ [
\ begin {aligned}
\ log p(w_ {1:N},y | \ alpha,\ beta_ {1:K},\ eta,\ delta)
&\geq \mathcal{L} (\gamma, \phi_{1:N};\ alpha,\ beta_ {1:K},\ eta,\ delta)\\
&= E_q [\ log p(\ theta | \ alpha)] + \ sum_ {n = 1} ^ N E_q [\ log p(Z_n | \ theta)] \\
&\;\; \; \; + E_q [\ log p(y | Z_ {1:N},\ eta,\ delta)] + H(q)。
\ end {aligned}
\]好吧,适应半监督情况没问题,对吧?在这种情况下,对于所讨论的文档,不会观察到$ y $,因此,在该函数的辅助函数中,$ E_q [\ log p(y | Z_ {1:N},\ eta,\ delta)] $项不存在。文档,基本上没有标签的文档的变体参数遵循原始LDA的更新规则。所以基本上我需要
sLDA的公开实施 并对其进行修改以接受隐藏了目标函数的相应部分的``未观察到''类标签。
正如马特·霍夫曼(Matt Hoffman)向我指出的那样,这可能不符合我的期望。由于未标记的数据大大超过了标记的数据,因此大多数$ \ phi_n $不会承受任何压力来解释已知的标签,并且这些将主导$ \ beta_ {1:K}的最终估算$。这是因为$ \ beta_ {1:K} $的M步由\ [
\ hat \ beta_ {k,w} \ propto \ sum_ {d = 1} ^ D \ sum_ {n = 1} ^ {N_d} 1_ {w_ {d,n} = w} \ phi ^ k_ {d,n }。
\]因此预测是,随着我使用这种技术抛出更多未标记的数据,它会退化为等同于首先运行主题估计器,然后运行分类器的东西。坏度10000?
也许不是。给定一组$ D_s = \ {(d,l)\} $带标签的文档,以及较大的一组$ D_u = \ {d \} $无标签的文档,哪个更好?
- 在$ D_s $上运行受监督的LDA,而忽略$ D_u $。
- 在$ D_s \ cup D_u $上运行无监督的LDA,然后对$ D_s $进行分类。
直觉表明第二种方法更好:毕竟,第一种是忽略大多数数据。生成模型也许在说,当无监督数据量巨大时,单独的特征提取和分类步骤将接近最优。
情况仍然不能令人满意。一种想法是重视文件上带有标签的重量,以使它们不会被未标签的数据所淹没。这具有实际的优点,那就是希望对公开可用的sLDA实现进行直接的修改(基本上,将每个带标签的文档都视为多次出现;因此在上面的$ -beta_ {1:K} $ M步骤,则加重了带有标签的文档的$ \ phi $)。但是,感觉很脏。
另一个想法是从
转导支持向量机。在二进制情况下,基本思想是,尽管未标记数据上的标记是未知的,但它们被认为是0或1;因此,可以将它们视为0。因此,实际上,决策边界应避免未标记分布中的高密度区域。另外,还可以使用标签的经验分布来偏爱决策边界,这些决策边界会在未标记的数据中创建相似的标签分布。类似地,对于二进制情况下的``传导性LDA'',我需要$ y $上的先验值,该值更喜欢未标记点的极值,可能会偏向于促进未标记数据上的某些标签分布。最终,这意味着在变化范围内,$ E_q [\ log p(y | Z_ {1:N},\ eta,\ delta)] $项对于未标记的点变为$ E_q [E_ \ zeta(\ log p(y | Z_ {1:N},\ eta,\ delta)] $项,其中$ \ zeta $是在$ y $上优先使用的极值,因为粉碎未标记数据的一种简单方法是设置$ || \ eta || \\ infty $或$ \ delta \ to 0 $这些参数的一些先前分布对于保持事物的控制是必要的。
虽然我对``传导性LDA''感到非常兴奋,但实际上,我认为要花很长时间才能使它工作。
光盘LDA
接下来是
光盘LDA 来自莎莉(Julien)和《统计迈克尔·乔丹(Michael Jordan of statistics)》。这是本文图1至图3中模型的平板显示。
该模型修改原始LDA,以使文档类标签$ y_d $可以将原始文档主题$ z_d $重新映射为转换后的主题$ u_d $,从而控制单词发射概率。
- 绘制主题比例$ \ theta | \ alpha \ sim \ mbox {Dir}(\ alpha)$。
- 绘制单词发射向量$ \ phi | \ beta \ sim \ mbox {Dir}(\ beta)$。
- 绘制类标签$ y | \ pi \ sim p(y | \ pi)$来自某些先前的分发。
- 每个字
- 绘制主题分配$ z_n | \ theta \ sim \ mbox {Mult}(\ theta)$。
- 绘制转换后的主题分配$ u_n | z_n,T,y \ sim \ mbox {Mult}(T ^ y_ {u_n,z_n})$。
- 画字$ w_n | z_n,\ phi_ {1:K} \ sim \ mbox {Mult}(\ phi_ {z_n})$。
在实践中,$ T $矩阵固定为块零和块对角线的混合体,它们的基本排列方式是1)一些类别的主题$ K_1 $在所有类标签上共享; 2)一些数字$ | Y |。 K_0 $个主题,每个类别标签会获得$ K_0 $个主题,该主题保留与该特定类别标签\ [
T ^ y = \ begin {pmatrix}
0&I_ {K_0} 1_ {y = 1} \\
\ vdots和\ vdots \\
0&I_ {K_0} 1_ {y = | Y |} \\
I_ {K_1}&0
\ end {pmatrix}。
\]以这种方式使用,生成的模型非常类似于
标有LDA;实际上,我建议阅读Labeled LDA论文以了解这种情况下的情况(快速摘要:折叠的Gibbs采样器与香草LDA相同,只是根据类标签仅允许在可行主题之间进行转换。 )
对于半监督情况,我们可以说不是总是观察到$ y $。但是,在DiscLDA生成模型中很明显,我们需要对$ y $进行边际化。换句话说,未标记的文档将不限于仅使用在所有类标签之间共享的$ K_1 $主题。相反,他们也将被允许使用每个类别标签主题的某种混合,这些主题与未观察到的类别标签的后验分布$ p(y_d | \ cdot)$有关。
那么当未标记的数据量大大超过标记的数据量时会发生什么呢?我最终可能会退化为等同于香草LDA的东西,例如,在二进制情况下,大多数未观察到的标签将最终以$ p(y_d = 1 | \ cdot)\ approx 1/2 $结束,这意味着实际上所有每个班级的主题都被``淘汰''了。所以再次,我可能需要一个``传导先验'',这实际上是$ y $分布的先验,它比类标签更喜欢低熵分布。
在实践中,我将使用DiscLDA(标签LDA)作为起点。这基本上是因为折叠的Gibbs采样器在受限转换矩阵的情况下易于实现。在半监督情况下使此方法起作用可能会很有挑战性,因为该模型可能倾向于让未标记数据上的发明类别标签主导已标记数据上实际观察到的类别标签。