2012年7月2日,星期一

P-U学习与逐点分类

一旦意识到某些事情,便随处可见。特别是当我了解到 P-U问题 我开始看到人们(隐含!)像对待普通数据集一样对待P-U数据集的例子。令人惊讶的是,这似乎通常可以解决,我发现了Elkan和Noto撰写的一篇论文, 仅从肯定和未标记的数据中学习分类器 这有助于解释原因。

在Elkan和Noto模型中,在$ X \ times \ {0,1 \} $采样上有一个分布$ D $,从中可以构成传统的数据集。但是,我们取而代之的是通过$ X \ times \ {0,1 \} $定义的分布$ D ^ \ prime $通过
  1. 画$ {x,y)\ sim D $。
  2. 如果$ y = 0 $,则$ s = 0 $。
  3. 如果$ y = 1 $,则$ s = 1 $,概率为$ p(s = 1 | y = 1)$,独立于$ x $;否则$ s = 0 $。
  4. 输出$(x,s)$。
注意这些是更强的假设,然后在 针对P-U问题优化AUC;在那种情况下,只需要假设能够从阳性标记和未标记的分布中提取样品。在这里,我们做出两个更强的假设:未贴标签和正面示例的生成是``同时''的,而正面标签检查过程与功能无关。

除了警告之外,上述观察模型产生了一些有趣的结果。首先是\ [
p(s = 1 | x)= p(y = 1 | x)p(s = 1 | y = 1),
\],即观察到的数据集中阳性标记的概率与基础未观察到的数据集中阳性标记的概率成正比。这意味着只需在 适当的计分规则 使用P-U数据集应该近似于与真实概率成比例的值。根据可能足以实现良好性能的总体决策问题,我怀疑这就是为什么有时会天真的使用逐点分类的原因。

Elkan和Noto揭示了上述观察模型的其他有趣含义。他们注意到\ [
p(s = 1 | y = 1)= \ mathbb {E} _ {(x,s)\ sim D ^ \ prime} \ left [p(s = 1 | x)\,\ bigl | \,s = 1 \ right],
\],即一旦训练了一个分类器以近似$ p(s = 1 | x)$,就可以通过从$ D ^提取另一个样本来估计比例常数$ p(s = 1 | y = 1)$。 prime $并在正面示例中平均分类器输出。这意味着分类器可以相对于(不可观察!)基础分布进行(大约)校准。

此外,它们显示了如何根据期望wrt $ D ^ \ prime $,\ [来关联任意期望wrt $ D $。
\ begin {aligned}
&\ mathbb {E} _ {(x,y)\ sim D} \ left [f(x,y)\ right] \\
&= \ mathbb {E} _ {(x,s)\ sim D ^ \ prime} \ left [f(x,1)1_ {s = 1} + \ bigl(w(x)f(x,1) +(1-w(x))f(x,0)\ bigr)1_ {s = 0} \ right],
\ end {aligned}
\]其中\ [
w(x)= p(y = 1 | x,s = 0)= \ frac {1- p(s = 1 | y = 1)} {p(s = 1 | y = 1)} \ frac {p (s = 1 | x)} {1-p(s = 1 | x)}
\]是一个加权函数,将未标记的示例视为正例和负例的概率混合。注意,计算加权函数仅需要在P-U数据集$ p(s = 1 | x)$上训练的分类器,以及通过上一段的过程估算的归一化常数$ p(s = 1 | y = 1)$。这真的是很酷的东西:在最初的密度估计预处理步骤将P-U数据集转换为普通数据集之后,基本上利用这一功能可以解决许多不同的学习问题。

我什么时候应该使用它?

通常,我会谨慎地应用此技术。

在以一种方式收集正样本而以另一种方式收集未标记样本的情况下,Elkan和Noto观测模型的同时假设不是一个很好的选择。而 优化AUC 自然适用于这种情况。

对于固定图上的链接预测,底层分布是指标函数的(大!)总和,因此同时性假设似乎是安全的。但是,条件独立性$ s \ perp x | y $的假设可能很危险。例如,在Facebook,女性可能更可能发起并接受朋友的请求,这将使标签审查的可能性取决于功能。

我个人认为,当我具有复杂的目标函数并且想利用度量结果的变化来加权数据时,我很可能会使用此技术。我的直觉说,即使观察模型不准确,重要性加权也可能弊大于利(相对于重要性加权而不是将未标记的样本视为负面样本)。

当然,如果需要校准的估计器,那么优化AUC是不够的,Elkan和Noto技术变得更具吸引力。有时校准是必不可少的,例如在eHarmony,我不得不生成线性程序消耗的估计值。但是,通常校准似乎必不可少,但并非必需。你可以做 选择分类主动学习 未经校准;您可以将以前训练有素的模型合并到集成的决策系统中,而无需校准模型;你甚至可以定价 广义第二价格 样式的关键字竞价,而无需经过校准的点击率估算器。

没意见:

发表评论