2012年3月5日,星期一

PU学习与广东11选五开奖号码查

在我的新工作中,我要处理的第一个主要问题的特征是普遍存在正标记数据,无负标记数据和大量未标记数据。也称为 p-u学习。尽管有``臭''的绰号,但在这些条件下仍可能取得进展。因为这是一个普遍的困境,所以在文献中有广泛的处理方法:研究人员提倡各种不同的方法和相关的统计假设,因此,我很难总结出最佳实践。幸运的是,由于 张李 事实证明这很有用。

设置是非常自然的:假设特征$ x $和(二进制)标签$ y $通过$ D = D_x \ times D_ {y | x} = D_y \ times D_ {x | y} $共同分发;假定在给定正标签$ y = 1 $的情况下(即带有正标签的示例),您可以访问特征$ x $的分布$ D_ {x | 1} $中的样本;并假设您必须从$ D_x $功能的无条件分布访问示例,即无标签示例。请注意,您无权访问分布$ D_ {x | 0} $中的样本,即,您没有任何带有负号的示例。

事实证明,如果可以使用广东11选五开奖号码查作为目标函数,则可以直接对正数和未标记的数据进行优化。通过在p-u数据集\ [上关联广东11选五开奖号码查可以证明这一点。
\ begin {aligned}
\ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_x}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right],
\ end {aligned}
\]到使用(不可访问的)带有负标签的示例计算的标准广东11选五开奖号码查,
\ begin {aligned}
\ mathop {\ mathrm {广东11选五开奖号码查}}(\ Phi)&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_{x|0}}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right]。
\ end {aligned}
\] 特别是, \[
\ begin {aligned}
&\ mathop {\ mathrm {广东11选五开奖号码查}}(\ Phi)\\
&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_{x|0}}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right] \\
&= \frac{\mathbb{E}_{(x_+,(x_-,y)) \sim D_{x|1} \times D}\left[ 1_{y=0} \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right] \ right]} {\ mathbb {E} _ {{x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \frac{\ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)- \mathbb{E}_{(x_+,(x_-,y)) \sim D_{x|1} \times D}\left[ 1_{y=1} \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right]}} {\ mathbb {E} _ {(x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \frac{\ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)- \mathbb{E}_{(x, y) \sim D} \left[ 1_{y = 1} \right] \mathbb{E}_{(x_+,x_-) \sim D_{x|1} \times D_{x|1}}\left[ \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right]}} {\ mathbb {E} _ {(x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \ frac {\ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)-\ frac {1} {2} \ mathbb {E} _ {(x,y)\ sim D} \ left [1_ {y = 1} \ right]} {\ mathbb {E} _ {(x,y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \ frac {\ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)-\ frac {1} {2}} {\ mathbb {E} _ {(x,y)\ sim D} \ left [1_ { y = 0} \ right]} + \ frac {1} {2},
\ end {aligned}
\],他们在论文中写为\ [
\ mathop {\ mathrm {广东11选五开奖号码查}}(\ Phi)-\ frac {1} {2} \ propto \ mathop {\ mathrm {PU广东11选五开奖号码查}}(\ Phi)-\ frac {1} {2}。
\]这导致以下极其简单的过程:将未标记的数据视为否定数据,并针对广东11选五开奖号码查进行优化。

太棒了!

没意见:

发表评论