2012年3月24日,星期六

我们是坏人吗?

在过去的几十年中,美国经历了越来越严重的收入不平等,在经济标志圈中,人们对起因进行了激烈的辩论。 卡尔·史密斯(Karl Smith)发表的一篇文章 引起了我的注意:
我的更长篇论文是,非熟练劳动力的报酬上升是工业化的一种功能,而工业化在这方面是独特的。非熟练工人的工资率以前从未受益过,而且还没有立即表明它将再次受益。

这是因为租金总是归因于稀缺的生产要素。工业化意味着我们唯一缺少的是“control systems”生产过程中的其他所有东西实际上都是便宜的。

但是,任何精神健康的人都是一个体面的控制系统。因此,这意味着成为人类的巨大回报。
如果该理论正确,则表明从事人工智能及相关领域工作的任何人都在加剧收入不平等。 h!

卡尔接着说
您需要缺少某些东西,因为人类仅仅是人类就具有相对优势。
机械土耳其人表明,人们仍然具有交易固有的出色感知能力的能力。识别色情内容并为每小时$ 2.00标记图像可能听起来并不像您对美好生活的想法,但是 那些生活在尼加拉瓜的垃圾掩埋场的人 大概会认为这是一种改进。如果可以将世界上最贫穷的人与Mechanical Turk联系起来以改善他们的福利,那将是很好的。

但是,任何有这种抱负的慈善机构都必须抓紧时间。在一两年之内,我们将解决今天在Mechanical Turk中经常遇到的所有问题,从而关闭这一发展机会窗口。

2012年3月5日,星期一

PU学习与AUC

在我的新工作中,我要处理的第一个主要问题的特征是普遍存在正标记数据,无负标记数据和大量未标记数据。也称为 p-u学习。尽管有``臭''的绰号,但在这些条件下仍可能取得进展。因为这是一个普遍的困境,所以在文献中有广泛的处理方法:研究人员提倡各种不同的方法和相关的统计假设,因此,我很难总结出最佳实践。幸运的是,由于 张李 事实证明这很有用。

设置是非常自然的:假设特征$ x $和(二进制)标签$ y $通过$ D = D_x \ times D_ {y | x} = D_y \ times D_ {x | y} $共同分发;假定在给定正标签$ y = 1 $的情况下(即带有正标签的示例),您可以访问特征$ x $的分布$ D_ {x | 1} $中的样本;并假设您必须从$ D_x $功能的无条件分布访问示例,即无标签示例。请注意,您无权访问分布$ D_ {x | 0} $中的样本,即,您没有任何带有负号的示例。

事实证明,如果可以使用AUC作为目标函数,则可以直接对正数和未标记的数据进行优化。通过在p-u数据集\ [上关联AUC可以证明这一点。
\ begin {aligned}
\ mathop {\ mathrm {PUAUC}}(\ Phi)&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_x}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right],
\ end {aligned}
\]到使用(不可访问的)带有负标签的示例计算的标准AUC,
\ begin {aligned}
\ mathop {\ mathrm {AUC}}(\ Phi)&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_{x|0}}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right]。
\ end {aligned}
\] 特别是, \[
\ begin {aligned}
&\ mathop {\ mathrm {AUC}}(\ Phi)\\
&= \mathbb{E}_{(x_+, x_-) \sim D_{x|1} \times D_{x|0}}\left[ 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right] \\
&= \frac{\mathbb{E}_{(x_+,(x_-,y)) \sim D_{x|1} \times D}\left[ 1_{y=0} \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right] \ right]} {\ mathbb {E} _ {{x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \frac{\ mathop {\ mathrm {PUAUC}}(\ Phi)- \mathbb{E}_{(x_+,(x_-,y)) \sim D_{x|1} \times D}\left[ 1_{y=1} \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right]}} {\ mathbb {E} _ {(x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \frac{\ mathop {\ mathrm {PUAUC}}(\ Phi)- \mathbb{E}_{(x, y) \sim D} \left[ 1_{y = 1} \right] \mathbb{E}_{(x_+,x_-) \sim D_{x|1} \times D_{x|1}}\left[ \left( 1_{\Phi (x_+) >\ Phi(x_-)} + \ frac {1} {2} 1 _ {\ Phi(x_ +)= \ Phi(x_-)} \ right)\ right]}} {\ mathbb {E} _ {(x, y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \ frac {\ mathop {\ mathrm {PUAUC}}(\ Phi)-\ frac {1} {2} \ mathbb {E} _ {(x,y)\ sim D} \ left [1_ {y = 1} \ right]} {\ mathbb {E} _ {(x,y)\ sim D} \ left [1_ {y = 0} \ right]} \\
&= \ frac {\ mathop {\ mathrm {PUAUC}}(\ Phi)-\ frac {1} {2}} {\ mathbb {E} _ {(x,y)\ sim D} \ left [1_ { y = 0} \ right]} + \ frac {1} {2},
\ end {aligned}
\],他们在论文中写为\ [
-\ frac {1} {2} \ propto \ mathop {\ mathrm {PUAUC}}(\ Phi)-\ frac {1} {2}。
\]这导致以下极其简单的过程:将未标记的数据视为否定数据,并针对AUC进行优化。

太棒了!