2010年7月30日,星期五

单面广东11选五开奖号码查

因此,我一直沉迷于成本敏感的多类分类(CSMC)的回归降低,因为我希望它能改善我对解决决策问题时会发生什么的直觉 首先机器学习系数的估计,然后在线性程序中使用这些系数.

A Tu和Lin的作者在ICML 2010上引起了我的注意,因为他们在降低CSMC回归方面使用了单方面绝对广东11选五开奖号码查。单边在这里意味着对于特定的训练实例,不会低估成本向量的最低部分,而不会高估成本向量的其他(非最低)部分。由于他们基于潜在回归问题的错误(而不是遗憾)而对CSMC感到遗憾,并且由于单边广东11选五开奖号码查的上限是两边广东11选五开奖号码查,因此单边广东11选五开奖号码查在此更好。

现在考虑将CSMC简化为回归程序,并使用估计系数来求解该线性程序,这建议在更复杂的情况下采用以下策略:
  1. 解决每个训练实例的线性程序(或与每个线性程序实例相关的训练数据的子集)。
  2. 使用该解决方案可以有益地告知回归问题中的广东11选五开奖号码查函数。
在太激动之前,值得注意的是后悔界限比错误界限更可取,Tu和Lin仅证明错误界限。简单的反例可以表明,单方面绝对广东11选五开奖号码查一般不会后悔。此外,可以举例说明,尽管减少到平方广东11选五开奖号码查是一致的,但减少到平方广东11选五开奖号码查是不一致的(也就是说,根据广东11选五开奖号码查的平方归零不会导致CSMC后悔为零)。该示例也不必离奇:这是一个三级决策问题,具有零特征空间和每个实例的成本分布,对应于与类相关的成本矩阵,没有正确分类的错误:\ [\ begin {array} {| c | c | c | c |} \ hline \ mbox {概率}&c_0&c_1&c_2 \\ \ hline 1/2&0&6&64 \\ \ hline 1/4&2&0&64 \\ \ hline 1/4& 13&4&0 \\ \ hline \ end {array} \]最佳单边平方损耗回归变量为:$ c ^ *(0)= 13/3 $,$ c ^ *(1)= 4 $,以及$ c ^ *(2)= 48 $,因此将始终选择类别1,但是最优策略始终选择类别0。

因此,似乎在平方广东11选五开奖号码查的情况下,对训练实例上的线性程序的解所通知的回归广东11选五开奖号码查的修改实际上是有害的。但是,在更复杂的情况下,错误界限可能是我们可以实现的最好的界限,因此在训练实例上使用线性程序的解的想法可能很有用。 (从理论上讲,尽管没有遗憾,Tu和Lin证明了他们所得的CSMC算法具有很强的经验性能。)

2010年7月29日,星期四

ML和OR:对成本敏感的多类分类的类比

我经常被要求提供将在线性程序中使用的系数的估计值,而线性程序的解决方案决定了生产系统实际做出的决策。我遇到的第一个问题是:“我对系数估计问题使用什么广东11选五开奖号码查函数?”。

好吧,似乎一个人可以在研究生院里度过6年的时间来试图理解这个问题,但仍然没有取得任何进展。 (还值得注意的是,OR社区数十年来一直在与不确定系数有关的问题作斗争。)尽管如此,我一直在通过思考来使自己有趣,尤其是尝试从 机器学习减少 立场。我能想到的最简单的易于理解的缩减类似于将估计值提供给线性程序,就是将成本敏感的多类分类(CSMC)缩减为回归。

如果您熟悉此设置,请随时跳过此简短的介绍性说明。在CSMC中,有一个有限的$ K $类构成决策空间。有一个分布$ D $,从中分配了对$(x,c)$的IID,其中$ x $是要素,而$ c:K \ to \ mathbb {R} $是与选择a相关的成本向量此实例的特定类。方便地考虑$ D = D_x \ times D_ {c | x} $,其中$ D_x $是要素的分布,$ D_ {c | x} $是给定要素实例的条件费用分布。成本敏感的多类分类器$ h:X \ to K $具有预期成本\ [E _ {(x,c)\ sim D} [c(h(x))],\],但更感兴趣的是 后悔 相对于最佳分类器而言,\ [r_ {csmc}(h)= E_ {x \ sim D_x} \ left [E_ {c \ sim D_ {c | x}} [c(h(x) )]-\ min_ {k \ in K} \; E_ {c \ sim D_ {c | x}} [c(k)] \ right]。 \]攻击CSMC的一种方法是减少到``argmax回归''。在这种情况下,将学习回归器$ g:X \ times K \ to \ mathbb {R} $,它定义了一个关联的分类器$ h_g(x)= \ operatorname {arg \,min \,} _ {k \ in K} g(x,k)$。假设所有真实成本$ c(k)$为非负且所有估计成本$ g(x,k)$为非负,则可以视为求解特定的线性程序\ [\ begin {aligned} \ min_ {d(k)}&\ sum_k d(k)\ bar c(x,k)\\ \ mbox {取决于} d(k)&\ geq 0 \\ \ sum_k d(k)&=每个$ x $ 1 \ end {aligned} \],其中$ \ bar c(x,k)= E_ {c \ sim D_ {c | x}} [c(k)] $是条件的均值给定$ x $,则$ c(k)$。解将具有$ d(k)= 1_ {k = \ operatorname {arg \,min \,} _ {k \ in K} \ bar c(x,k)} $,即,解为整数并选择最佳选择。但是,我们没有访问$ \ bar c(x,k)$,而是机器学习估计值$ g(x,k)$并将其提供给线性程序。

那么,对于CSMC有什么了解?
  1. 将CSMC减少到回归给出了截然不同的界限 在$ r_ {csmc} $上,取决于用于回归子问题的广东11选五开奖号码查函数。使用平方广东11选五开奖号码查会基于对基本回归问题的后悔而导致界限,而使用$ L_p(y,\ hat y)= | y-\ hat y | ^ p $ $ p \ geq 1 $的广东11选五开奖号码查只会导致错误界限。使用$ L_p $广东11选五开奖号码查的单面版本也可以获得错误界限。有关此的更多信息,请参见下文。
  2. 当前一些CSMC的最新方法根本不会减少到回归,例如 过滤树。这表明将机器学习的估计值提供给标准的整个过程 要么 程序可能会被其他方法所取代。

实际考虑(加上我的无知)表明,在短期内,对于大规模问题,向线性程序提供估计值将继续是一种作法。这就是我所知道的。

首先,对基础回归问题使用$ L_p $广东11选五开奖号码查会导致CSMC后悔界限为\ [r_ {csmc}(h_g)\ leq 2 \ sqrt [p] {\ frac {| K |} {2} q_p(g )},\]其中$ q_p(g)$是使用广东11选五开奖号码查函数$ L_p $的基础回归问题的错误。由于我们希望将误差减小到最小,所以平方根正在与我们作战,因此最佳选择是$ p = 1 $。如果a的结果是相同的 单面版 使用了$ L_p $美元;在这里,单方面的意思是不会对每个实例低估最低成本,也不会对每个实例高估其他成本。由于单方面的$ L_p $广东11选五开奖号码查最多与$ L_p $广东11选五开奖号码查相同,并且由于后悔有一个错误,因此在这里使用单方面广东11选五开奖号码查更好。

其次,后悔界限通常优于错误界限,因为在困难问题上,实现低错误可能非常困难,而实现低遗憾是可行的。我知道,回归降低的唯一遗憾是平方广东11选五开奖号码查,其中\ [r_ {csmc}(h_g)\ leq 2 \ sqrt {\ frac {| K |} {2} r_ {sq}(g )},\],其中$ r_ {sq}(g)$是潜在回归问题的平方广东11选五开奖号码查后悔。它看起来与错误界限(另一个帖子的主题)非常相似,但是由于回归误差可能很大而回归遗憾很小,因此它更有利。

在实践中这对我意味着什么?现在不多。我提供给线性程序的估计是概率,因此对广东11选五开奖号码查函数有两种选择:平方广东11选五开奖号码查和对数似然 一致估计。询问在CSMC argmax回归中可以证明对数可能性的对数是很有趣的(这是一个很有趣的版本,因为所有实例广东11选五开奖号码查均为0或1),但实际上,我一直在使用平方广东11选五开奖号码查(并非出于上述原因,而是因为它是有界的,因此可以与原始线性表示上的随机梯度下降很好地配合使用)。