我经常被要求提供将在线性程序中使用的系数的估计值,而线性程序的解决方案决定了生产系统实际做出的决策。我遇到的第一个问题是:“我对系数估计问题使用什么广东11选五开奖号码查函数?”。
好吧,似乎一个人可以在研究生院里度过6年的时间来试图理解这个问题,但仍然没有取得任何进展。 (还值得注意的是,OR社区数十年来一直在与不确定系数有关的问题作斗争。)尽管如此,我一直在通过思考来使自己有趣,尤其是尝试从
机器学习减少 立场。我能想到的最简单的易于理解的缩减类似于将估计值提供给线性程序,就是将成本敏感的多类分类(CSMC)缩减为回归。
如果您熟悉此设置,请随时跳过此简短的介绍性说明。在CSMC中,有一个有限的$ K $类构成决策空间。有一个分布$ D $,从中分配了对$(x,c)$的IID,其中$ x $是要素,而$ c:K \ to \ mathbb {R} $是与选择a相关的成本向量此实例的特定类。方便地考虑$ D = D_x \ times D_ {c | x} $,其中$ D_x $是要素的分布,$ D_ {c | x} $是给定要素实例的条件费用分布。成本敏感的多类分类器$ h:X \ to K $具有预期成本\ [E _ {(x,c)\ sim D} [c(h(x))],\],但更感兴趣的是
后悔 相对于最佳分类器而言,\ [r_ {csmc}(h)= E_ {x \ sim D_x} \ left [E_ {c \ sim D_ {c | x}} [c(h(x) )]-\ min_ {k \ in K} \; E_ {c \ sim D_ {c | x}} [c(k)] \ right]。 \]攻击CSMC的一种方法是减少到``argmax回归''。在这种情况下,将学习回归器$ g:X \ times K \ to \ mathbb {R} $,它定义了一个关联的分类器$ h_g(x)= \ operatorname {arg \,min \,} _ {k \ in K} g(x,k)$。假设所有真实成本$ c(k)$为非负且所有估计成本$ g(x,k)$为非负,则可以视为求解特定的线性程序\ [\ begin {aligned} \ min_ {d(k)}&\ sum_k d(k)\ bar c(x,k)\\ \ mbox {取决于} d(k)&\ geq 0 \\ \ sum_k d(k)&=每个$ x $ 1 \ end {aligned} \],其中$ \ bar c(x,k)= E_ {c \ sim D_ {c | x}} [c(k)] $是条件的均值给定$ x $,则$ c(k)$。解将具有$ d(k)= 1_ {k = \ operatorname {arg \,min \,} _ {k \ in K} \ bar c(x,k)} $,即,解为整数并选择最佳选择。但是,我们没有访问$ \ bar c(x,k)$,而是机器学习估计值$ g(x,k)$并将其提供给线性程序。
那么,对于CSMC有什么了解?
- 将CSMC减少到回归给出了截然不同的界限 在$ r_ {csmc} $上,取决于用于回归子问题的广东11选五开奖号码查函数。使用平方广东11选五开奖号码查会基于对基本回归问题的后悔而导致界限,而使用$ L_p(y,\ hat y)= | y-\ hat y | ^ p $ $ p \ geq 1 $的广东11选五开奖号码查只会导致错误界限。使用$ L_p $广东11选五开奖号码查的单面版本也可以获得错误界限。有关此的更多信息,请参见下文。
- 当前一些CSMC的最新方法根本不会减少到回归,例如 过滤树。这表明将机器学习的估计值提供给标准的整个过程 要么 程序可能会被其他方法所取代。
实际考虑(加上我的无知)表明,在短期内,对于大规模问题,向线性程序提供估计值将继续是一种作法。这就是我所知道的。
首先,对基础回归问题使用$ L_p $广东11选五开奖号码查会导致CSMC后悔界限为\ [r_ {csmc}(h_g)\ leq 2 \ sqrt [p] {\ frac {| K |} {2} q_p(g )},\]其中$ q_p(g)$是使用广东11选五开奖号码查函数$ L_p $的基础回归问题的错误。由于我们希望将误差减小到最小,所以平方根正在与我们作战,因此最佳选择是$ p = 1 $。如果a的结果是相同的
单面版 使用了$ L_p $美元;在这里,单方面的意思是不会对每个实例低估最低成本,也不会对每个实例高估其他成本。由于单方面的$ L_p $广东11选五开奖号码查最多与$ L_p $广东11选五开奖号码查相同,并且由于后悔有一个错误,因此在这里使用单方面广东11选五开奖号码查更好。
其次,后悔界限通常优于错误界限,因为在困难问题上,实现低错误可能非常困难,而实现低遗憾是可行的。我知道,回归降低的唯一遗憾是平方广东11选五开奖号码查,其中\ [r_ {csmc}(h_g)\ leq 2 \ sqrt {\ frac {| K |} {2} r_ {sq}(g )},\],其中$ r_ {sq}(g)$是潜在回归问题的平方广东11选五开奖号码查后悔。它看起来与错误界限(另一个帖子的主题)非常相似,但是由于回归误差可能很大而回归遗憾很小,因此它更有利。
在实践中这对我意味着什么?现在不多。我提供给线性程序的估计是概率,因此对广东11选五开奖号码查函数有两种选择:平方广东11选五开奖号码查和对数似然
一致估计。询问在CSMC argmax回归中可以证明对数可能性的对数是很有趣的(这是一个很有趣的版本,因为所有实例广东11选五开奖号码查均为0或1),但实际上,我一直在使用平方广东11选五开奖号码查(并非出于上述原因,而是因为它是有界的,因此可以与原始线性表示上的随机梯度下降很好地配合使用)。