2019年3月8日星期五

RL将破坏OR

运筹学(OR)处于由强化学习(RL)推动的革命的初期。

几年前,当我在eHarmony时,我们使用经典的OR技术来推动配对过程。机器学习起着至关重要的作用,但仅限于为OR求解器指定参数。本质上,机器学习被用来估计值函数,然后OR求解器产生一个策略。

OR过去一直专注于凸优化的易处理专业。在一个计算稀缺的时代,这完全是有道理的:的确,那时eHarmony推动了使用高端商用“或”求解器的极限。但是,现在计算的稀缺性越来越小:在预测建模中,凸优化已被非凸技术(aka“deep learning”)。 OR中正在发生类似的革命。秘诀是:开发问题的生成模型(又名“simulator”),然后使用RL技术直接优化针对模拟数据的政策。

所有模型都是错误的,但是某些模型是有用的。 乍一看,在现实世界的粗略近似上使用先进的RL技术似乎产生了巨大的好处,这似乎是难以置信的。但是,传统的OR技术也会在逼近真实世界的情况下进行极其激进的优化(达到机器精度(!))。尽管通常会进行极大的简化,例如将所有随机变量替换为其期望值(或在更复杂的设置中是高概率范围),OR模型还是有用的。

The simplifications for the RL techniques involve the assumptions in the generative model, such as a particular parametric model for probability of an airplane service event. Early research results suggest that for some economically important problems, relatively crude 模拟器s coupled with RL techniques can induce superior policies to those developed using traditional OR techniques. Furthermore, 模拟器s admit expressing increasingly refined approximations of reality without the constraints imposed by classical OR formulations.

反应时间是其中的一个因素,因此请注意。
反应时间。 您几乎永远不要认真对待任何人对某事起作用的解释。尽管如此,我将给您直觉,为什么RL最终会主导OR。
“优化了经典的OR技术以试图避免弹道中的不良事件,而经过RL训练的策略也经过了优化,可以在事件发生时做出反应。”
如果这是真的,那么只要尾部事件都出现在模拟中并且很少出现,模拟是否能够准确地获得尾部事件的概率就无关紧要,因为所学习策略的“使用补救措施”部分将是以实际发生的事件为条件。 (如果事件并非罕见,那么正确确定同现统计可能很重要。)

如果有这种解释的优点,那么对于经常重新执行经典OR优化以对新事件做出反应的场景,RL的优势将很大,因为RL具有“反应时间优势”.

没意见:

发表评论