2019年5月10日星期五

ICLR 2019思考

ICLR 2019 让我们想起了NeurIPS的早期时代(无滑雪):单一的讲座,充满活力的张贴会议以及大型的午间休息时间。星期二上午的演讲是关于气候变化,蛋白质建模,音乐创作以及视觉皮层建模。除气候变化外,这些都是1990年代后期NeurIPS的热门话题。历史不会重复,但是会押韵。

我最喜欢的演讲是Pierre-Yves Oudeyer,他的演讲 好奇心广东11选五开奖号码查的研究 涵盖人类主题和机器人技术。皮埃尔(Pierre)的演讲是一场有趣的认知科学之旅,我强烈建议 观看视频 (约9分30秒开始)。这些想法对强化广东11选五开奖号码查社区产生了广泛的影响:众所周知的阿喀琉斯的强化广东11选五开奖号码查之is是样本的复杂性,最近,从业者受到了基于好奇心广东11选五开奖号码查的思想的启发而对其进行攻击(例如 布尔达(Burda)等。等 会议海报)。再来看“探索是为了建立世界模型” is reflected in 上下文决策过程中的最新理论结果.

在会议上对我来说最奇怪的时刻是看到 胶水海报。显然,由于会议审查和发布的延迟,GLUE刚刚被提出。当然,它已经过时了,所以主持人又有一个关于他们的新数据集的海报,称为 强力胶。事情发展得如此之快,以至于前者“fast path”会议记录的数量现在明显落后了。

这是引起我注意的一些东西:
  • ImageNet规模上的非随机泛化界线:PAC贝叶斯压缩方法:几年前 张等等 通过证明卷积网络可以使Imagenet标签适合随机生成的图像,震惊了社区,这打破了人们普遍认为卷积网络由于容量控制而普遍推广的信念。在这里周等。等证明适用MDL样式的概括界限,即训练后可以压缩其表示的网络具有更严格的偏差界限。这是一个(训练)数据相关的界限,它们通过注意在随机训练数据上训练的网络也不会压缩来密封论点。
  • 通过可到达性的情景好奇:许多基于好奇心的探索海报之一,Savinov等。等建议将记忆与类似于政策的内容结合起来,并取得可喜的结果。也很酷:海报包含QR码,可触发座席视频广东11选五开奖号码查通过不同算法移动。
  • 深度强化广东11选五开奖号码查的受监管政策更新:Vuong等。等通过凸显受约束的政策优化,对TRPO和PPO提​​出了合理的改进。

2019年3月8日星期五

RL将破坏OR

运筹学(OR)处于由强化广东11选五开奖号码查(RL)推动的革命的初期。

几年前,当我在eHarmony时,我们使用经典的OR技术来推动配对过程。机器广东11选五开奖号码查起着至关重要的作用,但仅限于为OR求解器指定参数。本质上,机器广东11选五开奖号码查被用来估计值函数,然后OR求解器产生一个策略。

OR过去一直专注于凸优化的易处理专业。在一个计算稀缺的时代,这完全是有道理的:的确,那时eHarmony推动了使用高端商用“或”求解器的极限。但是,现在计算的稀缺性越来越小:在预测建模中,凸优化已被非凸技术(aka“deep learning”)。 OR中正在发生类似的革命。秘诀是:开发问题的生成模型(又名“simulator”),然后使用RL技术直接优化针对模拟数据的政策。

所有模型都是错误的,但是某些模型是有用的。 乍一看,在现实世界的粗略近似上使用先进的RL技术似乎产生了巨大的好处,这似乎是难以置信的。但是,传统的OR技术也会在逼近真实世界的情况下进行极其激进的优化(达到机器精度(!))。尽管通常会进行极大的简化,例如将所有随机变量替换为其期望值(或在更复杂的设置中是高概率范围),OR模型还是有用的。

The simplifications for the RL techniques involve the assumptions in the generative model, such as a particular parametric model for probability of an airplane service event. Early research results suggest that for some economically important problems, relatively crude 模拟器s coupled with RL techniques can induce superior policies to those developed using traditional OR techniques. Furthermore, 模拟器s admit expressing increasingly refined approximations of reality without the constraints imposed by classical OR formulations.

反应时间是其中的一个因素,因此请注意。
反应时间。 您几乎永远不要认真对待任何人对某事起作用的解释。尽管如此,我将给您直觉,为什么RL最终会主导OR。
“优化了经典的OR技术以试图避免弹道中的不良事件,而经过RL训练的策略也经过了优化,可以在事件发生时做出反应。”
如果这是真的,那么只要尾部事件都出现在模拟中并且很少出现,模拟是否能够准确地获得尾部事件的概率就无关紧要,因为所广东11选五开奖号码查策略的“使用补救措施”部分将是以实际发生的事件为条件。 (如果事件并非罕见,那么正确确定同现统计可能很重要。)

如果有这种解释的优点,那么对于经常重新执行经典OR优化以对新事件做出反应的场景,RL的优势将很大,因为RL具有“反应时间优势”.