2010年9月20日,星期一

通过没收来约束偏移树泛化

这是关于 偏移树:即使在历史记录策略中不支持某些操作时,即$ p(a | x)= 0 $时,该算法也已很好定义。遗憾定理没有通过,但是发生的事情很有趣。给定具有输入操作$ \ lambda $和$ \ phi $的内部节点,这些位置在历史上从未观察到$ \ phi $,则预期的重要权重差为$ \ left(r(\ lambda)-\ frac {1} {2 } \ right)$。因此,基本上,如果观察到的动作的平均回报超过中位数,则坚持下去:否则,它将切换为从未见过的动作。

当然,盲目地概括到从未被直观观察到的动作听起来像是一个危险的主意。这种直觉在 斯特雷尔等等,其中几个要素结合在一起可以避免此问题:经验性的政策估算工具,它可以缩短历史罕见事件的重要性;当比较类策略是具有足够历史支持的那些策略时,对于经验值最大化必定有很高的可能性;并且在实践中修改了上下文盗贼argmax回归,以仅考虑具有足够历史支持的那些选择。

因此,这最后一部分引起了我的注意,因为再次回归可以轻松引入约束。幸运的是,对于一组固定的历史数据和关于需要什么水平的足够历史支持的固定决策,可以计算出对于给定输入实际上“不允许”的一组动作。因此,通过使用 没收的偏移树,可以限制由此产生的学习策略获得足够的支持。

没意见:

发表评论