2010年10月22日,星期五

优先学习机器学习第二部分

因此,我在我的讨论中讨论了经验性的政策估计量 以前的帖子 提供一种解决我被问到时出现的难题的方法 ``提议对决策系统进行变更会对业务产生什么影响?'' 有一些问题和建议,但没有表演障碍。

第一个问题是,我被要求预知的主系统无法通过频繁做出涉及一些动作的决策来运行(例如,就像广告服务器一样);取而代之的是,它很少做出涉及大量动作的决定(例如,就像航空公司在计划其航班时刻表时那样)。幸运的是,它已经进行了足够多次,因此我可以认为自己拥有以下形式的数据样本$ H $:$ \ {(x,\ 广东11选五开奖号码查 {A},\ {r(a)| a \ in \ 广东11选五开奖号码查 {A} \})\} $。这就暗示了类似集合启示的经验值估计器,\ [\ sum _ {(x,\ 广东11选五开奖号码查 {A},\ {r(a)| a \ in \ 广东11选五开奖号码查 {A} \},p)\ in H} r(\ pi(x))\ frac {1 _ {\ pi(x)\ in \ 广东11选五开奖号码查 {A}}} {p(\ pi(x)\ in \ 广东11选五开奖号码查 {A} | x)}。 \]展望未来,我仍然会在大型决策中做出决策,而不是单独做出决定,但是我假设一个集合的奖励是对动作的奖励之和,因此这应该可行$ \ ldots $

除了第二个问题外,历史政策$ p(\ 广东11选五开奖号码查 {A} | x)$是未知的。这是因为历史策略实际上是确定性的全局优化例程。在这里,我希望可以使用 斯特雷尔等等 将历史数据视为隐含探索性的,估计$ \ hat p(\ 广东11选五开奖号码查 {A} | x)$,并使用\ [\ sum _ {(x,\ 广东11选五开奖号码查 {A},\ {r(a) | a \ in \ 广东11选五开奖号码查 {A} \})\ in H} r(\ pi(x))\ frac {1 _ {\ pi(x)\ in \ 广东11选五开奖号码查 {A}}} {\ max \ {\ tau ,\ hat p(\ pi(x)\ in \ 广东11选五开奖号码查 {A} | x)\}}。 \]我需要验证分析 斯特雷尔等等,用于单个操作,在选择和显示集合时成立(大概是)。我还需要安排新策略以提供足够的历史支持,即,我不能选择$ \ hat p $太小的操作(必须编写实际代码来强制执行此操作)。因此,由于我希望有可能突破历史链条,因此我将必须在决策过程中包括一些探索性决策(目前还没有)。

最后,附带条件:此技术仅适用于预测与单个动作明确相关的奖励。所以我需要在这里设定期望。例如,``由于该决策系统的调整,用户在下一年的支出将如何变化?''(对于上述技术)不是一个公平的问题。但是,一个相关且公平的问题是``由于决策系统的调整,用户将如何立即响应操作的变化而立即支出?'',并希望可以采用其他一些挥霍之手来基于短期预测纵向支出花。

没意见:

发表评论