2012年6月25日,星期一

互动学习

Shivaswamy和Joachims的论文叫做 通过主动学习进行在线结构化预测ICML 2012 今年。当然,Joachims与经典的 研究 因此,我将总结一下:试图从行为数据消耗中估算绝对相关性分数是无效的,而利用注意力模型(例如,串行扫描)来估算相对偏好则更为有效。这是您可以带入许多不同情况的那些``深层技巧''之一。

因此,经典示例是当您获得搜索引擎结果时,仅在特定位置$ p $上单击一次,而注意模型假定用户考虑了该位置之前的每个结果再加上一个。因此,部分偏好$ \ forall x \ in [1,p + 1],x \ neq p:r_p>显示r_x $并将其添加到(排名)训练集中。

在我职业生涯的后期,我开始欣赏随机的背景强盗,尤其是为了获得一致的估计值而对历史国家行动密度进行偏置的重要性。这给我带来了一个矛盾:一方面,利用点击反馈优化搜索引擎无疑是必不可少的。 通过探索学习,因为您仅获得有关所显示项目(子项目)的相对偏好的信息。另一方面,当我直奔约阿希姆斯时,我并没有试图消除历史国家行动密度的偏见。

我希望本文能为我解决这个难题。做到了,但是没有达到我的预期。引言中仅提及背景强盗文学是出于比较目的。相反,作者做出以下假设:
  1. 用户损失在(线性)效用差异中凸显出来。
  2. 用户仅提出改进建议(即用户反馈始终指向``下坡'')。
  3. 用户仅建议进行重大改进(即反馈状态的效用增量至少与最佳增量成比例)。
在这种情况下,明智的做法是采用Perceptron风格的算法来实现良好的后悔约束。作者还探索了这些假设的放松(例如,改进仅在预期上有意义,或者反馈有时指向下坡)以及由此产生的后悔保证降低。

我怀疑分析看起来不像我预期的那样,因为在上一段条件的限制下,可以从对抗性方面选择用户反馈。尽管如此,考虑一种``上下文强盗风格''表述可能是有趣的,例如,不是学习与所选手臂相关的奖励,而是学习所选手臂与另一手臂的奖励之间的差异。一个好的起点是关于 具有受控辅助信息的背景强盗,但此处的主要区别在于用户反馈不受算法控制。

没意见:

发表评论