因此,经典示例是当您获得搜索引擎结果时,仅在特定位置$ p $上单击一次,而注意模型假定用户考虑了该位置之前的每个结果再加上一个。因此,部分偏好$ \ forall x \ in [1,p + 1],x \ neq p:r_p>显示r_x $并将其添加到(排名)训练集中。
在我职业生涯的后期,我开始欣赏随机的背景强盗,尤其是为了获得一致的估计值而对历史国家行动密度进行偏置的重要性。这给我带来了一个矛盾:一方面,利用点击反馈优化搜索引擎无疑是必不可少的。 通过探索学习,因为您仅获得有关所显示项目(子项目)的相对偏好的信息。另一方面,当我直奔约阿希姆斯时,我并没有试图消除历史国家行动密度的偏见。
我希望本文能为我解决这个难题。做到了,但是没有达到我的预期。引言中仅提及背景强盗文学是出于比较目的。相反,作者做出以下假设:
- 用户损失在(线性)效用差异中凸显出来。
- 用户仅提出改进建议(即用户反馈始终指向``下坡'')。
- 用户仅建议进行重大改进(即反馈状态的效用增量至少与最佳增量成比例)。
我怀疑分析看起来不像我预期的那样,因为在上一段条件的限制下,可以从对抗性方面选择用户反馈。尽管如此,考虑一种``上下文强盗风格''表述可能是有趣的,例如,不是学习与所选手臂相关的奖励,而是学习所选手臂与另一手臂的奖励之间的差异。一个好的起点是关于 具有受控辅助信息的背景强盗,但此处的主要区别在于用户反馈不受算法控制。
没意见:
发表评论