2016年6月25日星期六

加快对话进度

在机器学习中,评估不是全部:它是 只要 事情。这是从Imagenet(带有标签的数据集)和Arcade学习环境(模拟环境)中获得的教训。模拟器是标记数据集的部分反馈类似物:可以让任何研究人员评估任何政策的价值的模拟器。像数据集一样,当模拟器公开可用且相关任务设计合理时,有用的科学创新可以迅速进行。

在对话系统中,部分反馈问题比比皆是:任何试图找到工作失败的人都认为事实相反:“如果我说了些不同的话怎么办?”使用脱机数据很难回答这样的问题,但是任何试图脱机评估对话系统的人都必须想出一些方案来解决这个问题,并且 有陷阱.

在线评估存在不同的问题。孤立地看,它是理想的。但是对于整个科学界来说,这是个问题。例如,Honglak Lee说服他的学校的注册服务商允许他部署实时聊天系统来推荐课程注册。这对他来说是一个绝妙的举动,类似于1940年代使用粒子加速器:他将能够首先发现有趣的东西。但是他不能广泛共享此资源,因为1)聊天数量有限,并且2)注册服务商大概想确保高质量的体验。类似的担忧也加剧了最近对技术领域的对话系统的兴趣:可以进行实时对话的公司意识到这会产生竞争优势,因此在对待客户时需要谨慎。

很好,我喜欢领薪水,但是:如果仅阿尔伯塔大学提供Arcade学习环境,强化学习将以多快的速度推进?

所以这里有一些想法。

首先,我们可以让代理相互交谈以解决任务,而无需任何人参与。也许这将导致与2个玩家游戏中相同的快速进步。可以说,通过这种研究,我们可能比人们学到更多有关蚂蚁的知识。但是,在人类无法控制的情况下,我们可以使用模拟环境并使评估民主化。可能我们会发现一些有趣的知识,即学习反复交流信息以与其他代理进行协作所需要的东西。

其次,我们可以建立一个平台,使对在线Oracle的访问民主化。由于在线评估是一种稀缺资源,因此必须花费一些钱,但请想象一下:假设我们认为任务foo很重要。我们创建了一个标准的培训计划来创建熟练的众包工作者,再加上构成任务,质量控制程序等的标准HIT。然后,我们将尽最大努力在所有这些固定成本中摊销 所有 研究人员可以让任何人评估框架中的任何模型,而只支付Oracle的边际成本。最后,我们不只是对任务foo这样做,我们还尝试使研究人员也轻松创建新任务。在某种程度上,众包行业已经做到了这一点(针对付费客户);当然,研究人员已经在广泛利用众包。问题是,我们如何才能更轻松地做到:1)提出利用在线评估的可靠基准测试任务,然后2)以最低的成本为每个研究人员提供在线访问权限。仅从众包任务中创建数据集是不够的,因为这会导致脱机评估问题。

当然,如果任务不是众包的,但对于上一段来说,那将是很好的选择,但是某些自然交互的任务一直在大量发生,以至于主要问题是使访问民主化。可以想象,例如,对汽车谈话的所有笔录进行培训,并建立一个对话应用程序以尝试诊断汽车问题。如果它不能完全吸引用户,则不必为使用它而付钱,它可以免费支持某种程度的在线评估。自举,但这本身就是一项重大成就。