2016年12月16日星期五

对话研讨会回顾

大多数演讲者已将幻灯片发送给我,可以在以下位置找到 时间表页面 。总体而言,这次研讨会很有趣,而且很有启发性。这是我所了解的一些主要主题。

评价 没有魔术子弹,但请签出 海伦的幻灯片 进行井井有条的指标讨论。研讨会上展示了许多不同的策略:
  • Milica Gasic在她的一些实验中使用了众包。她还指出,众包的诱因可能导致参与者行为不自然。
  • Nina Dethlefs结合了目标(BLEU)和主观(“naturalness”) evaluation.
  • 弗拉德·塞尔班(Vlad Serban)一直支持将下一语音分类作为有用的内在度量。
  • Antoine Bordes(和其他FAIR成员)在很大程度上利用模拟和工程任务。
  • Jason Williams used imitation metrics (from hand labeled 对话s) as well as simulation.
正如Helen指出的那样,从客户行为中计算指标可能是面向工业任务系统的黄金标准,但这是一种稀缺资源。 (顺便说一下,即使在与客户有关系的公司内部:在我目前的工作中,他们也不会允许我在不证明有限的负面客户体验影响的情况下进行某些事情。)

那些比我长久的人对模拟对话经历了几波热情和悲观情绪。总的来说,我认为可以得出的结论是,只要意识到限制因素,模拟就可以成为有用的工具。

安托万(Antoine)通过一张有趣的幻灯片迅速将他的演讲改编成妮娜(Nina)的演讲“是的,妮娜,我们将模拟带回来了。”公平策略是这样的:“以下是一些工程对话任务,这些任务似乎需要某些功能才能很好地执行,例如多跳推理,与知识库的交互,长期记忆等。目前,我们还没有能够在以下方面达到100%准确性的系统这些工程任务,因此我们将使用这些任务来推动对体系结构和优化策略的研究。我们还会监视其他外部任务(例如DSTC)的性能,以了解我们的学习是否能超出设计任务集。” Sounds reasonable.

就本次研讨会而言,我个人将在短期内加大对模拟器的投资。

利用语言学 费尔南多·佩雷拉(Fernando Pereira)对语言学如何是一种描述性理论发表了致命的评论,该理论不需要与实现有明确的对应关系:“当水星绕太阳旋转时,它就没有运行广义相对论。”尽管如此,语言学似乎不仅对描述一个主管系统必须捕获的行为很重要,而且对于激励和启发我们实现它所需的哪种自动机也很重要。

扩充或生成数据集似乎是利用语言学的自然方法。举个例子,在研讨会上,我了解到4岁的英语母语者对简单的句子包含一些无意义的单词(但带有形态学线索,例如大写字母和-ed后缀)敏感,对正确的单词顺序和不正确的单词顺序很敏感。因此,我正在尝试在大型对话框数据集上运行下一个语音分类,其中一些否定示例是真实延续的令牌排列版本,以查看这是否有所改变。

拉奎尔·费尔南德斯(Raquel Fernandez)的演讲重点是成人与儿童之间的语言互动,我不禁想到与培训人工系统有关的潜在问题。实际上,当前的对话系统例如通过向用户建议重新格式化而像父代(即专家)那样工作。但这可笑,因为我们的系统很愚蠢:我们不应该表现得像孩子吗?

语言学的最极端用途是Eshghi和Kalatzis的演讲,他们在其中开发了用于对话框的自定义增量语义解析器,然后使用生成的逻辑形式来驱动整个对话框过程。构建解析器后,所需的训练数据量将极少,但是解析器可能是通过查看大量对话框来构建的。

Nina Dethlefs与AMR讨论了一些有希望的实验。我个人很害怕AMR。首先,获取注释非常昂贵。但是,如果这是唯一的问题,我们可以想象人类基因组式的推力来产生大量的基因。更大的问题是注释者之间的协议相对较差(只有Nina和她的学生,因此他们可以通过边际沟通达成协议)。尽管如此,我可以想象一个使用少量原型语义结构设计和构建的对话系统。似乎有些人为和受限制,但是图形用户界面和当前的UX元素规范集也是如此,用户可以通过这些元素学习如何与生产力交互。

Angeliki Lazaridou的演讲提醒我,沟通从根本上讲是一种合作游戏,这解释了为什么在互联网上吵架是浪费时间。

神经网络:改变游戏规则? 我向每个小组询问了以下问题的变体:“神经网络缓解了哪些问题,顽固地解决了哪些问题。”从本质上讲,这就是Marco Baroni演讲的内容。总的来说,我会说:现在我们不再害怕非凸损失函数(沿着这些行,请查看 朱利安·佩雷斯(Julien Perez)的幻灯片 )。

但是,对于如何实现高质量对话显然需要的能力,我们目前只有模糊的想法。我说 显然地 因为AI的历史充斥着从业者,所以他们认为某些任务需要足够的能力,并且机器翻译的最新进展表明,鹦鹉可以做得很好。实际上,在讨论期间,令人感到沮丧的是,启发式手工编码策略仍然优于基于机器学习的方法,并期望这对于Alexa奖可能仍然适用。但是,我对高级启发式方法的存在持肯定的态度:它们不仅为数据驱动的方法提供了灵感和思想的来源,而且将模仿学习和强化学习相结合的学习方法应该能够有益地加以利用。

实体注释 考虑看似简单且普遍存在的特征工程策略:添加其他稀疏指示符特征,这些特征指示标记或标记序列的语义等效性。所以也许“windows 10” and “Windows周年纪念版”两者都具有相同的功能。杰森·威廉姆斯(Jason Williams)表示,他的系统因此得到了很大的改善,但是他试图从$ O(10)$标记的对话中学习,所以我点了点头。 Antoine Bordes表示这对某些bAbI对话任务有帮助,但是这些任务仅具有$ O(1000)$对话,因此我再次点了点头。然后弗拉德·塞尔班(Vlad Serban)指出,这有助于在Ubuntu 对话 语料库上进行下一个话语分类。在这一点上,我认为“等待,那是$ O(10 ^ 5)$对话框。”
显然,知道乌龟和乌龟是同一回事是很棘手的。
在实践中,我对手动要素工程很满意:这就是我在线性时代支付租金的方式。但是现在我不知道:推断这样的对等是否需要更多数据?在当前的架构下,无论有多少数据,我们都不会推断出来吗?

拼写 发言者之间大致平均分配“dialog” and “dialogue”。我更喜欢后者,因为它有更多的松驰感。

没意见:

发表评论