显示带有标签的帖子 对话 . 显示所有帖子
显示带有标签的帖子 对话 . 显示所有帖子

2017年3月25日,星期六

Why now is the time for 对话

我正在开发面向任务的对话框产品,从业务角度来看,一切进展都令人惊讶。事实证明,现有技术足以替代部分人与机器之间的商业对话交互,从而节省了大量相关成本,其成本超过了开发自动系统的成本。这是令人困惑的事情:据我所知,盈余是如此之大,以至于十年前用当时的技术做到这一点是可行的。所有新奇的AI东西都有帮助,但仅能提高利润。那么,这些企业为何在10年前没有出现?

我怀疑答案是已经发生了从物理交易和语音介导的交互到数字交易和聊天介导的交互的格式转变。

远离声音的动作非常重要:如果我们不得不尝试使用ASR进行操作,即使在今天,它也可能行不通。幸运的是,今天您与有线电视公司聊天而不是与他们聊天。这种转变是由节省成本引起的:与多次并发语音对话相比,人工代理可以更轻松地处理多个并发聊天会话。但是,这要求大多数客户拥有计算机,智能手机或其他设备,而不是老式电话。

电子商务在实体商店上的持续主导地位也是一个因素(RIP 西尔斯 )。在电子商务中,销售人员越来越多地通过实时聊天界面协助客户进行交易。再次,从更有效的人力资源部署方式开始,自动化成为越来越多地处理工作负载的媒介。

最终的结果是,零售业从业人数下降了,但他们的报酬却上升了。这是因为这些机器将越来越多地处理这些领域的例行事务,仅留下人类特有的极端特质问题的尾巴。处理这些非常规问题将需要更多的技能和经验,因此需要更高的补偿(此外,越来越多的工作将是将非常规问题的躯干构造为机器可以常规处理的内容,即教导机器处理更多;这类似于编程,并且也将要求更高的补偿)。

2017年1月13日,星期五

通过对抗训练生成文本

今年在GAN研讨会上有一篇非常可爱的论文, 通过对抗训练生成文本 由张,甘和卡林撰写。特别是,它们做出了一些很重要的不寻常选择。 (警告:如果您不熟悉GAN,那么这篇文章就没有多大意义了。)
  1. 他们使用卷积神经网络(CNN)作为判别器,而不是RNN。回想起来,这似乎是个不错的选择,例如张彤已经 粉碎它 使用CNN进行文本分类。 CNN比RNN容易训练,因此最终结果是强大的判别器,并且具有相对容易的优化问题。
  2. 他们在发生器中使用LSTM输出的平滑近似值,但实际上这种技巧到处都是,因此在隔离方面并不是那么出色。
  3. 他们使用纯矩匹配标准进行鞍点优化(基于小批量估算)。 GAN从逐点辨别损失开始,最近的工作通过矩匹配样式惩罚增加了这种损失,但是这里的鞍点优化是纯矩匹配。 (因此从技术上讲,鉴别器不是鉴别器。实际上,它们在文本中可互换地称为鉴别器或编码器,这解释了原因。)
  4. 他们对初始化非常聪明。特别地,鉴别器被预先训练以在两个单词互换位置的情况下区分真实句子和相同句子。 (在初始化期间,使用逐点分类损失训练鉴别器)。这很有趣,因为交换两个单词会保留输入的许多$ n $ -gram统计信息,即许多卷积滤波器将计算出完全相同的值。 (最近我很幸运地使用置换句子作为其他模型的否定词,现在我将尝试交换两个单词。)
  5. 他们更新发电机 更频繁 比区分符要高,这与标准的民间传说相反,后者说您希望区分符的移动速度比生成器快。也许这是因为CNN优化问题比LSTM容易得多。纯粹的矩匹配损耗的使用也可能是相关的。



关于神经网络论文的老抱怨是您无法复制它们。如今,复制神经网络论文通常比其他论文更容易,因为您可以将他们的代码存储在github上并运行实验。但是,我仍然很难确定所做的各种选择的相对重要性。对于上面列举的选择:最终结果对这些选择的敏感性是多少?很难说,但是我已经开始假设灵敏度很高,因为当我在复制后尝试调整结果时,通常会变得很糟糕。 (我尚未尝试复制此特定结果。)

Anyway 这个 paper has some cool ideas and hopefully it can be extended to generating realistic-looking 对话.

2016年12月16日星期五

对话研讨会回顾

大多数演讲者已将幻灯片发送给我,可以在以下位置找到 时间表页面。总体而言,这次研讨会很有趣,而且很有启发性。这是我所了解的一些主要主题。

评价 没有魔术子弹,但请签出 海伦的幻灯片 进行井井有条的指标讨论。研讨会上展示了许多不同的策略:
  • Milica Gasic在她的一些实验中使用了众包。她还指出,众包的诱因可能导致参与者行为不自然。
  • Nina Dethlefs结合了目标(BLEU)和主观(“naturalness”) evaluation.
  • 弗拉德·塞尔班(Vlad Serban)一直支持将下一语音分类作为有用的内在度量。
  • Antoine Bordes(和其他FAIR成员)在很大程度上利用模拟和工程任务。
  • Jason Williams used imitation metrics (from hand labeled 对话s) as well as simulation.
正如Helen指出的那样,从客户行为中计算指标可能是面向工业任务系统的黄金标准,但这是一种稀缺资源。 (顺便说一下,即使在与客户有关系的公司内部:在我目前的工作中,他们也不会允许我在不证明有限的负面客户体验影响的情况下进行某些事情。)

那些比我长久的人对模拟对话经历了几波热情和悲观情绪。总的来说,我认为可以得出的结论是,只要意识到限制因素,模拟就可以成为有用的工具。

安托万(Antoine)通过一张有趣的幻灯片迅速将他的演讲改编成妮娜(Nina)的演讲“是的,妮娜,我们将模拟带回来了。”公平策略是这样的:“以下是一些工程对话任务,这些任务似乎需要某些功能才能很好地执行,例如多跳推理,与知识库的交互,长期记忆等。目前,我们还没有能够在以下方面达到100%准确性的系统这些工程任务,因此我们将使用这些任务来推动对体系结构和优化策略的研究。我们还会监视其他外部任务(例如DSTC)的性能,以了解我们的学习是否能超出设计任务集。” Sounds reasonable.

就本次研讨会而言,我个人将在短期内加大对模拟器的投资。

利用语言学 费尔南多·佩雷拉(Fernando Pereira)对语言学如何是一种描述性理论发表了致命的评论,该理论不需要与实现有明确的对应关系:“当水星绕太阳旋转时,它就没有运行广义相对论。”尽管如此,语言学似乎不仅对描述一个主管系统必须捕获的行为很重要,而且对于激励和启发我们实现它所需的哪种自动机也很重要。

扩充或生成数据集似乎是利用语言学的自然方法。举个例子,在研讨会上,我了解到4岁的英语母语者对简单的句子包含一些无意义的单词(但带有形态学线索,例如大写字母和-ed后缀)敏感,对正确的单词顺序和不正确的单词顺序很敏感。因此,我正在尝试在大型对话框数据集上运行下一个语音分类,其中一些否定示例是真实延续的令牌排列版本,以查看这是否有所改变。

拉奎尔·费尔南德斯(Raquel Fernandez)的演讲重点是成人与儿童之间的语言互动,我不禁想到与培训人工系统有关的潜在问题。实际上,当前的对话系统例如通过向用户建议重新格式化而像父代(即专家)那样工作。但这可笑,因为我们的系统很愚蠢:我们不应该表现得像孩子吗?

语言学的最极端用途是Eshghi和Kalatzis的演讲,他们在其中开发了用于对话框的自定义增量语义解析器,然后使用生成的逻辑形式来驱动整个对话框过程。构建解析器后,所需的训练数据量将极少,但是解析器可能是通过查看大量对话框来构建的。

Nina Dethlefs与AMR讨论了一些有希望的实验。我个人很害怕AMR。首先,获取注释非常昂贵。但是,如果这是唯一的问题,我们可以想象人类基因组式的推力来产生大量的基因。更大的问题是注释者之间的协议相对较差(只有Nina和她的学生,因此他们可以通过边际沟通达成协议)。尽管如此,我可以想象一个使用少量原型语义结构设计和构建的对话系统。似乎有些人为和受限制,但是图形用户界面和当前的UX元素规范集也是如此,用户可以通过这些元素学习如何与生产力交互。

Angeliki Lazaridou的演讲提醒我,沟通从根本上讲是一种合作游戏,这解释了为什么在互联网上吵架是浪费时间。

神经网络:改变游戏规则? 我向每个小组询问了以下问题的变体:“神经网络缓解了哪些问题,顽固地解决了哪些问题。”从本质上讲,这就是Marco Baroni演讲的内容。总的来说,我会说:现在我们不再害怕非凸损失函数(沿着这些行,请查看 朱利安·佩雷斯(Julien Perez)的幻灯片 )。

但是,对于如何实现高质量对话显然需要的能力,我们目前只有模糊的想法。我说 显然地 因为AI的历史充斥着从业者,所以他们认为某些任务需要足够的能力,并且机器翻译的最新进展表明,鹦鹉可以做得很好。实际上,在讨论期间,令人感到沮丧的是,启发式手工编码策略仍然优于基于机器学习的方法,并期望这对于Alexa奖可能仍然适用。但是,我对高级启发式方法的存在持肯定的态度:它们不仅为数据驱动的方法提供了灵感和思想的来源,而且将模仿学习和强化学习相结合的学习方法应该能够有益地加以利用。

实体注释 考虑看似简单且普遍存在的特征工程策略:添加其他稀疏指示符特征,这些特征指示标记或标记序列的语义等效性。所以也许“windows 10” and “Windows周年纪念版”两者都具有相同的功能。杰森·威廉姆斯(Jason Williams)表示,他的系统因此得到了很大的改善,但是他试图从$ O(10)$标记的对话中学习,所以我点了点头。 Antoine Bordes表示这对某些bAbI对话任务有帮助,但是这些任务仅具有$ O(1000)$对话,因此我再次点了点头。然后弗拉德·塞尔班(Vlad Serban)指出,这有助于在Ubuntu 对话 语料库上进行下一个话语分类。在这一点上,我认为“等待,那是$ O(10 ^ 5)$对话框。”
显然,知道乌龟和乌龟是同一回事是很棘手的。
在实践中,我对手动要素工程很满意:这就是我在线性时代支付租金的方式。但是现在我不知道:推断这样的对等是否需要更多数据?在当前的架构下,无论有多少数据,我们都不会推断出来吗?

拼写 发言者之间大致平均分配“dialog” and “dialogue”。我更喜欢后者,因为它有更多的松驰感。

2016年12月12日星期一

NIPS 2016思考

这是一次很棒的会议。组织者必须打破传统,以适应快速增长的提交和出席人数,但是尽管我怀旧,但我觉得这些变化是有益的。特别是,利用平行轨道并消除海报聚光灯,可以在午夜前一天结束时进行更多的演示,并且每个海报的慷慨空间分配确实改善了海报会议。研讨会的组织者显然提前考虑了所有事情:我没有遇到任何打((尽管我们只有一个麦克风,所以在讨论期间我进行了大量的锻炼)。

这是我挑选的一些高级主题。

开放性 。两年前,亚马逊开始开放他们的研究,现在,他们已成为会议的主要代表。苹果今年在NIPS上宣布,他们将开放其研究实践。显然,公司正在寻找最大的利益来资助开放的基础研究,这与民间经济学的观点背道而驰,后者认为基础研究似乎是纯粹的公共物品,因此由于搭便车问题而不会私下提供资金。真正的经济学家可能会说这是简单的本科生思维。我仍然想知道,公司在多大程度上不合理?相反,没有将基础研究在现实世界中的哪些方面很好地建模为公益?我希望有一位经济学家来NIPS作一个关于这个问题的邀请演讲。

模拟 。我在会议上注意到的一个主要主题是模拟环境的使用。 Yann LeCun在其演说中阐明了一个原因 开幕主题演讲 :(释义)``模拟是减轻强化学习的高样本复杂性的一种可行策略。''但是另一个原因是科学方法论:对于反事实场景,模拟环境是数据集的模拟,因为它们允许使用通用度量,可重复的实验以及创新的民主化。模拟器当然不是什么新鲜事物,并且过去曾有过热情和悲观的浪潮,而且存在很多陷阱,这些陷阱基本上可以归结为对模拟器的过度拟合(从微观上讲,它得到的模型很差,但在宏观上也是如此)。将科学注意力集中在问题的不相关方面的感觉)。希望我们能从过去中学到东西,并意识到危险。关于这一点,有很多值得一提的内容,但我在博客上听到了两件事。 对话 workshop 遵循这些思路:首先,杰森·威廉姆斯(Jason Williams)提出,基于模拟的相对性能结论可能是安全的,但绝对性能结论值得怀疑;其次,Antoine Bordes提倡使用可实现的模拟问题与仪表板评分集成(即,多个问题可以实现完美的性能,行使明显不同的功能,并且目前还没有一种方法可以解决所有问题)问题)。

毫无疑问,模拟器正在激增。我注意到在今年的会议上讨论了以下内容:
我可能想念其他一些人。

顺便说一下,模拟的替代方法也不是完美的:对话研讨会上的一些讨论是关于众包的诱因如何在众包对话实验的参与者中诱发不自然的行为。

GAN 今年,其他会议(如ICLR)对GAN研究活动的狂热在很大程度上席卷了NIPS。这与模拟有关,尽管更多的是缓解样本复杂性主题而不是科学方法论主题。正在制定使优化工作的怪癖,这应该在短期内使RL有一些有趣的改进(除了许多精美的图片之外)。不幸的是,对于NLU任务,从GAN生成文本目前还不如生成声音或图像成熟,但是有一些海报可以解决这一问题。

可解释的模型 模型应该能够“explain itself”在行业中非常流行,但这是我第一次在NIPS上看到可解释性受到重视。即将颁布的欧盟法规无疑增加了对该主题的兴趣。但是还有其他原因:正如伊琳娜·里什(Irina Rish)在她的文章中指出的那样 invited 谈论 on (essentially) mindreading,如果表述更具可解释性,则表示学习的最新进展可以更好地促进科学探究。

我注意到的论文

您相信yelp上的一位审稿人吗?我不会因此,我认为我们需要某种方式来众包会议中人们认为是好的论文。我只是一个眼动滞后的人,有两个眼球(顺便说一句,使用更大的字体人!每年看屏幕变得越来越困难…),而且所有内容都首先在arxiv上发布,因此,如果我已经阅读过它,我什至不会在会议上注意到它。这使这个列表很奇怪,但是您就来了。


据我所知,这篇论文也没有参加会议,但是我在喝咖啡休息的时候就发现了,而且很棒:
  • 了解深度学习需要重新思考泛化。 TL; DR:当像素被置换甚至是随机化时,卷积可以破坏标准的图像训练集!当然,在这种情况下,泛化效果不佳,但是这表明它们比他们的方法更灵活“局部像素统计组成”体系结构建议。那么,为什么它们这么好用呢?

2016年12月3日星期六

本周六在NIPS举行的对话研讨会的学习方法

研讨会时间表 已经完成,我很兴奋。我们设法说服了一些经验丰富的对话研究人员(通常不参加NIPS)进行邀请演讲。我们还花了一些时间“建立完整的系统”,因为将重点放在树上而不是森林上很容易,尤其是当树真的很有趣时,例如在一堆GPU上训练的神经网络。但是不用担心,有很多“NIPS red meat”在时间表中也是如此。

星期六见!

2016年9月19日,星期一

NIPS 对话ue workshop

我正在组织 a workshop on 对话ue 在 NIPS 2016。 NIPS 并不是对话研究的传统论坛,但是机器学习中越来越多的人(像我一样!)对对话感兴趣,所以时机似乎是对的。从个人的角度来看,对话很有趣,因为1)闻起来像AI,2)(深度学习)NLP技术的最新进展表明该问题更易于解决,并且3)公司的兴趣意味着金钱和数据都将充裕。老实说,第一点很重要:不可能向孩子们解释我以前工作过的细节,而现在我可以向他们展示像 这个 。但是,对话中有很多问题不会仅仅通过使用灵活的假设类而消除,所以我觉得有必要教育自己关于退伍军人对话研究人员的活动,以及确保这一点的最佳方法是举办研讨会并邀请其中的一些。

希望您能加入对话。

2016年7月8日星期五

Update on 对话ue progress

在一个 最近的博客文章 我讨论了使对话向前发展的两个想法。这两个想法都与民主评估评估对话系统所需数据​​的需求有关。事实证明,这两种想法都已经得到了一定程度的发展:
  1. 拥有电脑“talk”彼此而不是与人: Marco Beroni在上面.
  2. 创建一个开放的在线评估平台: Maxine Eskenazi在上面.
很高兴看到。

2016年6月25日星期六

Accelerating progress in 对话ue

在机器学习中,评估不是全部:它是 只要 事情。这是从Imagenet(带有标签的数据集)和Arcade学习环境(模拟环境)中获得的教训。模拟器是标记数据集的部分反馈类似物:可以让任何研究人员评估任何政策的价值的模拟器。像数据集一样,当模拟器公开可用且相关任务设计合理时,有用的科学创新可以迅速进行。

在对话系统中,部分反馈问题比比皆是:任何试图找到工作失败的人都认为事实相反:“如果我说了些不同的话怎么办?”使用脱机数据很难回答这样的问题,但是任何试图脱机评估对话系统的人都必须想出一些方案来解决这个问题,并且 有陷阱.

在线评估存在不同的问题。孤立地看,它是理想的。但是对于整个科学界来说,这是个问题。例如,Honglak Lee说服他的学校的注册服务商允许他部署实时聊天系统来推荐课程注册。这对他来说是一个绝妙的举动,类似于1940年代使用粒子加速器:他将能够首先发现有趣的东西。但是他不能广泛共享此资源,因为1)聊天数量有限,并且2)注册服务商大概想确保高质量的体验。类似的担忧也加剧了最近对技术领域的对话系统的兴趣:可以进行实时对话的公司意识到这会产生竞争优势,因此在对待客户时需要谨慎。

很好,我喜欢领薪水,但是:如果仅阿尔伯塔大学提供Arcade学习环境,强化学习将以多快的速度推进?

所以这里有一些想法。

首先,我们可以让代理相互交谈以解决任务,而无需任何人参与。也许这将导致与2个玩家游戏中相同的快速进步。可以说,通过这种研究,我们可能比人们学到更多有关蚂蚁的知识。但是,在人类无法控制的情况下,我们可以使用模拟环境并使评估民主化。可能我们会发现一些有趣的知识,即学习反复交流信息以与其他代理进行协作所需要的东西。

其次,我们可以建立一个平台,使对在线Oracle的访问民主化。由于在线评估是一种稀缺资源,因此必须花费一些钱,但请想象一下:假设我们认为任务foo很重要。我们创建了一个标准的培训计划来创建熟练的众包工作者,再加上构成任务,质量控制程序等的标准HIT。然后,我们将尽最大努力在所有这些固定成本中摊销 所有 研究人员可以让任何人评估框架中的任何模型,而只支付Oracle的边际成本。最后,我们不只是对任务foo这样做,我们还尝试使研究人员也轻松创建新任务。在某种程度上,众包行业已经做到了这一点(针对付费客户);当然,研究人员已经在广泛利用众包。问题是,我们如何才能更轻松地做到:1)提出利用在线评估的可靠基准测试任务,然后2)以最低的成本为每个研究人员提供在线访问权限。仅从众包任务中创建数据集是不够的,因为这会导致脱机评估问题。

当然,如果任务不是众包的,但对于上一段来说,那将是很好的选择,但是某些自然交互的任务一直在大量发生,以至于主要问题是使访问民主化。可以想象,例如,对汽车谈话的所有笔录进行培训,并建立一个对话应用程序以尝试诊断汽车问题。如果它不能完全吸引用户,则不必为使用它而付钱,它可以免费支持某种程度的在线评估。自举,但这本身就是一项重大成就。