2016年12月17日星期六

论开放式工业研究的可持续性

我很高兴OpenAI的存在:科学越多越好!话虽如此,但今年NIPS发生了一件奇怪的事情。 OpenAI发布 OpenAI宇宙,这是他们测量和训练反事实学习算法平台的第二个重要版本。您希望组织在不考虑财务收益的情况下促进AI的整体进步,这是这种行为。同时,Google,Facebook和Microsoft都宣布了类似的平台。三个人以营利为目的的组织为了提供基础研究技术而绊倒他们的事实,没人body住。

天真的想法说基础研究是公共物品,受搭便车问题的困扰,因此将由营利性组织提供资金不足。如果您认为这是一个稻草人的职位,那么您还没有听说过 思科创新模式。撰写本文时:
…Cisco has no “pure” blue-sky research organization. Rather, when Cisco invests research dollars, it has a specific product in mind. 的 company relies on acquisitions to take the place of 纯 research …
诸如此类的文章曾经让我非常担心。那么为什么(显然)这次不同呢?

因素1:劳动力市场稀缺

与同事的非正式讨论通常以该解释模板结尾。具体的表面形式包括:
  • “没有良好的公共研究,您不能招聘最优秀的人才。”从表面上看,我认为这一说法是正确的,但逻辑有些循环。如果没有良好的公共研究,您当然不能招募最好的研究人员,但是为什么您首先要吸引他们?语句更像“通过良好的公共研究,您可以招募最优秀的人才,然后说服他们进行一些非公共研究。”(?)很多研究生似乎都毕业了,然后“disappear”,因此可能有些道理。
  • “最好的人想发表:这是您付给他们的津贴。”无疑,获得公众对您工作的认可是有益的,并且知识工作者想要平衡财务资本和社会资本完全有意义。例如,公开展示的能力可以转移到新的演出中。但是这种思路假设,公共研究是雇主选择代替例如更高的薪水支付的费用。
我不仅怀疑这个因素只是图片的一部分:我 强烈希望 那只是图片的一部分。因为如果从整体上看,一旦劳动力市场疲软,私人资助的公共研究将经历巨大的回落,这将很糟糕。

因素2:正外部性

该参数是:“研究人员提高了附近人员的生产力,因此值得他们出去逛逛。”按照这种思路,就算是花了几周的时间就最新的想法进行讨论,再加上与思想领袖面对面交谈以解释最新方法的细微差别的机会,都值得他们付出全部。这有些道理,例如,杰弗里·欣顿(Geoffrey Hinton)曾经在这里为演讲团队表演过魔术。我对这张图片的问题是,实际上,与地球上某人进行沟通和协作要比楼下某人容易。这也是 hard to 测量, so if I had to convince the board of directors to fund a research division based upon 这个, I think I would fail.

顺便说一句,这是对话中另一个最喜欢的论点。听到人们将当前情况描述为“我们很稀缺,也很棒。 ” As 道格拉斯·亚当斯指出,拥有透视感几乎没有好处。

因素3:质量保证

这里的想法基本上是“参与公共研究讨论可确保组织内的高质量想法。”这里的关键词是 贡献,因为替代策略更类似于搭便车,例如,将员工派到会议参加但没有贡献。

为公众消费准备想法具有绝对的价值。撰写论文的相关工作部分通常是一种启发性的经验,尽管老实说,它往往发生在工作完成之后而不是之前。以前更像是一种模糊的感觉,即对任何问题都没有好的解决方案,希望能从对最新技术现状的总体了解中获悉。根据我的经验,编写实验部分的内容比较复杂:您通常需要对接标准度量或基准任务,这似乎最好是特质,最坏情况与您的工作目标无关,因此迫使特定的黑客获得在终点线上。 (也许这就是为什么每个人都在定义下一代基准任务方面投入大量资金的原因。)

有趣的是,大多数先前的好处都是在准备出版过程中发生的。大概,到那时,您可以扔掉纸,仍然体验到好处(我们称这些为“the arxiv benefits”?)。运行审阅者手套是一种衡量您是否进行高质量工作的方法,但这是一个嘈杂的信号。高质量的同行反馈可以提出改进建议和新的方向,但是这是一种稀缺的资源。希望推动科学发展的慈善组织应通过例如资助高质量的专业评审员或发明新的对等反馈模型来应对这种匮乏。

我认为这个因素并不是为基础研究提供资金的必要条件,也就是说,如果我是研究部门的负责人,在争取董事会的资金支持,我不会大力利用这一攻击手段。在这里,真理不如感知重要,我认为会计部门宁愿在产品市场上测试其想法的质量。

因素4:行销

公司可以利用其基础研究成果来公开展示其产品的适用性和卓越性。大型企业肯定会确保在《纽约时报》等知名出版物上讨论他们的研究成果。但是,这在我看来大多是事后的想法。似乎正在发生的事情是,研究人员正在选择要调查的内容,其中一些最终具有新闻价值,而组织的另一部分则有专职人员来确定和促进具有新闻价值的研究。 IBM是个例外,例如沃森(Watson)紧追危险。

这可以说是可持续的(IBM已经花了一段时间了),但它创建的活动看起来像是围绕特定轰动目标的巨大推动,而不是分发基本的研究工具和技术。换句话说,看起来好像今年的NIPS并没有发生什么。

因素5:垄断

我认为这种解释是可以接受的:技术创造了更多 自然垄断和natural monopolies fund research, c.f., Bell Labs 和 Xerox PARC. All market positions are subject to disruption 和 erosion but Microsoft, Google, 和 Facebook 所有 have large competitive moats in their respective areas (OS, search, 和 social), so they are currently funding public basic research. This factor predicts that as Amazon's competitive moats in retail (and cloud computing) widen, they will engage in more public basic research, something we have seen recently.

特别是对于AI(née机器学习),关键的垄断是 数据 (源自客户关系)。可以说,大型科技巨头会喜欢将AI技术作为商品,因为由于它们现有的客户关系,他们将最有可能利用这些技术。相反,如果出现了私人发现的破坏性AI技术,它将是其中之一。“majors”受到启动的干扰。因此,大型公司可以从围绕AI的充满活力的公共研究生态系统中获得收益和保障。

尽管如此,一家拥有不错的防御性护城河的大型公司可能会关注当前的公共研究活动水平,并说:“嘿,够了,让我们搭便车。”(不是显式的,也许是隐式的)。假设您负责Apple或Salesforce,您会做什么?我看不清“right answer”,尽管两家公司似乎都朝着更加开放的基础研究方向发展。

因素6:企业是非理性的

科技公司由创始人和帝国统治,他们的个人喜好可以决定政策,例如您是否可以养狗。在实践中,具有大量预算的研究部门的存在可以被类似地激发。上述所有因素在一定程度上都是真实的,但难以衡量,因此可以归结为一个判断电话,而且只要公司踢屁股,对创始人的尊敬将是极端的。

但是,如果这个因素很重要,那么当公司遇到困难或经历高层转型时,事情可能会迅速恶化。可以肯定的是,在过去的十年中有这样的例子。

2016年12月16日星期五

对话研讨会回顾

大多数演讲者已将幻灯片发送给我,可以在以下位置找到 时间表页面。总体而言,这次研讨会很有趣,而且很有启发性。这是我所了解的一些主要主题。

评价 没有魔术子弹,但请签出 海伦的幻灯片 进行井井有条的指标讨论。研讨会上展示了许多不同的策略:
  • Milica Gasic在她的一些实验中使用了众包。她还指出,众包的诱因可能导致参与者行为不自然。
  • Nina Dethlefs结合了目标(BLEU)和主观(“naturalness”) evaluation.
  • 弗拉德·塞尔班(Vlad Serban)一直支持将下一语音分类作为有用的内在度量。
  • Antoine Bordes(和其他FAIR成员)在很大程度上利用模拟和工程任务。
  • Jason Williams used imitation metrics (from hand labeled 对话s) as well as simulation.
正如Helen指出的那样,从客户行为中计算指标可能是面向工业任务系统的黄金标准,但这是一种稀缺资源。 (顺便说一下,即使在与客户有关系的公司内部:在我目前的工作中,他们也不会允许我在不证明有限的负面客户体验影响的情况下进行某些事情。)

那些比我长久的人对模拟对话经历了几波热情和悲观情绪。总的来说,我认为可以得出的结论是,只要意识到限制因素,模拟就可以成为有用的工具。

安托万(Antoine)通过一张有趣的幻灯片迅速将他的演讲改编成妮娜(Nina)的演讲“是的,妮娜,我们将模拟带回来了。”公平策略是这样的:“以下是一些工程对话任务,这些任务似乎需要某些功能才能很好地执行,例如多跳推理,与知识库的交互,长期记忆等。目前,我们还没有能够在以下方面达到100%准确性的系统这些工程任务,因此我们将使用这些任务来推动对体系结构和优化策略的研究。我们还会监视其他外部任务(例如DSTC)的性能,以了解我们的学习是否能超出设计任务集。” Sounds reasonable.

就本次研讨会而言,我个人将在短期内加大对模拟器的投资。

利用语言学 费尔南多·佩雷拉(Fernando Pereira)对语言学如何是一种描述性理论发表了致命的评论,该理论不需要与实现有明确的对应关系:“当水星绕太阳旋转时,它就没有运行广义相对论。 ”尽管如此,语言学似乎不仅对描述一个主管系统必须捕获的行为很重要,而且对于激励和启发我们实现它所需的哪种自动机也很重要。

扩充或生成数据集似乎是利用语言学的自然方法。举个例子,在研讨会上,我了解到4岁的英语母语者对简单的句子包含一些无意义的单词(但带有形态学线索,例如大写字母和-ed后缀)敏感,对正确的单词顺序和不正确的单词顺序很敏感。因此,我正在尝试在大型对话框数据集上运行下一个语音分类,其中一些否定示例是真实延续的令牌排列版本,以查看这是否有所改变。

拉奎尔·费尔南德斯(Raquel Fernandez)的演讲重点是成人与儿童之间的语言互动,我不禁想到与培训人工系统有关的潜在问题。实际上,当前的对话系统例如通过向用户建议重新格式化而像父代(即专家)那样工作。但这可笑,因为我们的系统很愚蠢:我们不应该表现得像孩子吗?

语言学的最极端用途是Eshghi和Kalatzis的演讲,他们在其中开发了用于对话框的自定义增量语义解析器,然后使用生成的逻辑形式来驱动整个对话框过程。构建解析器后,所需的训练数据量将极少,但是解析器可能是通过查看大量对话框来构建的。

Nina Dethlefs与AMR讨论了一些有希望的实验。我个人很害怕AMR。首先,获取注释非常昂贵。但是,如果这是唯一的问题,我们可以想象人类基因组式的推力来产生大量的基因。更大的问题是注释者之间的协议相对较差(只有Nina和她的学生,因此他们可以通过边际沟通达成协议)。尽管如此,我可以想象一个使用少量原型语义结构设计和构建的对话系统。似乎有些人为和受限制,但是图形用户界面和当前的UX元素规范集也是如此,用户可以通过这些元素学习如何与生产力交互。

Angeliki Lazaridou的演讲提醒我,沟通从根本上讲是一种合作游戏,这解释了为什么在互联网上吵架是浪费时间。

神经网络:改变游戏规则? 我向每个小组询问了以下问题的变体:“神经网络缓解了哪些问题,顽固地解决了哪些问题。”从本质上讲,这就是Marco Baroni演讲的内容。总的来说,我会说:现在我们不再害怕非凸损失函数(沿着这些行,请查看 朱利安·佩雷斯(Julien Perez)的幻灯片)。

但是,对于如何实现高质量对话显然需要的能力,我们目前只有模糊的想法。我说 显然地 因为AI的历史充斥着从业者,所以他们认为某些任务需要足够的能力,并且机器翻译的最新进展表明,鹦鹉可以做得很好。实际上,在讨论期间,令人感到沮丧的是,启发式手工编码策略仍然优于基于机器学习的方法,并期望这对于Alexa奖可能仍然适用。但是,我对高级启发式方法的存在持肯定的态度:它们不仅为数据驱动的方法提供了灵感和思想的来源,而且将模仿学习和强化学习相结合的学习方法应该能够有益地加以利用。

实体注释 考虑看似简单且普遍存在的特征工程策略:添加其他稀疏指示符特征,这些特征指示标记或标记序列的语义等效性。所以也许“windows 10” 和 “Windows周年纪念版”两者都具有相同的功能。杰森·威廉姆斯(Jason Williams)表示,他的系统因此得到了很大的改善,但是他试图从$ O(10)$标记的对话中学习,所以我点了点头。 Antoine Bordes表示这对某些bAbI对话任务有帮助,但是这些任务仅具有$ O(1000)$对话,因此我再次点了点头。然后弗拉德·塞尔班(Vlad Serban)指出,这有助于在Ubuntu 对话语料库上进行下一个话语分类。在这一点上,我认为“等待,那是$ O(10 ^ 5)$对话框。”
显然,知道乌龟和乌龟是同一回事是很棘手的。
在实践中,我对手动要素工程很满意:这就是我在线性时代支付租金的方式。但是现在我不知道:推断这样的对等是否需要更多数据?在当前的架构下,无论有多少数据,我们都不会推断出来吗?

拼写 发言者之间大致平均分配“dialog” 和 “dialogue”。我更喜欢后者,因为它有更多的松驰感。

2016年12月12日星期一

NIPS 2016思考

这是一次很棒的会议。组织者必须打破传统,以适应快速增长的提交和出席人数,但是尽管我怀旧,但我觉得这些变化是有益的。特别是,利用平行轨道并消除海报聚光灯,可以在午夜前一天结束时进行更多的演示,并且每个海报的慷慨空间分配确实改善了海报会议。研讨会的组织者显然提前考虑了所有事情:我没有遇到任何打((尽管我们只有一个麦克风,所以在讨论期间我进行了大量的锻炼)。

这是我挑选的一些高级主题。

开放性。两年前,亚马逊开始开放他们的研究,现在,他们已成为会议的主要代表。苹果今年在NIPS上宣布,他们将开放其研究实践。显然,公司正在寻找最大的利益来资助开放的基础研究,这与民间经济学的观点背道而驰,后者认为基础研究似乎是纯粹的公共物品,因此由于搭便车问题而不会私下提供资金。真正的经济学家可能会说这是简单的本科生思维。我仍然想知道,公司在多大程度上不合理?相反,没有将基础研究在现实世界中的哪些方面很好地建模为公益?我希望有一位经济学家来NIPS作一个关于这个问题的邀请演讲。

模拟。我在会议上注意到的一个主要主题是模拟环境的使用。 Yann LeCun在其演说中阐明了一个原因 开幕主题演讲:(释义)``模拟是减轻强化学习的高样本复杂性的一种可行策略。''但是另一个原因是科学方法论:对于反事实场景,模拟环境是数据集的模拟,因为它们允许使用通用度量,可重复的实验以及创新的民主化。模拟器当然不是什么新鲜事物,并且过去曾有过热情和悲观的浪潮,而且存在很多陷阱,这些陷阱基本上可以归结为对模拟器的过度拟合(从微观上讲,它得到的模型很差,但在宏观上也是如此)。将科学注意力集中在问题的不相关方面的感觉)。希望我们能从过去中学到东西,并意识到危险。关于这一点,有很多值得一提的内容,但我在博客上听到了两件事。 对话 workshop 遵循这些思路:首先,杰森·威廉姆斯(Jason Williams)提出,基于模拟的相对性能结论可能是安全的,但绝对性能结论值得怀疑;其次,Antoine Bordes提倡使用可实现的模拟问题与仪表板评分集成(即,多个问题可以实现完美的性能,行使明显不同的功能,并且目前还没有一种方法可以解决所有问题)问题)。

毫无疑问,模拟器正在激增。我注意到在今年的会议上讨论了以下内容:
我可能想念其他一些人。

顺便说一下,模拟的替代方法也不是完美的:对话研讨会上的一些讨论是关于众包的诱因如何在众包对话实验的参与者中诱发不自然的行为。

GAN 今年,其他会议(如ICLR)对GAN研究活动的狂热在很大程度上席卷了NIPS。这与模拟有关,尽管更多的是缓解样本复杂性主题而不是科学方法论主题。正在制定使优化工作的怪癖,这应该在短期内使RL有一些有趣的改进(除了许多精美的图片之外)。不幸的是,对于NLU任务,从GAN生成文本目前还不如生成声音或图像成熟,但是有一些海报可以解决这一问题。

可解释的模型 模型应该能够“explain itself”在行业中非常流行,但这是我第一次在NIPS上看到可解释性受到重视。即将颁布的欧盟法规无疑增加了对该主题的兴趣。但是还有其他原因:正如伊琳娜·里什(Irina Rish)在她的文章中指出的那样 invited 谈论 on (essentially) mindreading,如果表述更具可解释性,则表示学习的最新进展可以更好地促进科学探究。

我注意到的论文

您相信yelp上的一位审稿人吗?我不会因此,我认为我们需要某种方式来众包会议中人们认为是好的论文。我只是一个眼动滞后的人,有两个眼球(顺便说一句,使用更大的字体人!每年看屏幕变得越来越困难…),而且所有内容都首先在arxiv上发布,因此,如果我已经阅读过它,我什至不会在会议上注意到它。这使这个列表很奇怪,但是您就来了。


据我所知,这篇论文也没有参加会议,但是我在喝咖啡休息的时候就发现了,而且很棒:
  • 了解深度学习需要重新思考泛化。 TL; DR:当像素被置换甚至是随机化时,卷积可以破坏标准的图像训练集!当然,在这种情况下,泛化效果不佳,但是这表明它们比他们的方法更灵活“局部像素统计组成”体系结构建议。那么,为什么它们这么好用呢?

2016年12月3日星期六

本周六在NIPS举行的对话研讨会的学习方法

研讨会时间表 已经完成,我很兴奋。我们设法说服了一些经验丰富的对话研究人员(通常不参加NIPS)进行邀请演讲。我们还花了一些时间“建立完整的系统”, because it's 简单 to focus on the trees instead of the forest, especially when the tree is something 真 interesting like a neural network trained on a bunch of GPUs. But don't worry, there's plenty of “NIPS red meat”在时间表中也是如此。

星期六见!

2016年9月19日,星期一

NIPS 对话ue workshop

我正在组织 a workshop on 对话ue 在 NIPS 2016。 NIPS并不是对话研究的传统论坛,但是机器学习中越来越多的人(像我一样!)对对话感兴趣,所以时机似乎是对的。从个人的角度来看,对话很有趣,因为1)闻起来像AI,2)(深度学习)NLP技术的最新进展表明该问题更易于解决,并且3)公司的兴趣意味着金钱和数据都将充裕。老实说,第一点很重要:不可能向孩子们解释我以前工作过的细节,而现在我可以向他们展示像 这个。但是,对话中有很多问题不会仅仅通过使用灵活的假设类而消除,所以我觉得有必要教育自己关于退伍军人对话研究人员的活动,以及确保这一点的最佳方法是举办研讨会并邀请其中的一些。

希望您能加入对话。

2016年7月8日星期五

Update on 对话ue progress

在一个 最近的博客文章 我讨论了使对话向前发展的两个想法。这两个想法都与民主评估评估对话系统所需数据​​的需求有关。事实证明,这两种想法都已经得到了一定程度的发展:
  1. 拥有电脑“talk”彼此而不是与人: Marco Beroni在上面.
  2. 创建一个开放的在线评估平台: Maxine Eskenazi在上面.
很高兴看到。

2016年7月4日,星期一

集成电路 2016思想

集成电路对我来说太大了,无法对其进行``审查'',但是我可以提供近视的观点。

热门话题是深度学习,强化学习和优化。但是有很多话题受到关注。感觉今年深度学习的主导地位降低了。但是深度学习的成功导致了多个特定于应用程序的替代场所(例如CVPR,EMNLP),而ICLR也是一个享有盛誉的场所;因此,今年ICML的深度学习无论是在理论上还是在多模式研究上都是举足轻重的。可以说,强化学习和优化都应部分计入深度学习的足迹;强化学习已经有至少一年的历史了,但是最近优化对非凸问题产生了更大的兴趣,尤其是在深度学习中凭经验可以解决的问题(有时,尽管看似无害的体系结构更改会破坏布丁;但我想)优化社区的一个梦想是识别出仍然难以解决的大于凸的问题,以提供指导。

这是我喜欢的一些论文:
  1. 强类型递归神经网络
    如果您是类型理论方面的专业人士,或者您曾经是一名专业的Haskell程序员,并且不得不弄清楚单子是wtf,那么有争议的标题就很有意义。 tl; dr:如果将度量单位放在循环神经网络的各个组件上,则会发现您正在添加苹果和橙子。 T-LSTM是对标准LSTM的修正,旨在解决该问题,其经验类似。但可以分析。定理1对我来说是个不错的部分:修改后的体系结构显示为使用动态池计算时间卷积。类型一致性可以为架构提供有用的先验吗?这将是令人欢迎的发展。
  2. 问我任何事情:
    用于自然语言处理的动态内存网络
    用于视觉和文本问题解答的动态内存网络
    我还没有登上更多的头衔:每个人似乎都在平等“memory” = “注意当前示例子结构”. If you ask for the layperson's definition, they would say that 记忆 is about stuff you 不能 请参阅此刻(注意:Jason从 端到端存储网络)。除了脚踏车,不可否认这些 迭代注意力架构 问答式问题和超越基准已成为最新技术。请注意,由于反复关注的下一步是合并以前看到和存储的示例,因此该术语的使用“memory”很快就会变得令人反感。
  3. 从Softmax到Sparsemax:
    注意和多标签分类的稀疏模型
    这是softmax层的替代方法(“link function”)用作神经网络的最后一层。 Softmax将$ \ mathbb {R} ^ n $映射到(内部)单纯形,而sparsemax投射到单纯形上。最大的区别是sparsemax可以“hit the corners”,即将某些组件归零。根据经验,将softmax与sparsemax交换时,总任务性能的差异适中,这归因于实验部分的选择压力。那为什么要在意呢?注意机制通常是通过softmax实现的,并且真正稀疏的注意机制可能会更好地(在计算或统计上)扩展到更大的问题(例如涉及 实际 记忆, c.f., previous paragraph).
  4. 指导性成本学习:通过策略优化进行深度逆最优控制
    我发现Inverse RL不直观:Vapnik并不是说不引入困难的中间问题吗?尽管如此,它似乎运行良好。也许要求学习的政策是“rational”在某些成本函数下是否有用,可以减轻样品的复杂性?我不确定,我必须在上面加面条。同时,还会播放有关机器人洗碗的精彩视频!
  5. 深度强化学习的决斗网络架构.
    最好的纸张,因此我不会通过向您指出来增加任何价值。但是,在阅读它之后,请思考为什么学习两件事比学习一件事好。然后重新阅读讨论部分。然后思考一下类似的方差隔离技巧是否适用于您当前的问题。

在研讨会上,我听到了一些有趣的东西:
  1. 杰拉德·特索罗(Gerald Tesauro)擦去了他的旧衣服 神经gam 代码,然后在功能更强大的计算机(他目前的笔记本电脑)上运行它,并获得了更好的结果。不幸的是,如果我们等待足够长的时间,我们无法得出NVIDIA将为我们解决AI的结论。在2个玩家游戏中或更一般地在模拟环境中,计算能力等于更多的数据资源,因为您可以模拟更多。在现实世界中,我们有示例复杂性约束:您必须执行实际操作才能获得实际奖励。但是,就像汽车和飞机比人快一样,因为它们具有不公平的能量优势(我们是100W的机器;飞机是 更高), 我认为“superhuman AI”之所以会出现,是因为样本复杂性的优势,即可以执行更多动作并获得更多奖励(并记住并彼此分享)的分布式机器人集合。因此,真正实现波士顿奇缘而不是NVIDIA是关键。 (同时… buy my vitamins!)
  2. Ben Recht 谈论ed about the virtues of 随机超参数优化和an 加速技术 看起来更酷的版本 亚线性调试。以我的经验,这种风格有效。
  3. 莱昂·博托(Leon Bottou)指出,一阶方法现在处于最佳收敛的恒定因子之内,因此必然推论,任何假定的改进都必须非常便宜,因为它只能产生一个恒定因子。在同一演讲中,他还提出了批量标准化方面的合理改进。

2016年6月25日星期六

Accelerating progress in 对话ue

在机器学习中,评估不是全部:它是 只要 事情。这是从Imagenet(带有标签的数据集)和Arcade学习环境(模拟环境)中获得的教训。模拟器是标记数据集的部分反馈类似物:可以让任何研究人员评估任何政策的价值的模拟器。像数据集一样,当模拟器公开可用且相关任务设计合理时,有用的科学创新可以迅速进行。

在对话系统中,部分反馈问题比比皆是:任何试图找到工作失败的人都认为事实相反:“如果我说了些不同的话怎么办?”使用脱机数据很难回答这样的问题,但是任何试图脱机评估对话系统的人都必须想出一些方案来解决这个问题,并且 有陷阱.

在线评估存在不同的问题。孤立地看,它是理想的。但是对于整个科学界来说,这是个问题。例如,Honglak Lee说服他的学校的注册服务商允许他部署实时聊天系统来推荐课程注册。这对他来说是一个绝妙的举动,类似于1940年代使用粒子加速器:他将能够首先发现有趣的东西。但是他不能广泛共享此资源,因为1)聊天数量有限,并且2)注册服务商大概想确保高质量的体验。类似的担忧也加剧了最近对技术领域的对话系统的兴趣:可以进行实时对话的公司意识到这会产生竞争优势,因此在对待客户时需要谨慎。

很好,我喜欢领薪水,但是:如果仅阿尔伯塔大学提供Arcade学习环境,强化学习将以多快的速度推进?

所以这里有一些想法。

首先,我们可以让代理相互交谈以解决任务,而无需任何人参与。也许这将导致与2个玩家游戏中相同的快速进步。可以说,通过这种研究,我们可能比人们学到更多有关蚂蚁的知识。但是,在人类无法控制的情况下,我们可以使用模拟环境并使评估民主化。可能我们会发现一些有趣的知识,即学习反复交流信息以与其他代理进行协作所需要的东西。

其次,我们可以建立一个平台,使对在线Oracle的访问民主化。由于在线评估是一种稀缺资源,因此必须花费一些钱,但请想象一下:假设我们认为任务foo很重要。我们创建了一个标准的培训计划来创建熟练的众包工作者,再加上构成任务,质量控制程序等的标准HIT。然后,我们将尽最大努力在所有这些固定成本中摊销 所有 研究人员可以让任何人评估框架中的任何模型,而只支付Oracle的边际成本。最后,我们不只是对任务foo这样做,我们还尝试使研究人员也轻松创建新任务。在某种程度上,众包行业已经做到了这一点(针对付费客户);当然,研究人员已经在广泛利用众包。问题是,我们如何才能更轻松地做到:1)提出利用在线评估的可靠基准测试任务,然后2)以最低的成本为每个研究人员提供在线访问权限。仅从众包任务中创建数据集是不够的,因为这会导致脱机评估问题。

当然,如果任务不是众包的,但对于上一段来说,那将是很好的选择,但是某些自然交互的任务一直在大量发生,以至于主要问题是使访问民主化。可以想象,例如,对汽车谈话的所有笔录进行培训,并建立一个对话应用程序以尝试诊断汽车问题。如果它不能完全吸引用户,则不必为使用它而付钱,它可以免费支持某种程度的在线评估。自举,但这本身就是一项重大成就。

2016年4月6日星期三

关于复习的想法

在ICML审阅期间,我注意到我个人的审阅方式越来越不同于同行。就个人而言,我想参加一个会议,并获得新的创造力和生产力。因此,我喜欢那些令人发人深省,具有开创性或特别创新的作品;即使执行有些偏离。但是,我怀疑大多数评论者都认为接受论文是对作品质量和潜在影响的验证。据我所知,这里没有正确的答案。当然,应该接受并提出出色的工作,但是问题是,实际上每单位时间没有那么多工作。因此,就像布列塔尼·斯皮尔斯(Brittany Spears)专辑的制作人一样,我们面临着填充其余材料的问题。验证的心态导致大多数被接受的论文执行得非常出色,略有改进。如果将这些组合更多地倾向于风险较高的新颖论文,那就太好了。

验证心态导致的评论让人联想到食品评论家的评论。鉴于食品质量是主观的,而科学是关于客观真理的,这听起来可能令人反感: 尼普斯评论实验 这表明,审稿人客观地认识到论文的卓越性的能力在主观上被高估了。心理学家试图“measure”精神现象已与以下问题正式斗争 “what is a 测量ment”和lack of 评价者间的可靠性 是一个不好的信号(另:重测可靠性很重要,但由于评审者会记住一篇论文,因此尚不清楚如何评估它)。所以我想知道:相对于会议上提交的论文,美食评论家对一家好的餐厅的评价有多大差异?老实说,我不知道答案。

我所知道的是,尽管我想被告知,但我也想受到启发。这就是为什么我去参加会议。我希望审稿人在阅读论文时会牢记这一点。

2016年1月31日星期日

未来有更多合著者

在完成ICML提交时,需要做些准备。

你可曾听说 马克斯·马丁?您可能还没有,这是考虑到他(目前)在美国获得了21名第一名。列侬(26)和麦卡特尼(32)拥有更多,但马克斯·马丁(Max Martin)的优势是仍然活着追赶。一个非凡的天才吧?是的,是的,但是如果您查看他的资料,他总是有合著者,通常是几位。 他的过程 他具有很高的协作能力,因为他管理着一群年轻的歌曲创作才华,他像一位优秀的导师那样培养学生和博士后。在越来越流行的流行音乐中,最好与5个人一起写#1首歌曲,然后自己写#20首歌曲。

我认为机器学习正朝着这个方向发展。物理领域已经在尝试突破极限 数量惊人的合著者。大概物理学理论论文的合著者较少,但是 标准模型太好了为了取得真正的进步,需要进行一些非常困难的实验工作。

现在考虑一个历史性的近期成就: 征服围棋。那篇论文有20位作者。自然论文意义重大,因此大概每个人都在尝试公平地进行归因,这导致了长长的作者列表:尽管如此,不可否认的是,这项成就需要许多人共同努力, 不同的技能。我认为Hastie和Tibshirani可以像粉碎列侬和麦卡特尼一样独自粉碎自己的时代已经结束。拥有正确理论思想以推动诸如强化学习等方面的工作的人们仍然需要一小组开发人员和系统专家来构建必要的工具。

So here's some advice to any young aspiring academics out there envisioning a future Eureka moment alone 在 a white-board: if you want to be 相关的, pair up with as many talented people as you can.

2016年1月12日星期二

注意:更多沉思

我提出的注意力模型 最后发表 仍然是合理的,但比较模型却不合理。 (这些启示是与我自己,Nikos和Sham Kakade进行有趣对话的结果。Sham最近在华盛顿大学任教,这是我的脖子。)

提醒一下,注意模型是一个二元分类器,它采用矩阵值输入$ X \ in \ mathbb {R} ^ {d \ times k} $,具有$ d $功能和$ k $列,权重(“attends”)通过参数$ v \ in \ mathbb {R} ^ d $到某些列,然后使用参数$ u \ in \ mathbb {R} ^ d $预测\\
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(u ^ \ top X z \ right),\\
z&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)}。
\ end {aligned}
\]我从上一篇文章($ w \ rightarrow u $)略微更改了表示法,其原因很快就会清楚。在上一篇文章中,比较模型是所有列上的无约束线性预测变量,\ [
\ begin {aligned}
\帽子&= \mathrm{sgn \;} \ left(w ^ \ top \ mathrm {vec \,}(X)\ right),
\ end {aligned}
\]和$ w \ in \ mathbb {R} ^ {d k} $。但这不是一个很好的比较模型,因为非线性的注意力模型无法以这种方式实现:苹果和橙子。

通过线性注意和回归任务更容易看到这一点。线性注意力模型根据$ {v ^ \ top X_i)$对每一列加权,例如,对于以下情况,$ {v ^ \ top X_i)$接近于零“background” or “irrelevant”的东西,对于“foreground” or “relevant”东西。在这种情况下, \[
\ begin {aligned}
\ hat y&= u ^ \ top X(v ^ \ top X)^ \ top = \ mathrm {tr} \ left(X X ^ \ top v u ^ \ top \ right),
\ end {aligned}
\](使用属性 跟踪),看起来像是完整模型上的等级1假设,\ [
\ begin {aligned}
\ hat y&= \ mathrm {tr} \ left(X X ^ \ top W \ right)= \ sum_ {ijk} X_ {ik} W_ {ij} X_ {jk} \\
%&= \ sum_i \ left(X X ^ \ top W \ right)_ {ii} = \ sum_ {ij} \ left(X X ^ \ top \ right)_ {ij} W_ {ji} \\
%&= \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ji} = \ sum_ {ijk} X_ {ik} X_ {jk} W_ {ij}
\ end {aligned}
\]其中$ W \ in \ mathbb {R} ^ {d \ times d} $和w.l.o.g.对称的。 (现在希望符号更改是有意义的:字母$ U $和$ V $通常用于SVD的左右单数空间。)

$ W $的对称性使我感到困惑,因为这表明$ u $和$ v $是相同的(但是预测是非负的吗?),因此显然需要更多的思考。但是,这提供了一些见识,也许可以得出一些有关样品复杂性的已知结果。

2016年1月6日星期三

注意:我们可以将其形式化吗?

在统计中 偏差方差权衡 是一个核心概念。粗略地说,偏见是假设类别中最佳假设在现实中的表现,而方差是由于拥有有限的训练数据而导致多少性能下降。阿布·莫斯塔法(Abu-Mostafa)有一个 不错的演讲 在此。

上个世纪,数据和计算都相对稀缺,因此具有高偏差但低方差(与在假设类别上进行优化相关的计算开销较低)的模型很受欢迎:诸如广义线性模型之类的东西。当媒体进入数字化时代,数据变得越来越稀缺,人们重新审视了具有低偏差,高方差和适度计算开销的旧思想: n-gram语言建模。 GLM在这个时代继续表现出色,因为可以通过功能工程(例如广告响应模型)来利用偏差方差的折衷。具有低偏差和高方差但计算开销过高的旧想法基本上仍然是无关紧要的(我在找你,k近邻)。

如果您走在曲线的前面(不是我!),您会发现数据和计算约束的持续放松都倾向于使用较低的偏差模型。然而,“easy”偏见的减少(增加方差仍然不可行),因为很遗憾,鉴于我们要建模的目标的复杂性,我们仍然受到数据的限制(“AI”)。因此,真正的游戏是在不增加偏差的情况下减少偏差。贝叶斯可能会说“good generic priors”。约书亚·本吉奥(Joshua Bengio)早就意识到了这一点,并在 我一直以来最喜欢的论文之一。 3.1节特别是纯金。在该部分中,作者列出了几个关键的通用先验条件,例如平滑度,层次性,多任务,低内在维数,多尺度,稀疏性等。

该列表中与该列表最接近的关注点是稀疏度,其含义相当接近,但是我更喜欢关注这个术语:对我而言,重要的是每个示例的动态稀疏度,该稀疏度是根据“complete” example, where “complete”也许可以通过分层注意力来缓解。注意模型最近已经被粉碎,例如 视力言语;我还怀疑深度卷积架构如此出色的一个重要原因是重复的非线性池化操作就像一个注意机制,参见图2的图2。 西蒙扬(Simonyan)等。等。人们对注意力的关注如此之大,以至于必须找到一种数学上显示出优越性的方法。

因此,这是我的猜测:注意是一个很好的通用先验,我们可以对此进行形式化。不幸的是,理论不是我的强项,但我认为以下内容可以接受分析。首先设置:任务是二进制分类,特征是矩阵$ X \ in \ mathbb {R} ^ {d \ times k} $。注意模型由两个向量$ w \ in \ mathbb {R} ^ d $和$ v \ in \ mathbb {R} ^ d $组成。注意模型通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(w ^ \ top X z \ right),\\
z_i&= \ frac {\ exp \ left(v ^ \ top X_i \ right)} {\ sum_k \ exp \ left(v ^ \ top X_k \ right)},
\ end {aligned}
\],即$ z \ in \ Delta ^ k $是softmax,用于为$ X $的每一列选择权重,然后$ w $在给定的输入$ X z \ in \减少的情况下线性预测标签。 mathbb {R} ^ d $。如果您更需要注意,则可以强制$ z $作为单纯形的顶点。

非注意模型由向量$ u \ in \ mathbb {R} ^ {k d} $组成,并通过\ [
\ begin {aligned}
\帽子&= \mathrm{sgn\;} \ left(u ^ \ top \ mathrm {vec \;}(X)\ right),
\ end {aligned}
\],即忽略$ X $中的列结构,展宽矩阵,然后使用所有功能进行估算。

天真的参数计数(通常是无意义的)表明,注意力模型(带有$ 2 d $参数)比非注意力模型(带有$ k d $参数)复杂。但是,我想对偏差和差异做一些更正式的陈述。特别是我的直觉说,应该存在一些条件,在这些条件下,从根本上减小方差,因为最终的预测对于不涉及的事物是不变的。

如果有人对如何取得进展有任何想法,请随时分享(在这里公开公开是很好的,如果您不喜欢暴露香肠的生产过程,请直接与我联系)。如果文献已经解决了这些问题,也请随时启发我。