2016年12月17日星期六

论开放式工业研究的可持续性

我很高兴OpenAI的存在:科学越多越好!话虽如此,但今年NIPS发生了一件奇怪的事情。 OpenAI发布 OpenAI宇宙,这是他们测量和训练反事实学习算法平台的第二个重要版本。您希望组织在不考虑财务收益的情况下促进AI的整体进步,这是这种行为。同时,Google,Facebook和Microsoft都宣布了类似的平台。三个人以营利为目的的组织为了提供基础研究技术而绊倒他们的事实,没人body住。

天真的想法说基础研究是公共物品,受搭便车问题的困扰,因此将由营利性组织提供资金不足。如果您认为这是一个稻草人的职位,那么您还没有听说过 思科创新模式。撰写本文时:
…Cisco has no “pure” blue-sky research organization. Rather, when Cisco invests research dollars, it has a specific product in mind. 的 company relies on acquisitions to take the place of 纯 research …
诸如此类的文章曾经让我非常担心。那么为什么(显然)这次不同呢?

因素1:劳动力市场稀缺

与同事的非正式讨论通常以该解释模板结尾。具体的表面形式包括:
  • “没有良好的公共研究,您不能招聘最优秀的人才。”从表面上看,我认为这一说法是正确的,但逻辑有些循环。如果没有良好的公共研究,您当然不能招募最好的研究人员,但是为什么您首先要吸引他们?语句更像“通过良好的公共研究,您可以招募最优秀的人才,然后说服他们进行一些非公共研究。”(?)很多研究生似乎都毕业了,然后“disappear”,因此可能有些道理。
  • “最好的人想发表:这是您付给他们的津贴。”无疑,获得公众对您工作的认可是有益的,并且知识工作者想要平衡财务资本和社会资本完全有意义。例如,公开展示的能力可以转移到新的演出中。但是这种思路假设,公共研究是雇主选择代替例如更高的薪水支付的费用。
我不仅怀疑这个因素只是图片的一部分:我 强烈希望 那只是图片的一部分。因为如果从整体上看,一旦劳动力市场疲软,私人资助的公共研究将经历巨大的回落,这将很糟糕。

因素2:正外部性

该参数是:“研究人员提高了附近人员的生产力,因此值得他们出去逛逛。”按照这种思路,就算是花了几周的时间就最新的想法进行讨论,再加上与思想领袖面对面交谈以解释最新方法的细微差别的机会,都值得他们付出全部。这有些道理,例如,杰弗里·欣顿(Geoffrey Hinton)曾经在这里为演讲团队表演过魔术。我对这张图片的问题是,实际上,与地球上某人进行沟通和协作要比楼下某人容易。这也是 很难衡量,因此如果我必须说服董事会根据此为研究部门提供资金,我认为我会失败。

顺便说一句,这是对话中另一个最喜欢的论点。听到人们将当前情况描述为“我们很稀缺,也很棒。” As 道格拉斯·亚当斯指出,拥有透视感几乎没有好处。

因素3:质量保证

这里的想法基本上是 “参与公共研究讨论可确保组织内的高质量想法。”这里的关键词是 贡献,因为替代策略更类似于搭便车,例如,将员工派到会议参加但没有贡献。

为公众消费准备想法具有绝对的价值。撰写论文的相关工作部分通常是一种启发性的经验,尽管老实说,它往往发生在工作完成之后而不是之前。以前更像是一种模糊的感觉,即对任何问题都没有好的解决方案,希望能从对最新技术现状的总体了解中获悉。根据我的经验,编写实验部分的内容比较复杂:您通常需要对接标准度量或基准任务,这似乎最好是特质,最坏情况与您的工作目标无关,因此迫使特定的黑客获得在终点线上。 (也许这就是为什么每个人都在定义下一代基准任务方面投入大量资金的原因。)

有趣的是,大多数先前的好处都是在准备出版过程中发生的。大概,到那时,您可以扔掉纸,仍然体验到好处(我们称这些为“the arxiv benefits”?)。运行审阅者手套是一种衡量您是否进行高质量工作的方法,但这是一个嘈杂的信号。高质量的同行反馈可以提出改进建议和新的方向,但是这是一种稀缺的资源。希望推动科学发展的慈善组织应通过例如资助高质量的专业评审员或发明新的对等反馈模型来应对这种匮乏。

我认为这个因素并不是为基础研究提供资金的必要条件,也就是说,如果我是研究部门的负责人,在争取董事会的资金支持,我不会大力利用这一攻击手段。在这里,真理不如感知重要,我认为会计部门宁愿在产品市场上测试其想法的质量。

因素4:行销

公司可以利用其基础研究成果来公开展示其产品的适用性和卓越性。大型企业肯定会确保在《纽约时报》等知名出版物上讨论他们的研究成果。但是,这在我看来大多是事后的想法。似乎正在发生的事情是,研究人员正在选择要调查的内容,其中一些最终具有新闻价值,而组织的另一部分则有专职人员来确定和促进具有新闻价值的研究。 IBM是个例外,例如沃森(Watson)紧追危险。

这可以说是可持续的(IBM已经花了一段时间了),但它创建的活动看起来像是围绕特定轰动目标的巨大推动,而不是分发基本的研究工具和技术。换句话说,看起来好像今年的NIPS并没有发生什么。

因素5:垄断

我认为这种解释是可以接受的:技术创造了更多 自然垄断和natural monopolies fund research, c.f., Bell Labs and Xerox PARC. All market positions are subject to disruption and erosion but Microsoft, Google, and Facebook all have large competitive moats in their respective areas (OS, search, and social), so they are currently funding public basic research. This factor predicts that as Amazon's competitive moats in retail (and cloud computing) widen, they will engage in more public basic research, something we have seen recently.

特别是对于AI(née机器学习),关键的垄断是 数据 (源自客户关系)。可以说,大型科技巨头会喜欢将AI技术作为商品,因为由于它们现有的客户关系,他们将最有可能利用这些技术。相反,如果出现了私人发现的破坏性AI技术,它将是其中之一。“majors”受到启动的干扰。因此,大型公司可以从围绕AI的充满活力的公共研究生态系统中获得收益和保障。

尽管如此,一家拥有不错的防御性护城河的大型公司可能会关注当前的公共研究活动水平,并说:“嘿,够了,让我们搭便车。”(不是显式的,也许是隐式的)。假设您负责Apple或Salesforce,您会做什么?我看不清“right answer”,尽管两家公司似乎都朝着更加开放的基础研究方向发展。

因素6:企业是非理性的

科技公司由创始人和帝国统治,他们的个人喜好可以决定政策,例如您是否可以养狗。在实践中,具有大量预算的研究部门的存在可以被类似地激发。上述所有因素在一定程度上都是真实的,但难以衡量,因此可以归结为一个判断电话,而且只要公司踢屁股,对创始人的尊敬将是极端的。

但是,如果这个因素很重要,那么当公司遇到困难或经历高层转型时,事情可能会迅速恶化。可以肯定的是,在过去的十年中有这样的例子。

2016年12月16日星期五

对话研讨会回顾

大多数演讲者已将幻灯片发送给我,可以在以下位置找到 时间表页面。总体而言,这次研讨会很有趣,而且很有启发性。这是我所了解的一些主要主题。

评价 没有魔术子弹,但请签出 海伦的幻灯片 进行井井有条的指标讨论。研讨会上展示了许多不同的策略:
  • Milica Gasic在她的一些实验中使用了众包。她还指出,众包的诱因可能导致参与者行为不自然。
  • Nina Dethlefs结合了目标(BLEU)和主观(“naturalness”) evaluation.
  • 弗拉德·塞尔班(Vlad Serban)一直支持将下一语音分类作为有用的内在度量。
  • Antoine Bordes(和其他FAIR成员)在很大程度上利用模拟和工程任务。
  • Jason Williams used imitation metrics (from hand labeled 对话s) as well as simulation.
正如Helen指出的那样,从客户行为中计算指标可能是面向工业任务系统的黄金标准,但这是一种稀缺资源。 (顺便说一下,即使在与客户有关系的公司内部:在我目前的工作中,他们也不会允许我在不证明有限的负面客户体验影响的情况下进行某些事情。)

那些比我长久的人对模拟对话经历了几波热情和悲观情绪。总的来说,我认为可以得出的结论是,只要意识到限制因素,模拟就可以成为有用的工具。

安托万(Antoine)通过一张有趣的幻灯片迅速将他的演讲改编成妮娜(Nina)的演讲“是的,妮娜,我们将模拟带回来了。”公平策略是这样的:“以下是一些工程对话任务,这些任务似乎需要某些功能才能很好地执行,例如多跳推理,与知识库的交互,长期记忆等。目前,我们还没有能够在以下方面达到100%准确性的系统这些工程任务,因此我们将使用这些任务来推动对体系结构和优化策略的研究。我们还会监视其他外部任务(例如DSTC)的性能,以了解我们的学习是否能超出设计任务集。” Sounds reasonable.

就本次研讨会而言,我个人将在短期内加大对模拟器的投资。

利用语言学 费尔南多·佩雷拉(Fernando Pereira)对语言学如何是一种描述性理论发表了致命的评论,该理论不需要与实现有明确的对应关系:“当水星绕太阳旋转时,它就没有运行广义相对论。”尽管如此,语言学似乎不仅对描述一个主管系统必须捕获的行为很重要,而且对于激励和启发我们实现它所需的哪种自动机也很重要。

扩充或生成数据集似乎是利用语言学的自然方法。举个例子,在研讨会上,我了解到4岁的英语母语者对简单的句子包含一些无意义的单词(但带有形态学线索,例如大写字母和-ed后缀)敏感,对正确的单词顺序和不正确的单词顺序很敏感。因此,我正在尝试在大型对话框数据集上运行下一个语音分类,其中一些否定示例是真实延续的令牌排列版本,以查看这是否有所改变。

拉奎尔·费尔南德斯(Raquel Fernandez)的演讲重点是成人与儿童之间的语言互动,我不禁想到与培训人工系统有关的潜在问题。实际上,当前的对话系统例如通过向用户建议重新格式化而像父代(即专家)那样工作。但这可笑,因为我们的系统很愚蠢:我们不应该表现得像孩子吗?

语言学的最极端用途是Eshghi和Kalatzis的演讲,他们在其中开发了用于对话框的自定义增量语义解析器,然后使用生成的逻辑形式来驱动整个对话框过程。构建解析器后,所需的训练数据量将极少,但是解析器可能是通过查看大量对话框来构建的。

Nina Dethlefs与AMR讨论了一些有希望的实验。我个人很害怕AMR。首先,获取注释非常昂贵。但是,如果这是唯一的问题,我们可以想象人类基因组式的推力来产生大量的基因。更大的问题是注释者之间的协议相对较差(只有Nina和她的学生,因此他们可以通过边际沟通达成协议)。尽管如此,我可以想象一个使用少量原型语义结构设计和构建的对话系统。似乎有些人为和受限制,但是图形用户界面和当前的UX元素规范集也是如此,用户可以通过这些元素学习如何与生产力交互。

Angeliki Lazaridou的演讲提醒我,沟通从根本上讲是一种合作游戏,这解释了为什么在互联网上吵架是浪费时间。

神经网络:改变游戏规则? 我向每个小组询问了以下问题的变体:“神经网络缓解了哪些问题,顽固地解决了哪些问题。”从本质上讲,这就是Marco Baroni演讲的内容。总的来说,我会说:现在我们不再害怕非凸损失函数(沿着这些行,请查看 朱利安·佩雷斯(Julien Perez)的幻灯片)。

但是,对于如何实现高质量对话显然需要的能力,我们目前只有模糊的想法。我说 显然地 因为AI的历史充斥着从业者,所以他们认为某些任务需要足够的能力,并且机器翻译的最新进展表明,鹦鹉可以做得很好。实际上,在讨论期间,令人感到沮丧的是,启发式手工编码策略仍然优于基于机器学习的方法,并期望这对于Alexa奖可能仍然适用。但是,我对高级启发式方法的存在持肯定的态度:它们不仅为数据驱动的方法提供了灵感和思想的来源,而且将模仿学习和强化学习相结合的学习方法应该能够有益地加以利用。

实体注释 考虑看似简单且普遍存在的特征工程策略:添加其他稀疏指示符特征,这些特征指示标记或标记序列的语义等效性。所以也许“windows 10” and “Windows周年纪念版”两者都具有相同的功能。杰森·威廉姆斯(Jason Williams)表示,他的系统因此得到了很大的改善,但是他试图从$ O(10)$标记的对话中学习,所以我点了点头。 Antoine Bordes表示这对某些bAbI对话任务有帮助,但是这些任务仅具有$ O(1000)$对话,因此我再次点了点头。然后弗拉德·塞尔班(Vlad Serban)指出,这有助于在Ubuntu 对话语料库上进行下一个话语分类。在这一点上,我认为“等待,那是$ O(10 ^ 5)$对话框。”
显然,知道乌龟和乌龟是同一回事是很棘手的。
在实践中,我对手动要素工程很满意:这就是我在线性时代支付租金的方式。但是现在我不知道:推断这样的对等是否需要更多数据?在当前的架构下,无论有多少数据,我们都不会推断出来吗?

拼写 发言者之间大致平均分配“dialog” and “dialogue”。我更喜欢后者,因为它有更多的松驰感。

2016年12月12日星期一

NIPS 2016思考

这是一次很棒的会议。组织者必须打破传统,以适应快速增长的提交和出席人数,但是尽管我怀旧,但我觉得这些变化是有益的。特别是,利用平行轨道并消除海报聚光灯,可以在午夜前一天结束时进行更多的演示,并且每个海报的慷慨空间分配确实改善了海报会议。研讨会的组织者显然提前考虑了所有事情:我没有遇到任何打((尽管我们只有一个麦克风,所以在讨论期间我进行了大量的锻炼)。

这是我挑选的一些高级主题。

开放性。两年前,亚马逊开始开放他们的研究,现在,他们已成为会议的主要代表。苹果今年在NIPS上宣布,他们将开放其研究实践。显然,公司正在寻找最大的利益来资助开放的基础研究,这与民间经济学的观点背道而驰,后者认为基础研究似乎是纯粹的公共物品,因此由于搭便车问题而不会私下提供资金。真正的经济学家可能会说这是简单的本科生思维。我仍然想知道,公司在多大程度上不合理?相反,没有将基础研究在现实世界中的哪些方面很好地建模为公益?我希望有一位经济学家来NIPS作一个关于这个问题的邀请演讲。

模拟。我在会议上注意到的一个主要主题是模拟环境的使用。 Yann LeCun在其演说中阐明了一个原因 开幕主题演讲:(释义)``模拟是减轻强化学习的高样本复杂性的一种可行策略。''但是另一个原因是科学方法论:对于反事实场景,模拟环境是数据集的模拟,因为它们允许使用通用度量,可重复的实验以及创新的民主化。模拟器当然不是什么新鲜事物,并且过去曾有过热情和悲观的浪潮,而且存在很多陷阱,这些陷阱基本上可以归结为对模拟器的过度拟合(从微观上讲,它得到的模型很差,但在宏观上也是如此)。将科学注意力集中在问题的不相关方面的感觉)。希望我们能从过去中学到东西,并意识到危险。关于这一点,有很多值得一提的内容,但我在博客上听到了两件事。 对话 workshop 遵循这些思路:首先,杰森·威廉姆斯(Jason Williams)提出,基于模拟的相对性能结论可能是安全的,但绝对性能结论值得怀疑;其次,Antoine Bordes提倡使用可实现的模拟问题与仪表板评分集成(即,多个问题可以实现完美的性能,行使明显不同的功能,并且目前还没有一种方法可以解决所有问题)问题)。

毫无疑问,模拟器正在激增。我注意到在今年的会议上讨论了以下内容:
我可能想念其他一些人。

顺便说一下,模拟的替代方法也不是完美的:对话研讨会上的一些讨论是关于众包的诱因如何在众包对话实验的参与者中诱发不自然的行为。

GAN 今年,其他会议(如ICLR)对GAN研究活动的狂热在很大程度上席卷了NIPS。这与模拟有关,尽管更多的是缓解样本复杂性主题而不是科学方法论主题。正在制定使优化工作的怪癖,这应该在短期内使RL有一些有趣的改进(除了许多精美的图片之外)。不幸的是,对于NLU任务,从GAN生成文本目前还不如生成声音或图像成熟,但是有一些海报可以解决这一问题。

可解释的模型 模型应该能够“explain itself”在行业中非常流行,但这是我第一次在NIPS上看到可解释性受到重视。即将颁布的欧盟法规无疑增加了对该主题的兴趣。但是还有其他原因:正如伊琳娜·里什(Irina Rish)在她的文章中指出的那样 关于(本质上)心智阅读的受邀演讲,如果表述更具可解释性,则表示学习的最新进展可以更好地促进科学探究。

我注意到的论文

您相信yelp上的一位审稿人吗?我不会因此,我认为我们需要某种方式来众包会议中人们认为是好的论文。我只是一个眼动滞后的人,有两个眼球(顺便说一句,使用更大的字体人!每年看屏幕变得越来越困难…),而且所有内容都首先在arxiv上发布,因此,如果我已经阅读过它,我什至不会在会议上注意到它。这使这个列表很奇怪,但是您就来了。


据我所知,这篇论文也没有参加会议,但是我在喝咖啡休息的时候就发现了,而且很棒:
  • 了解深度学习需要重新思考泛化。 TL; DR:当像素被置换甚至是随机化时,卷积可以破坏标准的图像训练集!当然,在这种情况下,泛化效果不佳,但是这表明它们比他们的方法更灵活“局部像素统计组成”体系结构建议。那么,为什么它们这么好用呢?

2016年12月3日星期六

本周六在NIPS举行的对话研讨会的学习方法

研讨会时间表 已经完成,我很兴奋。我们设法说服了一些经验丰富的对话研究人员(通常不参加NIPS)进行邀请演讲。我们还花了一些时间“建立完整的系统 ”,因为将重点放在树上而不是森林上很容易,尤其是当树真的很有趣时,例如在一堆GPU上训练的神经网络。但是不用担心,有很多“NIPS red meat”在时间表中也是如此。

星期六见!