显示带有标签的帖子 NIPS. 显示所有帖子
显示带有标签的帖子 NIPS. 显示所有帖子

2016年12月12日星期一

NIPS 2016思考

这是一次很棒的会议。组织者必须打破传统,以适应快速增长的提交和出席人数,但是尽管我怀旧,但我觉得这些变化是有益的。特别是,利用平行轨道并消除海报聚光灯,可以在午夜前一天结束时进行更多的演示,并且每个海报的慷慨空间分配确实改善了海报会议。研讨会的组织者显然提前考虑了所有事情:我没有遇到任何打((尽管我们只有一个麦克风,所以在讨论期间我进行了大量的锻炼)。

这是我挑选的一些高级主题。

开放性。两年前,亚马逊开始开放他们的研究,现在,他们已成为会议的主要代表。苹果今年在NIPS上宣布,他们将开放其研究实践。显然,公司正在寻找最大的利益来资助开放的基础研究,这与民间经济学的观点背道而驰,后者认为基础研究似乎是纯粹的公共物品,因此由于搭便车问题而不会私下提供资金。真正的经济学家可能会说这是简单的本科生思维。我仍然想知道,公司在多大程度上不合理?相反,没有将基础研究在现实世界中的哪些方面很好地建模为公益?我希望有一位经济学家来NIPS作一个关于这个问题的邀请演讲。

模拟。我在会议上注意到的一个主要主题是模拟环境的使用。 Yann LeCun在其演说中阐明了一个原因 开幕主题演讲:(释义)``模拟是减轻强化学习的高样本复杂性的一种可行策略。''但是另一个原因是科学方法论:对于反事实场景,模拟环境是数据集的模拟,因为它们允许使用通用度量,可重复的实验以及创新的民主化。模拟器当然不是什么新鲜事物,并且过去曾有过热情和悲观的浪潮,而且存在很多陷阱,这些陷阱基本上可以归结为对模拟器的过度拟合(从微观上讲,它得到的模型很差,但在宏观上也是如此)。将科学注意力集中在问题的不相关方面的感觉)。希望我们能从过去中学到东西,并意识到危险。关于这一点,有很多值得一提的内容,但我在博客上听到了两件事。 对话研讨会 遵循这些思路:首先,杰森·威廉姆斯(Jason Williams)提出,基于模拟的相对性能结论可能是安全的,但绝对性能结论值得怀疑;其次,Antoine Bordes提倡使用可实现的模拟问题与仪表板评分集成(即,多个问题可以实现完美的性能,行使明显不同的功能,并且目前还没有一种方法可以解决所有问题)问题)。

毫无疑问,模拟器正在激增。我注意到在今年的会议上讨论了以下内容:
我可能想念其他一些人。

顺便说一下,模拟的替代方法也不是完美的:对话研讨会上的一些讨论是关于众包的诱因如何在众包对话实验的参与者中诱发不自然的行为。

GAN 今年,其他会议(如ICLR)对GAN研究活动的狂热在很大程度上席卷了NIPS。这与模拟有关,尽管更多的是缓解样本复杂性主题而不是科学方法论主题。正在制定使优化工作的怪癖,这应该在短期内使RL有一些有趣的改进(除了许多精美的图片之外)。不幸的是,对于NLU任务,从GAN生成文本目前还不如生成声音或图像成熟,但是有一些海报可以解决这一问题。

可解释的模型 模型应该能够“explain itself”在行业中非常流行,但这是我第一次在NIPS上看到可解释性受到重视。即将颁布的欧盟法规无疑增加了对该主题的兴趣。但是还有其他原因:正如伊琳娜·里什(Irina Rish)在她的文章中指出的那样 关于(本质上)心智阅读的受邀演讲,如果表述更具可解释性,则表示学习的最新进展可以更好地促进科学探究。

我注意到的论文

您相信yelp上的一位审稿人吗?我不会因此,我认为我们需要某种方式来众包会议中人们认为是好的论文。我只是一个眼动滞后的人,有两个眼球(顺便说一句,使用更大的字体人!每年看屏幕变得越来越困难…),而且所有内容都首先在arxiv上发布,因此,如果我已经阅读过它,我什至不会在会议上注意到它。这使这个列表很奇怪,但是您就来了。


据我所知,这篇论文也没有参加会议,但是我在喝咖啡休息的时候就发现了,而且很棒:
  • 了解深度学习需要重新思考泛化。 TL; DR:当像素被置换甚至是随机化时,卷积可以破坏标准的图像训练集!当然,在这种情况下,泛化效果不佳,但是这表明它们比他们的方法更灵活“局部像素统计组成”体系结构建议。那么,为什么它们这么好用呢?

2016年12月3日星期六

本周六在NIPS举行的对话研讨会的学习方法

研讨会时间表 已经完成,我很兴奋。我们设法说服了一些经验丰富的对话研究人员(通常不参加NIPS)进行邀请演讲。我们还花了一些时间“建立完整的系统”,因为将重点放在树上而不是森林上很容易,尤其是当树真的很有趣时,例如在一堆GPU上训练的神经网络。但是不用担心,有很多“NIPS red meat”在时间表中也是如此。

星期六见!

2016年9月19日,星期一

NIPS对话研讨会

我正在组织 NIPS 2016对话研讨会。 NIPS并不是对话研究的传统论坛,但是机器学习中越来越多的人(像我一样!)对对话感兴趣,所以时机似乎是对的。从个人的角度来看,对话很有趣,因为1)闻起来像AI,2)(深度学习)NLP技术的最新进展表明该问题更易于解决,并且3)公司的兴趣意味着金钱和数据都将充裕。老实说,第一点很重要:不可能向孩子们解释我以前工作过的细节,而现在我可以向他们展示像 这个。但是,对话中有很多问题不会仅仅通过使用灵活的假设类而消除,所以我觉得有必要教育自己关于退伍军人对话研究人员的活动,以及确保这一点的最佳方法是举办研讨会并邀请其中的一些。

希望您能加入对话。

2015年12月15日,星期二

NIPS 2015评论

从字面上看,NIPS 2015的规模比以往任何时候都要大:大约3700名与会者,这是去年的两倍左右,而后者又是前一年的两倍。这显然是不可持续的,但是鉴于供应商和招聘活动的疯狂程度,也许还有增长的空间。然而,主要会议是单轨会议,已经进行了3天:因此,海报发布会将采取更多行动,与发布会一起,营造出各种小型会议的感觉。显然,我对行动的看法将是高度不完整的,并偏向于我自己的利益。

强化学习

强化学习不断提高,扩展了ICML的热情和精力。的“Imagenet moment”因为RL是Deepmind在 街机学习环境。在演讲中 深度RL研讨会, 迈克尔·保龄球 提出的证据表明,性能的大幅提升主要表现为1)使用卷积网络更好地解码屏幕,以及2)使用多个先前帧作为输入。这并不是要破坏突破,而是要指出,这种进步并未解决RL的困难部分(长动作序列的部分反馈)。有趣的是,目前还没有一个擅长玩陷阱的系统,这需要很长的动作序列才能获得奖励。保龄球的名言是我们擅长比赛“您随机摇动操纵杆,您将获得一些回报。”

但是,社区并没有停滞不前:现在,如此多的热情和人才正朝着这个方向思考,所以进步有望加速。例如,我经常看到的一个想法是:部分地观察到了奖励(稀疏!),但是不断地观察到了感官输入。因此,将对未来奖励的预测分解为以下各项的组合:1)预测以动作序列为条件的未来感觉输入,以及2)预测给定感觉输入的奖励。从样本复杂性的角度来看,这很有道理。如 李洪立 他在Deep RL研讨会上的演讲中指出,相同的技术为 变压器网络 可以学会预测以动作序列为条件的未来感官输入,可以将其用于模拟播放。 (如果您了解POMDP,则分解可能没有意义,因为您不一定可以从当前的感觉状态预测奖励;但是我们必须先爬网才能行走,并且可能可以构成逐个序列学习的想法通过这种分解可以对不可观察的世界状态进行建模。)

另一个流行的强化学习主题是需要更好的探索策略。我怀疑这是真正重要的部分:我们如何以一种与我们的假设类别(可能相对较小,冗余且充满结构性假设)相关的方式来进行遗憾探索,而不是探索世界本身(哪一个大)这就是背景强盗的作用:如果所有好的政策都想要采取相同的行动,那么探索就没有那么重要了。在会议上,流行语是“intrinsic motivation”, roughly meaning “是否有一个有用的进度代理可以应用于所有未观察到奖励的动作序列?”。给定奖励预测分解为(动作序列条件的感觉输入预测+感觉奖励预测),则发现新颖的感觉状态是有用的训练数据,大致可转化为探索策略。“大胆地去你从未去过的地方”希望它不会杀死你。

最后,我有一些轶事证据表明,强化学习正在走向成熟的工业技术:在ICML上,我与Deepmind的人们交谈时,他们会说他们正在从事强化学习的某些技术方面的工作。这次我得到了类似的答案“I'm doing RL for ads” or “我正在为建议做RL”。这是一个很大的变化。

其他的东西

会议上还有其他有趣的话题,我仍在收集我的想法。
  1. 我真的很喜欢最好的纸 竞争性分配估算:为什么好转好,我怀疑这与极端分类有关。
  2. 布朗和桑德霍尔姆正在做他们的惊人的事情 单挑无限注扑克玩家。这是其中之一“我们可能没有了解人类如何解决问题,但它仍然是很酷的技术。”肚脐凝视不是一切!
  3. 我仍然喜欢内核的原始近似(在极端分类中,我们必须拥抱线性预测变量),所以我喜欢 多项式核的球面随机特征.
  4. 我想尝试 在线F测度优化。 F量度是极端分类中的重要指标,但仅对其进行计算就很难了,而不必直接对其进行优化。也许现在不一样了。
  5. 自动化机器学习 aka AutoML逐渐升温。近期目标之一是消除对典型的有监督学习设置中的专业知识的需求。海报 高效,强大的自动化机器学习 是一个有趣的例子。的 AutoML挑战 在CIML研讨会上,持续的挑战也值得关注。 IBM在他们的聚会上还展示了一个很酷的AutoML产品演示(从名称上讲:这些东西的含义是什么?他们显然是在招聘职能,但他们伪装成一个由书呆子和讨厌的朋友抛出的大学聚会)。
  6. 记忆系统,在会议上以 端到端存储网络 纸,并在研讨会上 RAM研讨会。我特别喜欢 注意 作为减轻样本复杂性的一种机制:如果您不关注某件事,那么您不变的事情就是这样做,这极大地减轻了数据需求,当然您会假设您忽略了无关紧要的东西。从统计上讲它是否便宜一些 什么 重要而不是 怎么样 重要的是,为后者保留宝贵的数据资源?我不确定,但是 学习唤醒睡眠经常性注意力模型 在我的阅读清单上。
  7. 公路网 看起来很甜蜜通过身份转换进行初始化的想法很有意义。例如,所有现有的深度网络都可以被视为高速公路网络,其中有超过一定深度(即不完全优化)的身份转换层数不计其数。“infinitely deep” highway networks.
  8. 极端分类 仍然是活跃区域, 作坊 考虑到我们在RAM研讨会的对面(当时这是仅在客厅使用的违反消防法规的活动),因此参加会议的人员相当多。我特别喜欢Charles Elkan的演讲,我可以总结为“我们只需要计算大量的稀疏GLM,我正在努力做到这一点 .” My own work with 分层频谱方法 确实表明,如果我们可以计算出GLM,它将具有出色的性能,所以我喜欢这条攻击线(也可以想象,我可以组合两种技术)。也很有趣:对于平方损失,如果特征维数较小,则可以通过以下方式在标签稀疏时间中计算出准确的损失梯度: 高效的精确梯度更新,用于训练具有超大稀疏目标的深层网络。这对于在输出层之前具有低维瓶颈的典型神经网络非常有用(不幸的是,它对于大型的稀疏GLM并不能按原样使用,但也许可以修改此技巧吗?)。
  9. 路径SGD
    通过消除一个讨厌的不变因素,对于更好地优化深度网络可能是一个很酷的技巧。
  10. 反事实学习的自归一化估计量。如果您喜欢强化学习,那么您应该喜欢反事实评估,因为后者为前者提供了关键的见解。我需要与提议的估算器一起使用,但看起来似乎更好。
  11. 驯服狂野:Hogwild风格算法的统一分析。虽然我有很多 霍格威尔德和矩阵分解共同发挥作用的经验证据,此分析声称他们应该一起玩。整齐!
  12. 最后但并非最不重要的一点是 机器学习系统 CISL同事Markus Weimer共同组织的研讨会。虽然不是很违反消防规范,但它只是站立的空间。

2015年9月2日,星期三

学习系统 NIPS Workshop CFP

CISL是我在Microsoft工作的研究小组。该团队汇集了系统专家和机器学习专家,以使这两个学科相互交流。这也是 学习系统 由NIPS 2015接受的研讨会,由 马库斯·韦默(Markus Weimer) 来自CISL。

如果听起来像您喝杯茶,请查看 CFP 并考虑提交您的作品。

此外,CISL正在招聘:因此,如果这真的是您的最佳选择,请将简历发送给我(至我博客右上角的地址);或在蒙特利尔的工作坊中自我介绍。

2014年12月15日,星期一

NIPS 2014

NIPS凭借新的场所和深厚的态度,在今年引起了轰动,对组织者表示敬意。

让我们从“会议讲话”。我的意思是本着时代精神“Man of the Year”,即我不宽容内容,只是指出内容最有影响力。当然,赢家是...伊利亚·萨兹维克(Ilya Sutsveker)的演讲 神经网络的序列到序列学习。招摇是令人震惊的:作为介绍性材料,他宣布借助深度前馈神经网络,现在可以解决所有监督的向量对向量问题,然后继续声明现在解决了所有监督的序列对问题得益于深层的LSTM网络。每个人对此话题都有话要说。从积极的方面来说,无与伦比的 约翰·赫尔希 在喝酒时告诉我,LSTM允许他的团队清除语音清洁管道中的多年积垢,同时获得更好的结果。其他对这次演讲的慈善解释较差的人可能不希望我在博客上写下他们陶醉的反应。

这次会议是在蒙特利尔举行的,这很合适,强调了深度学习的巨头已经从流亡者转变为摇滚明星。当我学到了很辛苦的方法时,如果要安排这些人中的一个人在车间里上课,就必须露面。这是一个可行的观察结果:在海报发布会中将所有深度学习海报并排放置是一个坏主意,因为这会造成交通拥堵。明年,应该像在杂货店里的钉书钉一样,将它们放在海报发布的角落,以利于其他材料的暴露。

现在我的个人亮点。首先,我要指出的是,这次会议是如此之大,以至于即使使用单轨格式,我也只能体验其中的一小部分,因此您的观点有偏差。也让我祝贺安树 最佳论文奖。他今年夏天是微软的实习生,这个家伙真是太酷了。

分布式学习

既然这是我的日常工作,我当然会感到困惑,因为各个计算节点(增强了GPU)的功能越来越强大,因此分布式学习的需求正在减少。所以我准备好迎接朱尔·莱斯科维奇的 专题讲座。这是一个杀手screenshot。
杰瑞说,每个研究生实验室都是其中一台机器,几乎所有感兴趣的数据都适合RAM。考虑一下。

尽管如此,在这个方向上还是有一些很好的研究。

其他趋势

随机方法:我现在真的很喜欢随机算法,因此很高兴看到太空中的健康活动。 LOCO(如上所述)是一大亮点。也很酷 拉达格勒,这是Adagrad和随机投影的混搭。实际上,Adagrad是通过对角线近似实现的(例如,在vowpal wabbit中),但Krummenacher和McWilliams表明,可以通过随机投影轻松地获得完整Adagrad度量的近似值。它使数据致密,因此也许不适合文本数据(并且vowpal wabbit当前专注于稀疏数据),但是密集数据(即视觉,语音)和非线性模型(即神经网络)的潜力是有希望的。

极限学习 显然,有人从深度学习中吸取了最重要的教训:给您的研究程序起一个性感的名字。对于喜欢滑板运动并消耗稳定红牛的人们来说,极限学习听起来像是研究领域。这实际上意味着多类和多标签分类问题,其中类的数量非常大。我很高兴卢克·维尔尼斯(Luke Vilnis)的演讲 大型多类问题的广义特征向量 受到好评。安树最佳论文获奖作品 近似最大内部产品搜索 也与此领域有关。

离散优化 我很无知 这个领域 我在行李领取时遇到了Jeff Bilmes,并请他告诉我他的研究兴趣。但是,假设Ilya是正确的,未来将是学习具有更复杂的输出结构的问题,并且该领域正在朝着一个有趣的方向发展。

概率编程 罗布·辛科夫(Rob Zinkov)没有出席(afaik),但他向我展示了一些病态的演示 ru,他的实验室正在开发的概率编程框架。

Facebook实验室 我很高兴看到Facebook Labs 解决雄心勃勃的问题 进行文本理解,图像分析和知识库建设。他们在想大...极端的收入不平等可能不利于西方民主国家的长期稳定,但这在AI研究中掀起了黄金时代。

结论

最好。会议。曾经我等不及明年。

2013年12月12日,星期四

NIPSplosion 2013

NIPS 今年真是太棒了,对所有组织者,区域主席,审稿者和志愿者都表示敬意。在创纪录的与会者人数,众多公司赞助商和 马克·扎克伯格(Mark Zuckerburg)秀,今年的会议以绝对的规模最为著名。一个人可以有效地总结这一点已经超出了重点,但这是我的回顾,很自然地偏向于我的兴趣。

主题演讲非常出色,与综合演讲一致“big picture”会议的遗产。我最喜欢的是达芙妮·科勒(Daphne Koller),他谈到了“其他在线学习”,即通过电信进行的教学法。类似于在线移动对话如何使我们能够准确地描述 斯诺基,在线移动指令有助于使用机器学习来改善人类学习。从早期信息支配地位到成熟的边缘刺激小腿,基于一般的互联网弧线,很明显, Coursera 平台将在附近 求爱技巧,但在此期间,很多人将获得更多实质性利益。

就整体主题而言,我没有发现任何新兴技术,这与往年不同,例如深度学习,随机方法和频谱学习之类的技术激增。从理智上讲,这次会议就像是巩固阶段,好像以前的突破仍在被消化。但是,输出表示学习和极端分类(大型基数多类或多标签学习)代表了有趣的新领域,并希望明年在这些领域将取得进一步的进展。

的re were several papers about improving the convergence of stochastic gradient descent which appeared broadly similar from a 理论的 standpoint (约翰逊和张; 王等等; 张等等)。我喜欢 控制变量 王等人的解释。等生成直觉的最佳选择,但是如果您想实现某种功能,Johnson and Zhang的图1的伪代码则可理解。

协方差矩阵很热,而不仅仅是PCA。大& QUIC algorithm of Hseih等。等 for estimating large sparse inverse covariance matrices was technically very impressive and should prove 有用 for causal modeling of biological and neurological systems (presumably some hedge funds will also take interest). 巴兹和Müller 有一些有趣的想法 收缩率估算器, 包括“正交补码”顶本征空间应该 因为样本估计实际上是很好的,所以将其缩小。

随机方法中的一件有趣的工作是 McWilliams等。等,然后将两个随机特征图与CCA在未标记的数据上对齐,以提取“useful”随机特征。这是在半监督设置中利用未标记数据的直接方法,并且计算成本低廉,并且与CCA回归的理论结果一致。我期待着尝试。

讲习班很棒,尽管像往常一样,同时发生了很多有趣的事情,使得选择困难。我弹跳之间 极端分类, 随机方法大学习 第一天。迈克尔·乔丹(Michael Jordan)在大型学习中的演讲非常出色,特别是将各种优化松弛的计算复杂度降低与统计风险增加并置的部分(均因可行集的扩展而产生影响)。这开始在数据和计算资源之间进行权衡。极端分类(大型基数多类或多标签学习)是一个令人兴奋的开放领域,这很重要(例如,对于NLP中出现的结构化预测问题),并且在短期内看来很容易解决。有两份相关的会议文件是 弗罗姆等等 (利用 word2vec 以减少极端分类以使用最近邻解码进行回归)和 西塞等。等 (它利用了标签图的近乎分离的性质,而标签图在实践中经常遇到大规模多标签问题)。

第二天我大部分时间都在 光谱学习 但是我看到了布莱的讲话 主题建模。光谱学习进行了有趣的讨论。三个有趣的问题是
  1. 为什么频谱技术没有得到更广泛的应用?
  2. 怎样才能使光谱方法更广泛地适用,类似于后验推断的变分贝叶斯或MCMC?
  3. 模型错误指定的后果是什么?如何使光谱方法对模型错误指定更可靠?
关于第一个问题,我认为缺少的是可以轻松找到,安装和试用的坚如磐石的软件。临时从业者并不关心算法的理论优势,实际上他们倾向于“theoretical” as a synonym for “putative”。 c.f.在第二个问题上取得了很大进展, 概率编程。给定哪里 硬件正在发展,未来属于最具说服力的。第三个问题是多年生的贝叶斯问题,但是对于频谱方法来说可能具有特殊的结构,这可能会建议例如鲁棒的优化准则。

2013年12月10日,星期二

翻转车间

今年在NIPS上,最重要的主题之一是 达芙妮·科勒(Daphne Koller) 关于Coursera和 翻转教室。改天,我与亚马逊的Chetan Bhole一起吃午餐,他指出我们每个人都去参加会议以听取彼此的演讲:由于翻转的教室很棒,我们应该将这一概念应用于会议。

我喜欢这个主意。

考虑将整个会议转变为这种形式是不切实际的(至少要等到该想法获得信誉之前),但是由于组织者是全体会议,所以研讨会提供了一个很好的实验平台。它是这样工作的:对于一些勇敢的讲习班,将向接受讲习班的演讲者(并邀请演讲者!)附带视频,希望参加讲习班的人员能在讲习班之前观看。 (也许我们甚至可以使用Coursera的平台来获得诸如掌握问题和论坛之类的额外信息。)在研讨会上,演讲者只花了2分钟左右的时间提醒听众他们是谁,以及视频的内容是什么。然后,它变成完全交互式的问答,大概是由白板或智能板驱动的。

随意窃取这个想法。否则,也许我会尝试组织一个研讨会来尝试这个想法。

2013年1月2日,星期三

NIPS 2012趋势

我认为我应该对我今年在NIPS上观察到的一些趋势发表评论,而不是发表论文清单。

深度学习又回来了

对于真正的忠实的深度学习,我们再也没有离开过,但对于其他所有人,最近的一些新发展都对它们有利。

首先,数据集越来越大。更大的数据集意味着可以考虑更复杂的模型族而不会过度拟合。一旦数据集变得太大,超过了计算约束,但在10区5 to 106 行和102 to 103 专栏深度学习的计算成本是可以容忍的,并且该区域包含许多具有较高经济价值的数据集。

第二,数据集已经公开。称之为 卡格勒 如果您愿意的话,会产生影响,尽管纯粹是学术项目,例如 影像网 也很重要一旦更大的兴趣数据集成为公众有意义的技术比较就成为可能。这是一篇快速的论文阅读提示:论文的那一部分讨论论文的方法比其他方法更好,您可以跳过该部分,因为该部分中的数字受到特定的选择压力:作者不断试验他们的技术,直到证明它更好为止,而他们对竞争技术却没有同样的热情。另一方面,如果存在这样一种情况,技术A的支持者在数据集上尽可能地努力,而技术B的支持者在数据集上尽可能地努力,那么知道谁做得更好就更有趣了。 。深度学习社区受益于此类匹配,因为归根结底,它们非常注重经验。

第三,数据集变得更加多样化。如果您对域有足够的直觉来选择特征和/或内核,则线性方法会很好用。在没有领域知识的情况下,非凸优化可以提供替代。

多核和GPU驱动的计算机的兴起推动了这些趋势。虽然深度学习通常是深度神经网络的同义词,但我们可以退一步说,深度学习实际上是通过非凸优化(通常由SGD驱动)进行学习。不幸的是,由于对带宽的高要求,SGD在分布式环境中的表现不佳。具有多核或多个GPU卡的单台计算机实质上是一个具有高速互连的小型集群,有助于解决SGD的某些局限性(以及流水线和迷你分批处理)。我认为,与分布式方法相比,近期技术更倾向于使用GPU方法进行深度学习(例如 信仰区),因为存在经济压力,需要增加GPU的内存带宽以用于计算机游戏。我偏爱深度学习的分布式方法,因为在实践中,数据的可操作存储通常是一个集群,因此 原位 操纵是可取的。不幸的是,我认为这将需要一种截然不同的方法,即选择非凸性,其明确的设计目标是允许有效的分布式优化。在这些方面取得突破之前,我的钱都花在了GPU上。

概率编程

概率编程是一种建模方式,其中用户以声明方式对生成的模型和一些所需的后验摘要进行编码,然后系统将该规范转换为答案。
声明性系统是计算机科学中纯正的典范。在实践中,声明性系统面临采用方面的障碍,因为除非所讨论的域被很好地抽象,否则最终用户不可避免地会发现特定于域的语言的局限性难以忍受。如果领域是抽象的,那么如果存在广泛适用的通用策略和优化,声明式系统就会蓬勃发展,因为即使是最有经验和才华的程序员也会发现声明式框架更具生产力(至少对于原型设计而言,很可能对于完成的产品)。

因此,这里有个好消息:对于贝叶斯主义者,通过蒙特卡洛进行后验汇总时,大量的机器学习都被很好地抽象了。此外, 没有掉头采样器 看起来像是一种广泛适用的策略,某些其他技术(例如自动微分和符号模型简化)则提供了正确性和(相对)速度的希望。总的来说,这看起来像灌篮。

潜在模型的光谱方法

I 关于此的博客 已经广泛。 tl; dr是频谱方法通过消除E-step保证了更多可扩展的潜在模型学习。以我的经验,主题模型为许多领域中的后续监督分类(不只是文本!)提取了出色的功能,因此实际上这是一个令人兴奋的发展。同样,将主题模型视为提取高阶矩特征值的观点也给出了一些直觉,即它们为何具有广泛的用途。