显示带有标签的帖子 深度学习. 显示所有帖子
显示带有标签的帖子 深度学习. 显示所有帖子

2015年5月11日,星期一

ICLR 2015评论

ICLR的野心,质量和(小型)社区相结合,使之成为我最喜欢的会议。言语和视觉方面的最新成功,以及亿万富翁创始人和皇帝以及风险资本家的资金浪潮,给人以乐观的感觉,并渴望攻击人工智能。热情具有感染力。 (在程序上,在审阅过程中使用Arxiv使得与审阅者进行对话变得容易:每个人都应该这样做,如今双盲是一个神话。)

组织者在选择会议名称方面很有见识。虽然称为“深度学习会议”,会议是关于学习表示形式的。在AI的早期(即1960年代),表示被认为是至关重要的,但在那时,表示是手工构建的。这不仅(非常费力)费力,而且解决方案高度针对特定问题。推动这次会议的关键思想是使用数据和学习算法来帮助我们设计表示形式,希望使生成的表示形式更易于开发和更广泛地应用。如今,深度学习(即使用非凸优化技术训练的分层非线性)是实现此目的的领先技术,但如果这次会议更好地出现,那么(不久的将来)该会议将得到验证。

The selection of accepted 纸s 和 invited talks was extremely sensible given the above context: 深 learning 纸s were definitely in the majority, but there were also interesting 纸s leveraging 本征系统, 光谱法字典学习. The invited talks were diverse 和 entertaining: Percy Liang's talk on learning latent logical forms for semantic parsing was an excellent example, as his work clearly involves learning representations, yet he jokingly professed unfamiliarity with 深 learning during his talk.

有很多好的论文,所以看看 整个时间表,但这些吸引了我的注意。

通过共同学习对齐和翻译的神经机器翻译 结果在 这篇报告 有趣,但是该论文也作为学习的表示设计过程的一个示例而出类拔萃。深度学习是 只是将高度灵活的模型类应用于大量数据:如果那么简单,高斯内核将解决AI。取而代之的是,深度学习就像机器学习的其余部分一样:在计算复杂性的约束下,在模型复杂性和数据资源之间找到微妙的平衡。特别是,更多的数据和更快的GPU不会在标准神经编码器/解码器体系结构中带来这些改进,因为潜在矢量表示与序列到序列的映射之间存在不匹配。更好的方法是以适当匹配目标的方式明智地增加模型的复杂性。此外,“art”并不是知道对齐本身就很重要(灵感显然来自现有的SMT系统),而是在于弄清楚如何将类似对齐的操作合并到体系结构中而不破坏优化能力(使用SGD)。感谢作者。

Note that while a representation is being learned from data, clearly the human designers have gifted the system with a strong prior via the specification of the architecture (as with 深 convolutional networks). We should anticipate this will continue to be the case for the near future, as we will always be data impoverished relative to the complexity of the hypothesis classes we'd like to consider. Anybody who says to you “I'm using 深 learning because I want to learn from the raw data without making any assumptions”不明白。如果他们也使用这句话“通用逼近器”,请退出对话并尽可能快地逃跑,因为没有什么比高精度表达的不正确直觉更危险了(参见Minsky)。

NICE:非线性独立分量估计 作者定义了一种灵活的非线性 它是体积保持且可逆的,从而生成了一个生成模型,对其进行推断(和训练),采样和修复很简单。这些技巧很酷,您想在其中找到用途。

定性表征神经网络优化问题 SGD的有效性有些神秘,并且 作者深入研究了优化前景 实际的神经网络遇到的直觉。演讲和海报还有其他很酷的可视化效果,这些效果不在本文中。

结构化预测 There were several 纸s exploring how to advance 深 neural networks beyond classification into 结构化预测. Combining neural networks with CRFs is a popular choice, 和 陈等等 遵循这些原则,在Pascal VOC 2012上有不错的海报,并取得了良好的效果。 Jaderberg等。等 利用类似的策略来解决识别自然图像中单词的(可变和可扩展输出)问题。

极端分类 有几篇论文提出了加快学习分类模型的方法,其中输出的数量非常大。 Vijayanarasimhan等。等 尝试使用散列来近似逼近点积,而 文森特 提供某些损失函数(的梯度)的精确表达式,从而避免显式计算输出。在接下来的几周中,我将深入研究这些论文,以更好地理解它们。 (而且,理论上,您可以使用 我们的标签嵌入技术 to avoid the output layer entirely when training extreme 深 classifiers on the GPU, but I haven't implemented it yet so YMMV.)

2015年4月21日,星期二

极端多标签分类

提醒:仍有时间提交给 集成电路的极端分类研讨会 今年。

多标签分类很有趣,因为它是通往 结构化预测。尽管可以将多标签视为一组强大的标签,但除非标签数量少或每个实例的活动标签数量受到限制,否则此方法会迅速瓦解。结构化的预测观点是,多标签推理涉及一组遭受联合损失的二进制预测,这满足了 ku句定义 结构化预测。

尼科斯(Nikos)和我最近独立地发现了里德(Reed)和荷尔蒙(Hollmén)的雄辩状态 :
Competitive methods for multi-label data typically invest in learning labels together. To do so in a beneficial way, analysis of label dependence is often seen as a fundamental step, separate 和 prior to constructing a classifier. Some methods invest up to hundreds of times more computational effort in building dependency models, than training the final classifier itself. We extend some recent discussion in the literature 和 provide a 深er analysis, namely, developing the view that label dependence is often introduced by an inadequate base classifier ...
Reed和Hollmén使用神经网络风格的非线性,而Nikos和我使用 随机嵌入和随机核逼近,但是我们的结论是相似的:给定灵活且规则良好的通用非线性,可以在构造分类器时直接对标签依赖关系进行建模;此外,这在计算和统计上都比当前最新技术更有效。

The use of neural network style nonlinearities for multi-label is extremely reasonable for this setting, imho. Advancing the successes of 深 learning into 结构化预测 is currently a hot topic of research, 和 it is partially tricky because it is unclear how to render an arbitrary 结构化预测 problem onto a structure which is amenable to (SGD) optimization (c.f., 用于顺序推理任务的LSTM). Fortunately, although multi-label has a 结构化预测 interpretation, existing 深 architectures for multi-class require only slight modifications to apply to multi-label. (“那为什么要使用随机方法呢?”,问读者。答案是随机方法分布得很好,我在云计算实验室工作。)

2015年1月15日,星期四

展开推理

新年快乐!我的新年决心是不要害怕非凸优化。统计上有一个 高可能性 我将在二月份回到仅优化凸损耗的问题:)。

但是与此同时,这方面的有趣论文 油炸卷积网。这里的想法是使用 快速核逼近 to replace the fully connected final layers of a 深 convolutional neural network. Gradients can be computed for the kernel approximation 和 passed through to the lower convolutional layers, so the entire architecture can be trained end-to-end using SGD, including fun tricks like dropout on the kernel approximation.

Alex Smola is a smart guy 和 I think he gets the lessons from the recent success of 深 learning. In fact it seems we have to re-learn this lesson every decade or so, namely 非凸架构的端到端培训可以产生出色的结果,并且SGD极其通用。我看到油炸卷积网与约翰·赫尔希(John Hershey)的观点相同 深层展开 神经网络的想法是,从模型(例如内核机器)开始,创建模型的参数化近似值(例如快餐),然后(非凸面)使用SGD优化端到端的近似值。

2014年8月26日,星期二

更多深度学习的困惑


Yoshua Bengio, one of the luminaries of the 深 learning community, gave multiple talks about 深 learning 在 集成电路 2014 今年。 I like Bengio's focus on the statistical aspects of 深 learning. Here are some thoughts I had in response to his presentations.

通过深度进行正则化

Bengio的话题之一是深度是一种有效的调节器。该论点是这样的:通过组合多层(有限容量)非线性,相对于相似的前导灵活性的浅层模型,整体体系结构能够探索有趣的高柔性模型子集。在这里有趣的是,这些模型具有足够的灵活性来对目标概念进行建模,但是受到足够的约束,仅需适度的数据需求即可学习。这实际上是关于我们正在尝试建模的目标概念的声明(例如,在人工智能任务中)。另一种说法是(释义)“寻找比平滑度假设更具约束力的正则化器,但仍广泛适用于感兴趣的任务。”

是这样吗

As a purely mathematical statement it is definitely true that composing nonlinearities through bottlenecks leads to a subset of larger model space. For example, composing order $d$ polynomial units in a 深 architecture with $m$ levels results in something whose leading order terms are monomials of order $m d$; but many of the terms in a full $m d$ polynomial expansion (aka “shallow architecture”) 缺失。因此,前导顺序具有灵活性,但模型空间有限。但是,这有关系吗?

For me the best evidence comes from that old chestnut MNIST. For many years the Gaussian kernel yielded better results than 深 learning on MNIST among solutions that did 不 exploit spatial structure. Since the discovery of dropout this is no longer true 和 one can see a gap between the Gaussian kernel (at circa 1.2% test error) 和, e.g., maxout networks (at 0.9% test error). The Gaussian kernel essentially works by penalizing all function derivatives, i.e., enforcing smoothness. Now it seems something more powerful is happening with 深 architectures 和 dropout. You might say, “嘿1.2%和0.9%,我们不是要分开头发吗?”但我不这么认为。我怀疑这里还会发生其他事情,但这只是一个猜测,我当然不理解。

The counterargument is that, to date, the major performance gains in 深 learning happen when the composition by depth is combined with a decomposition of the feature space (e.g., spatial or temporal). In speech the Gaussian kernel (in the highly scalable form of random fourier features) is able to approach the performance of 深 learning on TIMIT, if the 深 net cannot exploit temporal structure, i.e., RFF is competitive with non-convolutional DNNs on this task, but is surpassed by convolutional DNNs. (Of course, from a computational standpoint, a 深 network starts to look downright parsimonious compared to hundreds of thousands of random fourier features, but we're talking statistics here.)

远距离关系的危险

So for general problems it's 不 clear that ``regularization via depth'' is obviously better than general smoothness regularizers (although I suspect it is). However for problems in computer vision it is intuitive that 深 composition of representations is beneficial. This is because the spatial domain comes with a natural concept of neighborhoods which can be used to beneficially limit model complexity.

对于诸如自然场景理解之类的任务,空间范围有限的各种对象将被放置在众多背景之上的不同相对位置。在这种情况下,歧视的一些关键方面将由本地统计数据确定,而其他方面则由远端统计数据确定。但是,给定一个包含256x256像素图像的训练集,训练集中的每个示例都提供了一对像素的一种实​​现,该像素对向右下方偏移256个像素(即,左上左下右像素)。相反,每个示例都提供一对像素的252 ^ 2 $实现,该像素向右下方偏移4个像素。尽管这些实现不是独立的,但是对于正常摄影比例的自然场景图像,每个训练示例中有关局部依存关系的数据要比远端依存关系多得多。从统计学上讲,这表明尝试估计附近像素之间的高度复杂关系较为安全,但是必须更严格地规范远距离依存关系。深度分层体系结构是实现这些双重目标的一种方法。

One way to appreciate the power of this prior is to 不e that it applies to model classes 不 一般 associated with 深 learning. On the venerated MNIST data set, a Gaussian kernel least squares achieves 1.2% test error (with no training error). Dividing each example into 4 quadrants, computing a Gaussian kernel on each quadrant, 和 then computing Gaussian kernel least squares on the resulting 4-vectors achieves 0.96% test error (with no training error). The difference between the Gaussian kernel 和 the “deep”高斯核是建模远端像素交互的能力受到限制。尽管我还没有尝试过,但我相信通过约束从根到叶的每条路径以包含空间上相邻像素的分割,可以类似地改善决策树集合。

这是附近美好的一天

The outstanding success of hard-wiring hierarchical spatial structure into a 深 architecture for computer vision has motivated the search for similar concepts of local neighborhoods for other tasks such as speech recognition 和 natural language processing. For temporal data time provides a natural concept of locality, but for text data the situation is more opaque. Lexical distance in a sentence is only a moderate indicator of semantic distance, which is why much of NLP is about uncovering latent structure (e.g., topic modeling, parsing). One line of active research synthesizes NLP techniques with 深 architectures hierarchically defined given a traditional NLP decomposition of the input.

Another response to the relative difficulty of 艺术iculating a neighborhood for text is to ask “can I learn the neighborhood structure instead, just using a general 深 architecture?” There is a natural appeal of learning from scratch, especially when intuition is exhausted; however in vision it is currently necessary to hard-wire spatial structure into the model to get anywhere near state of the 艺术 performance (given current data 和 computational resources).

因此,对于例如机器翻译的良好解决方案将在多大程度上涉及手工指定的先验知识与从数据得出的知识之间是一个悬而未决的问题。这听起来像旧的“nature vs. nuture”认知科学方面的争论,但是我怀疑在这个问题上会取得更多进展,因为现在辩论是通过实际尝试设计执行相关任务的系统而获得的。

2014年1月12日星期日

群集集群

可以肯定的是,在不久的将来,数据将继续在群集文件系统(例如HDFS)中累积,这些文件系统由具有以太网互连功能的商用多核CPU驱动。这样的集群相对便宜,容错,可扩展,并且有大量的系统研究人员正在研究它们。

几年前,可以肯定的是,机器学习的迭代处理工作负载将越来越多地迁移到可以在数据所累积的同一硬件上运行,毕竟,我们要“将代码移至数据”. Now this is looking less clear. The first serious challenge to this worldview arose when 深 learning catapulted to the front of several benchmark datasets by leveraging the GPU. 院长等等 开始使用具有以太网互连功能的大型多核CPU群集来复制并超越这些结果,并且尽管成功了,但所需的硬件数量却令人惊讶。然后 科茨(Coates)等。等 通过密切关注通信成本(通过以通信友好的格式布置模型,抽象通信原语并利用Infiniband互连),使用少得多的机器即可获得可比的结果。

Is the 科茨(Coates)等。等 result a bespoke solution for 深 learning? Interestingly, 坎尼和赵 他们得出类似的结论“squaring the cloud”论文,他们根本没有明确提到神经网络。这是论文的关键语录:
“快速混合算法(SGD和MCMC)尤其会遭受通信开销的困扰。加速通常是$ n $的子线性函数$ f(n)$,因为网络容量会在更大范围内减小(典型的近似值是$ f(n)= n ^ \ alpha $对于某些$ \ alpha<1 $)。这意味着云计算的成本增加了$ n / f(n)$倍,因为总工作量增加了该倍数。能源使用量类似地增加相同的因素。相比之下,单节点速度提高$ k $意味着在成本和功耗上节省了简单的$ k $倍。”
换句话说,对于我们真正关心的某些算法,通过将通信成本视为主要因素,您可以用更少的机器做等效的工作,从而降低总成本。

所以这就是我所看到的当前状态。仍然有许多算法可以在运行分布式文件系统的同一硬件上最高效地运行,例如, ADMM系列,其中包括L1正则化logistic回归等美味商品。但是,也会有一些经济利益很高的算法无法正确地映射到此类硬件上。因此,我们应该期望看到数据中心正在部署“HPC islands”由相对较少的机器组成,这些机器装满了矢量化处理器,高带宽(至矢量化处理器)内存和快速互连。这些类型的集群在某些社区(例如高能物理研究人员)中很受欢迎,但是现在面向消费者的互联网公司将广泛采用此技术。

These HPC岛屿 do 不 need to stage all the data they are working on before they start doing useful work, e.g., SGD algorithms can start as soon as they receive their first mini-batch. 咖啡 和 a single K20 can train on Imagenet 在 7ms per image amortized, which works out to roughly 40 megabytes per second of image data that needs to be streamed to the training node. That's 不 difficult to arrange if the HPC island is collocated with the HDFS cluster, 和 difficult otherwise, so the prediction is near the HDFS cluster is where the HPC岛屿 will be. Of course the HPC island should have a smart caching policy so that 不 everything has to be pulled from HDFS storage all the time. A 智能缓存策略将是任务感知的,例如,利用 主动学习 最大限度地提高HDFS和HPC岛之间的信息传输。

对这样一个异构系统进行编程将非常具有挑战性,这将为处于适当位置的个人提供大量机会。

2013年6月22日,星期六

集成电路 2013:稀疏,深度和随机

集成电路 2013 对组织者来说,这是今年的一次伟大的会议。 对于个人来说,要全面了解所有内容实在太大了,但我确实注意到了三种趋势。

首先,稀疏性作为一种结构性约束似乎无处不在。 由于我对该子领域知之甚少,因此我非常关注最初两分钟的谈话,这些谈话通常会(很快地)讨论一些基本问题,例如,“人们为什么完全关心稀疏性?”.  我听到了一些通用动机,例如计算便利性和清晰度。 我还听到了一些具体的动机,例如  阿南库玛(Anandkumar)等等 表明对于特定的生成模型结构,可以通过稀疏编码技术来识别参数; Ruvolo和Eaton主张 模型的稀疏编码 在多任务学习中促进任务之间的知识转移。

Second, 深 learning continues to enjoy a resurgence.  特别是两次演讲提出了一些重要的未来方向。 The first was a talk by Coates about 深 learning on the following architecture: 16台带有4个GPU的机器,每个通过infiniband连接.  我在这个博客上抱怨过SGD的高通信成本如何使它成为一种不良的分布式学习算法,但Coates等。等直接用硬件来解决这个问题。 这显然是不久的将来。 最重要的是,我们确实没有更好的神经网络训练算法,但是解决问题的经济性非常重要,以至于有可能“throw hardware 在 it”,硬件将被抛出。 The second talk was 递归神经网络训练的难点 由Pascanu等等人讨论了在递归环境中基于梯度的学习的一些改进。 It's clear that the 深 learning guys, having dominated the “natural UI”在移动空间中如此重要的问题(例如语音识别和图像标记)现在正在寻求控制顺序预测任务(随着自治系统的普及,其重要性将日益增加)。 他们将与核心人员展开激烈的竞争:Le Song在精彩的演讲中 条件分布的希尔伯特空间嵌入 应用于顺序预测。

说到内核家伙,第三个主题是随机的,尤其是Alex Smola的演讲 核学习的快速随机逼近 (“FastFood”) was a real treat.  据推测,随机计算技术与条件分布的希尔伯特空间表示相结合,将产生用于顺序预测和其他潜在建模任务的强大算法。 在这方面的另一个突出表现是Mahoney的演讲 回顾Nyström方法以改善大型机器学习.

Note unlike the first two themes (sparse 和 深), I wouldn't say random is a broadly popular theme yet.  我个人对此感到非常兴奋,并且我认为对机器学习的影响很大,尤其是在分布式环境中。 基本上,使用这些随机算法的数值线性代数专家一直在研究“架构感知计算”多年以来,机器学习社区才开始意识到这一点。 想要一窥这对您意味着什么,请考虑戴维·格莱希(David Gleich)关于 Hadoop中的瘦身QR分解.

最后,我不得不提到John Langford和HalDaumé进行了关于命令式学习的精彩演讲,这与上述任何内容都不适合。 我找不到任何在线资料,这很不幸,因为这真的很酷,而且如果您曾经将机器学习算法应用于现有的生产系统中,那么您会立即喜欢上它。 基本思想是您,最终用户,程序“normally”并调用实现为协同程序的学习算法。 这有两个优点:首先,该算法自然地体验了由程序引起的决策的分布,因此“dataset collection”问题和相关错误得到缓解(这对于顺序预测尤为重要);其次,训练和评估时间码的路径相同,因此在生产中的实现既容易,又不易出错。 请注意,此设置中的评估时间开销很小,因此没有诱惑来重写生产算法。 引入了测试时间开销,但是可以通过使用额外的注释修饰代码来减轻此负担,从而使学习算法能够适当地记忆。 实在太热了,我想自愿在附近尝试一些顺序的预测任务,以尝试一下。

2013年1月2日,星期三

NIPS 2012趋势

我认为我应该对我今年在NIPS上观察到的一些趋势发表评论,而不是发表论文清单。

深度学习又回来了

For the true faithful 深 learning never left, but for everybody else several recent developments have coalesced in their favor.

首先,数据集越来越大。更大的数据集意味着可以考虑更复杂的模型族而不会过度拟合。一旦数据集变得太大,超过了计算约束,但在10区5 to 106 行和102 to 103 columns 深 learning computational costs are tolerable, 和 this zone contains many data sets of high economic value.

第二,数据集已经公开。称之为 卡格勒 如果您愿意的话,会产生影响,尽管纯粹是学术项目,例如 影像网 也很重要一旦更大的兴趣数据集成为公众有意义的技术比较就成为可能。这是一篇快速的论文阅读提示:论文的那一部分讨论论文的方法比其他方法更好,您可以跳过该部分,因为该部分中的数字受到特定的选择压力:作者不断试验他们的技术,直到证明它更好为止,而他们对竞争技术却没有同样的热情。另一方面,如果存在这样一种情况,技术A的支持者在数据集上尽可能地努力,而技术B的支持者在数据集上尽可能地努力,那么知道谁做得更好就更有趣了。 。深度学习社区受益于此类匹配,因为归根结底,它们非常注重经验。

第三,数据集变得更加多样化。如果您对域有足够的直觉来选择特征和/或内核,则线性方法会很好用。在没有领域知识的情况下,非凸优化可以提供替代。

These trends are buoyed by the rise of multicore 和 GPU powered computers. While 深 learning is typically synonymous with 深 neural networks, we can step back 和 say 深 learning is 真 about learning via nonconvex optimization, typically powered by SGD. Unfortunately SGD does poorly in the distributed setting because of high bandwidth requirements. A single computer with multicores or multiple GPU cards is essentially a little cluster with a high-speed interconnect which helps workaround some of the limitations of SGD (along with pipeling 和 mini-batching). I think the near-future favors the GPU approach to 深 learning over the distributed approach (as exemplified by 信仰区), since there is economic pressure to increase the memory bandwidth to the GPU for computer gaming. I'm partial to the distributed approach to 深 learning because in practice the operational store of data is often a cluster so 原位 操纵是可取的。不幸的是,我认为这将需要一种截然不同的方法,即选择非凸性,其明确的设计目标是允许有效的分布式优化。在这些方面取得突破之前,我的钱都花在了GPU上。

概率编程

概率编程是一种建模方式,其中用户以声明方式对生成的模型和一些所需的后验摘要进行编码,然后系统将该规范转换为答案。
声明性系统是计算机科学中纯正的典范。在实践中,声明性系统面临采用方面的障碍,因为除非所讨论的域被很好地抽象,否则最终用户不可避免地会发现特定于域的语言的局限性难以忍受。如果领域是抽象的,那么如果存在广泛适用的通用策略和优化,声明式系统就会蓬勃发展,因为即使是最有经验和才华的程序员也会发现声明式框架更具生产力(至少对于原型设计而言,很可能对于完成的产品)。

因此,这里有个好消息:对于贝叶斯主义者,通过蒙特卡洛进行后验汇总时,大量的机器学习都被很好地抽象了。此外, 没有掉头采样器 看起来像是一种广泛适用的策略,某些其他技术(例如自动微分和符号模型简化)则提供了正确性和(相对)速度的希望。总的来说,这看起来像灌篮。

潜在模型的光谱方法

I 关于此的博客 已经广泛。 tl; dr是频谱方法通过消除E-step保证了更多可扩展的潜在模型学习。以我的经验,主题模型为许多领域中的后续监督分类(不只是文本!)提取了出色的功能,因此实际上这是一个令人兴奋的发展。同样,将主题模型视为提取高阶矩特征值的观点也给出了一些直觉,即它们为何具有广泛的用途。

2012年8月1日,星期三

可扩展的半监督深度学习

While I've always been sympathetic to the goals of 深 learning researchers, in practice 深 learning techniques have 不 played a significant role in my career thus far. I've chosen to work for internet companies that have large amounts of data (behavioural data exhaust) in mostly discrete or textual form (e.g., text search ads, dating profiles, 和 tweets). Thus I have relied exclusively on shallow learning algorithms (linear or mildly nonlinear) 和 hand-tuned feature construction.

如果深度学习很棒,那么就不需要像我这样的人付钱,将原始数据整理成更适合于浅层学习算法的形式。我也不认为历史会善待人类特征工程的能力。文本数据是一个例外,因为它易于使用:天真的编码(例如,一包bigrams)是一个很好的起点,并且有很多可用的辅助信息来源可以与令牌结合使用。相比之下,计算机视觉社区似乎面临着更加困难的问题。尽管从历史上看,按Internet标准来说,它们标记的数据集很小,但是由于众包和公共数据库定义的努力,近年来这种情况已得到缓解。因此,问题似乎在于像素比文本更难以使用。这很直观:文本有时会拼写错误,多义或惯用;但像素必须处理照明,姿势,遮挡等。

Lately a team of 深 learning 和 computer vision people 在 Stanford, Google, 和 New York University have been exciting progress, as evidenced by 这个演讲这个视频。基本思想是利用大规模无监督技术生成特征,然后利用这些特征解决多个有监督的学习问题,即半监督体系结构。对于无监督的部分,他们使用具有神经网络解释的稀疏编码器。值得注意的是,它们不仅针对计算机视觉,还针对各种问题显示出优异的结果。

另一种流行的无监督学习方法是生成概率模型。从历史上看,这在计算上是昂贵的,因为两个最流行的技术系列(蒙特卡罗和变分方法)都不是速度守护程序。如果生成模型可以有效地缩放,那么稀疏编码器可能会赢得一些竞争。

因此,我为 霍夫曼等等 关于随机变异推论(SVI)的论文。对于可变方法,SVI本质上是随机梯度下降(SGD)的类似物。注意SVI已经作为Vowpal Wabbit(VW)潜在Dirichlet分配(LDA)实现的基础已经被证明是可靠的技术,但有一个重要警告:VW LDA实现非常快速,但仅使用一个内核。此警告和与SGD的类比应该在这里引起危险。当适用于单个内核时,SGD通常占主导地位。当梯度计算有些繁琐时,多核SGD通常也占主导地位,就像我们希望将SVI应用于生成模型中一样。另一方面,分布式SGD并不是简单的灌篮,因为I / O考虑开始占主导地位。相应地,分布式SVI在实践中可能效果不佳,至少对于某些没有实现技巧的生成模型而言,这种效果不佳。但是,由于SVI广泛适用,因此值得一试。 (请注意,谷歌家伙所做的一些很酷的事情可以概括为``制作分布式SGD工作'')。

另一个有希望的方向是线性代数方法在诸如LDA之类的潜在模型中的兴起。还记得语义建模和SVD是同义词吗? (如果是这样,您还记得Excite和Lycos。) 阿南库玛(Anandkumar)等等 表明使用两个SVD和三阶(trigram)统计数据可以恢复LDA中的潜在主题结构。在开发可伸缩的分布式线性代数库方面已经付出了巨大的努力,因此,这一研究领域最终可能会产生最快的潜在因子模型实现。