显示带有标签的帖子 集成电路. 显示所有帖子
显示带有标签的帖子 集成电路. 显示所有帖子

2016年7月4日,星期一

集成电路 2016思想

集成电路对我来说太大了,无法对其进行``审查'',但是我可以提供近视的观点。

热门话题是深度学习,强化学习和优化。但是有很多话题受到关注。感觉今年深度学习的主导地位降低了。但是深度学习的成功导致了多个特定于应用程序的替代场所(例如CVPR,EMNLP),而ICLR也是一个享有盛誉的场所;因此,今年ICML的深度学习无论是在理论上还是在多模式研究上都是举足轻重的。可以说,强化学习和优化都应部分计入深度学习的足迹;强化学习已经有至少一年的历史了,但是最近优化对非凸问题产生了更大的兴趣,尤其是在深度学习中凭经验可以解决的问题(有时,尽管看似无害的体系结构更改会破坏布丁;但我想)优化社区的一个梦想是识别出仍然难以解决的大于凸的问题,以提供指导。

这是我喜欢的一些论文:
  1. 强类型递归神经网络
    如果您是类型理论方面的专业人士,或者您曾经是一名专业的Haskell程序员,并且不得不弄清楚单子是wtf,那么有争议的标题就很有意义。 tl; dr:如果将度量单位放在循环神经网络的各个组件上,则会发现您正在添加苹果和橙子。 T-LSTM是对标准LSTM的修正,旨在解决该问题,其经验类似。但可以分析。定理1对我来说是个不错的部分:修改后的体系结构显示为使用动态池计算时间卷积。类型一致性可以为架构提供有用的先验吗?这将是令人欢迎的发展。
  2. 问我任何事情:
    用于自然语言处理的动态内存网络
    用于视觉和文本问题解答的动态内存网络
    我还没有登上更多的头衔:每个人似乎都在平等“memory” = “注意当前示例子结构”. If you ask for the layperson's definition, they would say that 记忆 is about stuff you 不能 请参阅此刻(注意:Jason从 端到端存储网络)。除了脚踏车,不可否认这些 迭代注意力架构 问答式问题和超越基准已成为最新技术。请注意,由于反复关注的下一步是合并以前看到和存储的示例,因此该术语的使用“memory”很快就会变得令人反感。
  3. 从Softmax到Sparsemax:
    注意和多标签分类的稀疏模型
    这是softmax层的替代方法(“link function”)用作神经网络的最后一层。 Softmax将$ \ mathbb {R} ^ n $映射到(内部)单纯形,而sparsemax投射到单纯形上。最大的区别是sparsemax可以“hit the corners”,即将某些组件归零。根据经验,将softmax与sparsemax交换时,总任务性能的差异适中,这归因于实验部分的选择压力。那为什么要在意呢?注意机制通常是通过softmax实现的,并且真正稀疏的注意机制可能会更好地(在计算或统计上)扩展到更大的问题(例如涉及 实际 记忆, c.f., previous paragraph).
  4. 指导性成本学习:通过策略优化进行深度逆最优控制
    我发现Inverse RL不直观:Vapnik并不是说不引入困难的中间问题吗?尽管如此,它似乎运行良好。也许要求学习的政策是“rational”在某些成本函数下是否有用,可以减轻样品的复杂性?我不确定,我必须在上面加面条。同时,还会播放有关机器人洗碗的精彩视频!
  5. 深度强化学习的决斗网络架构.
    最好的纸张,因此我不会通过向您指出来增加任何价值。但是,在阅读它之后,请思考为什么学习两件事比学习一件事好。然后重新阅读讨论部分。然后思考一下类似的方差隔离技巧是否适用于您当前的问题。

在研讨会上,我听到了一些有趣的东西:
  1. 杰拉德·特索罗(Gerald Tesauro)擦去了他的旧衣服 神经gam 代码,然后在功能更强大的计算机(他目前的笔记本电脑)上运行它,并获得了更好的结果。不幸的是,如果我们等待足够长的时间,我们无法得出NVIDIA将为我们解决AI的结论。在2个玩家游戏中或更一般地在模拟环境中,计算能力等于更多的数据资源,因为您可以模拟更多。在现实世界中,我们有示例复杂性约束:您必须执行实际操作才能获得实际奖励。但是,就像汽车和飞机比人快一样,因为它们具有不公平的能量优势(我们是100W的机器;飞机是 更高), 我认为“superhuman AI”之所以会出现,是因为样本复杂性的优势,即可以执行更多动作并获得更多奖励(并记住并彼此分享)的分布式机器人集合。因此,真正实现波士顿奇缘而不是NVIDIA是关键。 (同时… buy my vitamins!)
  2. 本·雷赫特(Ben Recht)谈到了 随机超参数优化加速技术 看起来更酷的版本 亚线性调试。以我的经验,这种风格有效。
  3. 莱昂·博托(Leon Bottou)指出,一阶方法现在处于最佳收敛的恒定因子之内,因此必然推论,任何假定的改进都必须非常便宜,因为它只能产生一个恒定因子。在同一演讲中,他还提出了批量标准化方面的合理改进。

2015年7月14日,星期二

集成电路 2015评论

今年的地点确实是最高级的:迷人的法国北部城市里尔,当地人显然在此生活 奶酪,薯条和啤酒 不增重。大量的供应商和招聘人员出席了会议,向饥饿的研究生发放了甜美的赃物。坦白说,如今对于ML研究生来说,很难感到难过:获得英语博士学位意味着对知识的无私奉献,而成为机器学习研究生更像是一名大学篮球运动员。

的 conference was not lacking for entertainment: in case you haven't been paying 在 tention, the enormous success of 深 learning has generated some 关于发明家的争议。之间 斯蒂格勒同名定律塞尔法则, this is of course not surprising, but when they announced the 深 learning panel would have some of the contesting luminaries together on stage, everybody prepped the popcorn. I hope they videotaped it because it did not disappoint.

就趋势而言:首先,“deep”正在吃所有东西,例如 深度指数家庭. However, you knew that already. Second, reinforcement learning is heating up, leveraging advances in 深 learning 和 GPU architecture along with improved optimization strategies. Third, as Leon Bottou's excellent keynote suggested, the technological deficiencies of machine learning are becoming increasingly important as the core science advances: specifically, productivity of humans in creating machine learning models needs to advance, 和 the integration of machine learning with large software systems needs to be made less fragile.

此外,非凸目标函数的重要性正日益增加,“anti”-趋势。首先,分布式优化变得不那么受欢迎了,因为具有4个GPU和1TB RAM的盒子是一个非常有生产力的环境(尤其是对于非凸问题)。考虑到我在云计算和信息服务实验室中的工作,您可以对自己的职业生涯得出自己的结论。其次,有很多关于原始对偶算法的优化论文,尽管它们很酷,但它们似乎比仅原始算法具有较小的影响力,因为后者有更大的机会解决非凸问题。

这是我打算仔细阅读的论文清单。由于我的时差很长,所以这绝不是会议上所有凉爽论文的详尽清单,所以请查看 完整清单.

  1. 通过反向传播进行无监督域自适应. 的 classical technique considers the representation to be fixed 和 reweights the data to simulate a data set drawn from the target domain. 的 深 way is to change the representation so that source 和 target domain are indistinguishable. Neat!
  2. 大规模神经词嵌入中的建模顺序。事实证明word2vec不能拟合数据,并且添加相对位置可以改善嵌入。事后看来,加之偏见是有道理的:无监督预训练的最初梦想是模型复杂性不会成为问题,因为数据将是无限的。出乎意料的是,预训练革命发生在文字而非视觉上。 (类似地,马克思期望无产阶级革命将发生在德国而不是俄罗斯。)
  3. 反事实风险最小化:从记录的匪徒反馈中学习。离线策略评估涉及重要性加权,这可能会引入差异。经验伯恩斯坦告诉我们如何在学习过程中惩罚方差。花生酱和果冻!我为什么没想到…琐事花絮:本文是因果关系研究领域中唯一由伯恩哈德·舍尔科普夫(BernhardSchölkopf)共同撰写的条目。

好的,这是一个简短的列表,但是老实说,几个月前出现在arxiv上时,我已经阅读了大多数我感兴趣的论文,所以那些是我尚未注意到的。

2015年4月21日,星期二

极端多标签分类

提醒:仍有时间提交给 集成电路的极端分类研讨会 今年。

多标签分类很有趣,因为它是通往 结构化预测。尽管可以将多标签视为一组强大的标签,但除非标签数量少或每个实例的活动标签数量受到限制,否则此方法会迅速瓦解。结构化的预测观点是,多标签推理涉及一组遭受联合损失的二进制预测,这满足了 ku句定义 结构化预测。

尼科斯(Nikos)和我最近独立地发现了里德(Reed)和荷尔蒙(Hollmén)的雄辩状态 :
Competitive methods for multi-label data typically invest in learning labels together. To do so in a beneficial way, analysis of label dependence is often seen as a fundamental step, separate 和 prior to constructing a classifier. Some methods invest up to hundreds of times more computational effort in building dependency models, than training the final classifier itself. We extend some recent discussion in the literature 和 provide a 深er analysis, namely, developing the view that label dependence is often introduced by an inadequate base classifier ...
Reed和Hollmén使用神经网络风格的非线性,而Nikos和我使用 随机嵌入和随机核逼近,但是我们的结论是相似的:给定灵活且规则良好的通用非线性,可以在构造分类器时直接对标签依赖关系进行建模;此外,这在计算和统计上都比当前最新技术更有效。

的 use of neural network style nonlinearities for multi-label is extremely reasonable for this setting, imho. Advancing the successes of 深 learning into 结构化预测 is currently a hot topic of research, 和 it is partially tricky because it is unclear how to render an arbitrary 结构化预测 problem onto a structure which is amenable to (SGD) optimization (c.f., 用于顺序推理任务的LSTM). Fortunately, although multi-label has a 结构化预测 interpretation, existing 深 architectures for multi-class require only slight modifications to apply to multi-label. (“那为什么要使用随机方法呢?”,问读者。答案是随机方法分布得很好,我在云计算实验室工作。)

2015年4月12日,星期日

极端分类CFP

CFP 极端分类研讨会2015年已经结束。非常感谢您的提交。我们也有一些非常酷的受邀演讲者,(恕我直言)这是一个热门领域,因此,无论您是否提交材料都应该参加研讨会,我们都将很开心。

2014年8月26日,星期二

更多深度学习的困惑


Yoshua Bengio, one of the luminaries of the 深 learning community, gave multiple talks about 深 learning 在 集成电路 2014 今年。 I like Bengio's focus on the statistical aspects of 深 learning. Here are some thoughts I had in response to his presentations.

通过深度进行正则化

Bengio的话题之一是深度是一种有效的调节器。该论点是这样的:通过组合多层(有限容量)非线性,相对于相似的前导灵活性的浅层模型,整体体系结构能够探索有趣的高柔性模型子集。在这里有趣的是,这些模型具有足够的灵活性来对目标概念进行建模,但是受到足够的约束,仅需适度的数据需求即可学习。这实际上是关于我们正在尝试建模的目标概念的声明(例如,在人工智能任务中)。另一种说法是(释义)“寻找比平滑度假设更具约束力的正则化器,但仍广泛适用于感兴趣的任务。”

是这样吗

As a purely mathematical statement it is definitely true that composing nonlinearities through bottlenecks leads to a subset of larger model space. For example, composing order $d$ polynomial units in a 深 architecture with $m$ levels results in something whose leading order terms are monomials of order $m d$; but many of the terms in a full $m d$ polynomial expansion (aka “shallow architecture”) 缺失。因此,前导顺序具有灵活性,但模型空间有限。但是,这有关系吗?

For me the best evidence comes from that old chestnut MNIST. For many years the Gaussian kernel yielded better results than 深 learning on MNIST among solutions that did not exploit spatial structure. Since the discovery of dropout this is no longer true 和 one can see a gap between the Gaussian kernel (at circa 1.2% test error) 和, e.g., maxout networks (at 0.9% test error). 的 Gaussian kernel essentially works by penalizing all function derivatives, i.e., enforcing smoothness. Now it seems something more powerful is happening with 深 architectures 和 dropout. You might say, “嘿1.2%和0.9%,我们不是要分开头发吗?”但我不这么认为。我怀疑这里还会发生其他事情,但这只是一个猜测,我当然不理解。

的 counterargument is that, to date, the major performance gains in 深 learning happen when the composition by depth is combined with a decomposition of the feature space (e.g., spatial or temporal). In speech the Gaussian kernel (in the highly scalable form of random fourier features) is able to approach the performance of 深 learning on TIMIT, if the 深 net cannot exploit temporal structure, i.e., RFF is competitive with non-convolutional DNNs on this task, but is surpassed by convolutional DNNs. (Of course, from a computational standpoint, a 深 network starts to look downright parsimonious compared to hundreds of thousands of random fourier features, but we're talking statistics here.)

远距离关系的危险

So for general problems it's not clear that ``regularization via depth'' is obviously better than general smoothness regularizers (although I suspect it is). However for problems in computer vision it is intuitive that 深 composition of representations is beneficial. This is because the spatial domain comes with a natural concept of neighborhoods which can be used to beneficially limit model complexity.

对于诸如自然场景理解之类的任务,空间范围有限的各种对象将被放置在众多背景之上的不同相对位置。在这种情况下,歧视的一些关键方面将由本地统计数据确定,而其他方面则由远端统计数据确定。但是,给定一个包含256x256像素图像的训练集,训练集中的每个示例都提供了一对像素的一种实​​现,该像素对向右下方偏移256个像素(即,左上左下右像素)。相反,每个示例都提供一对像素的252 ^ 2 $实现,该像素向右下方偏移4个像素。尽管这些实现不是独立的,但是对于正常摄影比例的自然场景图像,每个训练示例中有关局部依存关系的数据要比远端依存关系多得多。从统计学上讲,这表明尝试估计附近像素之间的高度复杂关系较为安全,但是必须更严格地规范远距离依存关系。深度分层体系结构是实现这些双重目标的一种方法。

One way to appreciate the power of this prior is to note that it applies to model classes not 一般 associated with 深 learning. On the venerated MNIST data set, a Gaussian kernel least squares achieves 1.2% test error (with no training error). Dividing each example into 4 quadrants, computing a Gaussian kernel on each quadrant, 和 then computing Gaussian kernel least squares on the resulting 4-vectors achieves 0.96% test error (with no training error). 的 difference between the Gaussian kernel 和 the “deep”高斯核是建模远端像素交互的能力受到限制。尽管我还没有尝试过,但我相信通过约束从根到叶的每条路径以包含空间上相邻像素的分割,可以类似地改善决策树集合。

这是附近美好的一天

的 outstanding success of hard-wiring hierarchical spatial structure into a 深 architecture for computer vision has motivated the search for similar concepts of local neighborhoods for other tasks such as speech recognition 和 natural language processing. For temporal data time provides a natural concept of locality, but for text data the situation is more opaque. Lexical distance in a sentence is only a moderate indicator of semantic distance, which is why much of NLP is about uncovering latent structure (e.g., topic modeling, parsing). One line of active research synthesizes NLP techniques with 深 architectures hierarchically defined given a traditional NLP decomposition of the input.

对用文字表达邻里关系的相对困难的另一种回应是问“can I learn the neighborhood structure instead, just using a general 深 architecture?”从头开始学习是一种自然的吸引力,尤其是当直觉用尽时;但是,在视觉上,当前有必要将空间结构硬连接到模型中,以获取接近最新技术水平的性能(给定当前数据和计算资源)。

因此,对于例如机器翻译的良好解决方案将在多大程度上涉及手工指定的先验知识与从数据得出的知识之间是一个悬而未决的问题。这听起来像旧的“nature vs. nuture”认知科学方面的争论,但是我怀疑在这个问题上会取得更多进展,因为现在辩论是通过实际尝试设计执行相关任务的系统而获得的。

2014年6月30日,星期一

集成电路 2014评论

集成电路 2014取得了不错的成绩,对组织者表示敬意。地点(北京)和CVPR的重叠无疑影响了与会者的分布,因此会议感觉与去年不同。 (我还了解到,我的博客已被中国屏蔽,谷歌与中国政府之间发生了一些口角,造成了附带损害)。

Deep learning was by far the most popular conference track, to the extent that the conference room for this track was overwhelmed 和 beyond standing room only. I missed several talks I wanted to 在 tend because there was no physical possibility of entrance. This is despite the fact that many 深 learning luminaries 和 their grad students were 在 CVPR. Fortunately Yoshua Bengio chose 集成电路 和 via several talks provided enough insight into 深 learning to merit another blog post. Overall the theme is: having conquered computer vision, 深 learning researchers are now turning their 在 tention to natural language text, with some notable early successes, e.g., 段落矢量。当然,该品牌的销量很高,这解释了一些纸质标题的选择,例如,“深 boosting”。还有一个会议标题为“神经理论与光谱方法”...有趣的床友!

ADMM突然变得流行(大约在18个月前,由于想法,会议提交和演示之间的延迟)。通过这种方式,我并不是说要使用ADMM进行分布式优化,尽管有很多。相反,有几篇使用ADMM解决受约束的优化问题的论文,否则这些问题将很烦人。带回家的课程是:在针对您遇到的任何受限优化问题提出定制的求解器之前,请尝试ADMM。

现在获取洗衣清单(也请注意上述纸张):
  1. 非平稳函数的贝叶斯优化的输入变形。如果要引起社区的注意,就必须打号码,所以不要带着刀子进行枪战。
  2. 通过主动子空间选择使核规范最小化。无与伦比的谢祖瑞再次做到了,这次将主动变量方法的思想应用到核规范的正则化中。
  3. 驯服怪物:上下文盗贼的快速简单算法。不可知论语境盗贼所需的计算复杂性得到了显着改善。
  4. 高效的可编程学习搜索。自NIPS以来,命令式编程的其他改进。如果您要进行结构化预测,尤其是在需要将产品投入生产的工业环境中,则需要研究这种方法。首先,它减轻了指定复杂的结构化预测任务的负担。其次,它减少了培训和评估之间的差异,这不仅意味着更快的部署,而且还减少了实验与生产系统之间引入的缺陷。
  5. 不变位移核的准蒙特卡洛特征图 。确认准随机数可以更好地适用于随机特征图。
  6. 单次通过算法可有效恢复高维数据的稀疏聚类中心。我需要在本文上花一些时间。
  7. 多分辨率矩阵分解。 Nikos和我通过使用经典矩阵分解来学习判别表示法时非常幸运。我希望可以对这种新的分解技术进行类似的调整。
  8. 基于样本的近似正则化。我发现依赖数据的正则化很有希望(例如,最小二乘法的遗失等效于无标度L2正则化器),因此本文引起了我的注意。
  9. 适应性和乐观:改进的指数梯度算法。本文没有进行任何实验,因此也许这是``纯粹的理论胜利'',但看起来很有趣。

2013年6月22日,星期六

集成电路 2013:稀疏,深度和随机

集成电路 2013 对组织者来说,这是今年的一次伟大的会议。 对于个人来说,要全面了解所有内容实在太大了,但我确实注意到了三种趋势。

首先,稀疏性作为一种结构性约束似乎无处不在。 由于我对该子领域知之甚少,因此我非常关注最初两分钟的谈话,这些谈话通常会(很快地)讨论一些基本问题,例如,“人们为什么完全关心稀疏性?”.  我听到了一些通用动机,例如计算便利性和清晰度。 我还听到了一些具体的动机,例如 阿南库玛(Anandkumar)等等 表明对于特定的生成模型结构,可以通过稀疏编码技术来识别参数; Ruvolo和Eaton主张 模型的稀疏编码 在多任务学习中促进任务之间的知识转移。

Second, 深 learning continues to enjoy a resurgence.  特别是两次演讲提出了一些重要的未来方向。 The first was a talk by Coates about 深 learning on the following architecture: 16台带有4个GPU的机器,每个通过infiniband连接.  我在这个博客上抱怨过SGD的高通信成本如何使它成为一种不良的分布式学习算法,但Coates等。等直接用硬件来解决这个问题。 这显然是不久的将来。 最重要的是,我们确实没有更好的神经网络训练算法,但是解决问题的经济性非常重要,以至于有可能“throw hardware 在 it”,硬件将被抛出。 The second talk was 递归神经网络训练的难点 由Pascanu等等人讨论了在递归环境中基于梯度的学习的一些改进。 It's clear that the 深 learning guys, having dominated the “natural UI”在移动空间中如此重要的问题(例如语音识别和图像标记)现在正在寻求控制顺序预测任务(随着自治系统的普及,其重要性将日益增加)。 他们将与核心人员展开激烈的竞争:Le Song在精彩的演讲中 条件分布的希尔伯特空间嵌入 应用于顺序预测。

说到内核家伙,第三个主题是随机的,尤其是Alex Smola的演讲 核学习的快速随机逼近 (“FastFood”) was a real treat.  据推测,随机计算技术与条件分布的希尔伯特空间表示相结合,将产生用于顺序预测和其他潜在建模任务的强大算法。 在这方面的另一个突出表现是Mahoney的演讲 回顾Nyström方法以改善大型机器学习.

Note unlike the first two themes (sparse 和 深), I wouldn't say random is a broadly popular theme yet.  我个人对此感到非常兴奋,并且我认为对机器学习的影响很大,尤其是在分布式环境中。 基本上,使用这些随机算法的数值线性代数专家一直在研究“架构感知计算”多年以来,机器学习社区才开始意识到这一点。 想要一窥这对您意味着什么,请考虑戴维·格莱希(David Gleich)关于 Hadoop中的瘦身QR分解.

最后,我不得不提到John Langford和HalDaumé进行了关于命令式学习的精彩演讲,这与上述任何内容都不适合。 我找不到任何在线资料,这很不幸,因为这真的很酷,而且如果您曾经将机器学习算法应用于现有的生产系统中,那么您会立即喜欢上它。 基本思想是您,最终用户,程序“normally”并调用实现为协同程序的学习算法。 这有两个优点:首先,该算法自然地体验了由程序引起的决策的分布,因此“dataset collection”问题和相关错误得到缓解(这对于顺序预测尤为重要);其次,训练和评估时间码的路径相同,因此在生产中的实现既容易,又不易出错。 请注意,此设置中的评估时间开销很小,因此没有诱惑来重写生产算法。 引入了测试时间开销,但是可以通过使用额外的注释修饰代码来减轻此负担,从而使学习算法能够适当地记忆。 实在太热了,我想自愿在附近尝试一些顺序的预测任务,以尝试一下。

2012年6月29日,星期五

我的ICML 2012杰出人物

我已经在整个博客文章中投入了一些ICML 2012论文,但是还有其他一些论文引起了我的注意,对此我仅作简单评论。

  • 通过主动学习进行在线结构化预测: 阅读 完整的博客文章.
  • 用排名损失预测准确的概率: 阅读 完整的博客文章.
  • 在单词观察中训练受限的Boltzmann机器. I haven't used RBMs in over a decade, for practical text classification problems a bag-of-bigrams representation is often sufficient, 和 LDA is my go-to technique for unsupervised feature extraction for text. So why do I like this 纸? First, the computational efficiency improvement appears substantial, which is always of interest: I like 深 learning in theory, but in practice I'm very impatient. Second the idea of discovering higher order structure in text (5-grams!) is intriguing. Third (like LDA) the technique is clearly more generally applicable 和 I wonder what it would do on a social graph. That all suggests there is some chance that I might 实际ly try this on a real problem.
  • 新功能实用程序的快速预测:我一直处于尝试选择下一个要尝试的功能的情况,并且与损失函数的负梯度相关联很直观。
  • 用于测试在线可交换性的插件Martingales:如果在线学习模式下的大众汽车输出警告说``输入数据似乎不是由可交换的分布生成的,那会是多么棒;尝试随机改组数据以提高通用性。''
  • 局部判别高斯降维:这似乎迫在眉睫。主要限制是它是一种有监督的降维技术,因此它适用于以下情况:存在标记数据不足的问题和使用相同特征且具有大量标记数据的相关问题(这是特例)的 转移学习)。我通常会在``少量标记数据和大量未标记数据''案例中发现自己需要无监督技术,但这可能是因为我没有经常问自己以下问题:``是否存在一个相关问题与之相关的大量训练数据吗?''
  • 使用最小图聚类查找僵尸网络: 非常有趣。一次面试中有人问我如何处理从搜索日志中识别和过滤自动流量。没有``正确答案'',而且黑字母机器学习技术显然不适用,因此创造力非常重要。

2011年7月8日,星期五

集成电路 2011著名人物

以下是我标记为要跟进的一些论文,不分先后顺序:
  • 最小概率流 (强积金)。通过避免计算分区函数,可以更快地训练各种概率模型。既然我迷恋速度,这引起了我的注意:我基本上忽略了很多技术,因为我认为它们太慢了。也许这是改变游戏规则的人?我必须尝试尝试确定的东西。
  • 文本的稀疏加性生成模型 (智者)。我猜想作者最初对稀疏的LDA感兴趣,但是发现多项式令牌发射规范不利于这种操纵。无论如何,我的总结是:用LDA的令牌排放模型中的对数概率替换概率,并将排放相对于背景(令牌频率)居中。有两个主要好处:1)最终的按主题的说明可以非常稀疏,因为它们仅建模与背景的差异。 2)可以通过(日志)加法而不是(概率)乘法来处理其他潜在参数。不幸的是,更新中埋有一个分区术语,它是$ O(| V |)$,其中$ V $是词汇。也许SAGE的作者应该和MPF的作者交谈:)
  • 通过保留订单损失和标准化监督来学习评分功能。本文的目的是弄清何时对目标函数进行排序会降低对具有得分函数的回归或成对分类的影响。公式6具有在Vowpal Wabbit中实施的正确结构,并且有一致的方法可以减少 DCG 和NDCG埋在这里,如果我能弄清楚的话:)
  • 自适应学习人群内核。的概括 MDS 使用基于三元组的相对相似性而不是绝对相似性。这真是太棒了,因为很难从人们那里获得绝对相似性的判断,而基于三重态的相对相似性(``对象$ a $更类似于$ b $或$ c $吗?'')是很自然的。
此外,受邀的演讲者都很棒,星期四下午受邀的交叉会议特别有趣。