2015年12月15日,星期二

NIPS 2015评论

从字面上看,NIPS 2015的规模比以往任何时候都要大:大约3700名与会者,这是去年的两倍左右,而后者又是前一年的两倍。这显然是不可持续的,但是鉴于供应商和招聘活动的疯狂程度,也许还有增长的空间。然而,主要会议是单轨会议,已经进行了3天:因此,海报发布会将采取更多行动,与发布会一起,营造出各种小型会议的感觉。显然,我对行动的看法将是高度不完整的,并偏向于我自己的利益。

强化学习

强化学习不断提高,扩展了ICML的热情和精力。的“Imagenet moment”因为RL是Deepmind在 街机学习环境。在演讲中 深度RL研讨会, 迈克尔·保龄球 提出的证据表明,性能的大幅提升主要表现为1)使用卷积网络更好地解码屏幕,以及2)使用多个先前帧作为输入。这并不是要破坏突破,而是要指出,这种进步并未解决RL的困难部分(长动作序列的部分反馈)。有趣的是,目前还没有一个擅长玩陷阱的系统,这需要很长的动作序列才能获得奖励。保龄球的名言是我们擅长比赛“您随机摇动操纵杆,您将获得一些回报。 ”

但是,社区并没有停滞不前:现在,如此多的热情和人才正朝着这个方向思考,所以进步有望加速。例如,我经常看到的一个想法是:部分地观察到了奖励(稀疏!),但是不断地观察到了感官输入。因此,将对未来奖励的预测分解为以下各项的组合:1)预测以动作序列为条件的未来感觉输入,以及2)预测给定感觉输入的奖励。从样本复杂性的角度来看,这很有道理。如 李洪立 他在Deep RL研讨会上的演讲中指出,相同的技术为 变压器网络 可以学会预测以动作序列为条件的未来感官输入,可以将其用于模拟播放。 (如果您了解POMDP,则分解可能没有意义,因为您不一定可以从当前的感觉状态预测奖励;但是我们必须先爬网才能行走,并且可能可以构成逐个序列学习的想法通过这种分解可以对不可观察的世界状态进行建模。)

另一个流行的强化学习主题是需要更好的探索策略。我怀疑这是真正重要的部分:我们如何以一种与我们的假设类别(可能相对较小,冗余且充满结构性假设)相关的方式来进行遗憾探索,而不是探索世界本身(哪一个大)这就是背景强盗的作用:如果所有好的政策都想要采取相同的行动,那么探索就没有那么重要了。在会议上,流行语是“intrinsic motivation”, roughly meaning “是否有一个有用的进度代理可以应用于所有未观察到奖励的动作序列?”。给定奖励预测分解为(动作序列条件的感觉输入预测+感觉奖励预测),则发现新颖的感觉状态是有用的训练数据,大致可转化为探索策略。“大胆地去你从未去过的地方”希望它不会杀死你。

最后,我有一些轶事证据表明,强化学习正在走向成熟的工业技术:在ICML上,我与Deepmind的人们交谈时,他们会说他们正在从事强化学习的某些技术方面的工作。这次我得到了类似的答案“I'm doing RL 对于 ads” or “我正在为建议做RL”。这是一个很大的变化。

其他的东西

会议上还有其他有趣的话题,我仍在收集我的想法。
  1. 我真的很喜欢最好的纸 竞争性分配估算:为什么好转好,我怀疑这与极端分类有关。
  2. 布朗和桑德霍尔姆正在做他们的惊人的事情 单挑无限注扑克玩家。这是其中之一“我们可能没有了解人类如何解决问题,但它仍然是很酷的技术。”肚脐凝视不是一切!
  3. 我仍然喜欢内核的原始近似(在极端分类中,我们必须拥抱线性预测变量),所以我喜欢 多项式核的球面随机特征.
  4. 我想尝试 在线F测度优化。 F量度是极端分类中的重要指标,但仅对其进行计算就很难了,而不必直接对其进行优化。也许现在不一样了。
  5. 自动化机器学习 aka AutoML逐渐升温。近期目标之一是消除对典型的有监督学习设置中的专业知识的需求。海报 高效,强大的自动化机器学习 是一个有趣的例子。的 AutoML挑战 在CIML研讨会上,持续的挑战也值得关注。 IBM在他们的聚会上还展示了一个很酷的AutoML产品演示(从名称上讲:这些东西的含义是什么?他们显然是在招聘职能,但他们伪装成一个由书呆子和讨厌的朋友抛出的大学聚会)。
  6. 记忆系统,在会议上以 端到端存储网络 纸,并在研讨会上 RAM研讨会。我特别喜欢 注意 作为减轻样本复杂性的一种机制:如果您不关注某件事,那么您不变的事情就是这样做,这极大地减轻了数据需求,当然您会假设您忽略了无关紧要的东西。从统计上讲它是否便宜一些 什么 重要而不是 怎么样 重要的是,为后者保留宝贵的数据资源?我不确定,但是 学习唤醒睡眠经常性注意力模型 在我的阅读清单上。
  7. 公路网 看起来很甜蜜通过身份转换进行初始化的想法很有意义。例如,所有现有的深度网络都可以被视为高速公路网络,其中有超过一定深度(即不完全优化)的身份转换层数不计其数。“infinitely 深” highway networks.
  8. 极端分类 仍然是活跃区域, 作坊 考虑到我们在RAM研讨会的对面(当时这是仅在客厅使用的违反消防法规的活动),因此参加会议的人员相当多。我特别喜欢Charles Elkan的演讲,我可以总结为“我们只需要计算大量的稀疏GLM,我正在努力做到这一点 .” My own work with 分层频谱方法 确实表明,如果我们可以计算出GLM,它将具有出色的性能,所以我喜欢这条攻击线(也可以想象,我可以组合两种技术)。也很有趣:对于平方损失,如果特征维数较小,则可以通过以下方式在标签稀疏时间中计算出准确的损失梯度: 高效的精确梯度更新,用于训练具有超大稀疏目标的深层网络。这对于在输出层之前具有低维瓶颈的典型神经网络非常有用(不幸的是,它对于大型的稀疏GLM并不能按原样使用,但也许可以修改此技巧吗?)。
  9. 路径SGD
    could be a cool trick 对于 更好 optimization of 深 networks via eliminating one pesky invariant.
  10. 反事实学习的自归一化估计量。如果您喜欢强化学习,那么您应该喜欢反事实评估,因为后者为前者提供了关键的见解。我需要与提议的估算器一起使用,但看起来似乎更好。
  11. 驯服狂野:Hogwild风格算法的统一分析。虽然我有很多 霍格威尔德和矩阵分解共同发挥作用的经验证据,此分析声称他们应该一起玩。整齐!
  12. 最后但并非最不重要的一点是 机器学习系统 CISL同事Markus Weimer共同组织的研讨会。虽然不是很违反消防规范,但它只是站立的空间。

2015年11月30日,星期一

样本方差惩罚

在大多数情况下,有监督的机器学习是通过优化训练集上的平均损失(即经验风险最小化)来完成的,也许添加了(通常不依赖数据)正则化术语。但是,有一篇不错的论文毛雷尔(Maurer)和庞蒂尔(Pontil)几年前的介绍 样本方差惩罚。基本思想是在训练集上优化损失的第一刻和第二刻的组合:这是由经验伯恩斯坦界限,霍夫丁界限的精炼(这是经验风险最小化的正式基础)很好地激发的。除其他外,界限表示,在给定两个具有相同平均经验损失的假设的情况下,您应该偏向于具有较低经验损失方差的假设。一般而言,优化边界会导致目标函数\ [
f(w)= \ mathbb {E} [l(y,h(x; w))] + \ kappa \ sqrt {\ mathbb {E} \ left [\ left(l(y,h(x; w) )-\ mathbb {E} [l(y,h(x; w))] \ right)^ 2 \ right]} \ doteq \ mu(l; w)+ \ kapp \ \ sigma(l; w),
\]期望值超出训练集,即只是写出经验平均值的一种简洁方法; $ h(x; w)$是由向量$ w $参数化的某些假设类别,$ l $是损失,$ y $是标签,$ \ kapp $是(还有!)超参数。

据我所知,这并没有真正起飞(尽管 事实风险最小化 使用它,这非常酷)。目标是非凸面的,这在当时可能是负面特征。该目标还涉及批次数量,也许这是负数。如今,无论如何,我们都在进行非凸目标的小批量训练,因此SVP值得一提。如果您打开曲柄,则会得到\ [
\ nabla_w f(w)= \ mathbb {E} \ left [\ left(1 + \ kappa \ frac {l(y,h(x; w))-\ mu(l; w)} {\ sigma(l ; w)} \ right)\ nabla_w l(y,h(x; w))\ right],
\]看起来像是SGD,其学习速度可变:比平均损失差的示例获得更高的学习率,而比平均损失更好的示例获得更低(可能为负!)的学习率。度量单位定义“worse” 和 “better”是损失方差。在实践中,我发现负面的学习率令人反感,因此我将下界定为零,但是对于$ \ kappa $有用的值(0.25是一个很好的初始猜测),通常并不重要。

批次数量$ \ mu(l; w)$和$ \ sigma(l; w)$看起来很痛苦,但以我的经验,您可以用小批量估计替换它们,这仍然很有帮助。使用此技术,我在解决一些问题时变得谦虚但始终如一, 极限学习 (神经)语言建模等问题。当然,您应该只考虑在怀疑所需模型类将过拟合并且正则化很重要的问题上应用此技术:极端学习问题具有这种结构,因为许多尾类都具有接近单例的支持。 YMMV。

2015年10月13日,星期二

2016年KDD杯CFP

KDD杯是 征求意见 为他们的下一场比赛。对于KDD杯来说,事情变得棘手,因为 CJ的班级不断获胜。从本质上讲,我们了解到,许多特征工程和大型合奏在监督学习任务中表现良好。但是,实际上,CJ通过直接证明某些类型的监督学习非常成熟,为我们赢得了帮助。如果KDD Cup是Kaggle,那会很好,因为此类模型仍具有巨大的经济价值。但是,KDD杯的重点是要进行进一步的研究,因此也要泡菜。

当然,不缺少使合理的竞争主题成为可能的研究方向。可以说,挑战是如何组织挑战。在监督学习的情况下,游戏非常清晰:这是一个带有标签的训练集,这是一个没有标签的测试集,提交答案。有一些复杂的可能 运行排行榜,但大多数情况下,有监督的学习竞赛是一个简单的设置。但是,额外的复杂性将需要一些创新。这里有些例子。
  1. 非平稳环境。在现实生活中,环境正在明显地或对抗性地变化。竞赛可以探索这一点,但大概无法发布测试集来模拟“fog of war”。因此,这意味着提交必须是可执行的,必须定义用于评分的协议等等。某人必须做一些基础结构工作才能使所有事情发生。
  2. 自动化培训 在这种情况下,比赛甚至不会发布训练集!取而代之的是提交能够采用训练集并生成可在测试集上评估的模型的算法。显然,需要基础设施工作来促进这一点。
  3. 计算约束 邪恶的合奏在现实生活中不会获胜,因为没人会部署这样的模型。实际模型受空间和时间约束。 Soeren Sonnenburg组织了一次 大规模学习挑战 几年前,它试图在计算和样本复杂性约束下评估性能。这是令人钦佩的第一步,但存在一些问题。一个很大的问题:很难提出一个排名函数(在现实生活中:如果可以证明性能有所提高,通常可以协商更多的服务器内存和/或延迟,但是尚不清楚权衡取舍) 。还有其他一些小问题,例如,参与者必须定时自己的算法。此外,竞争并没有解决最终模型的空间复杂性,以我的经验,这非常重要:太大的模型不适合生产机器(考虑到所有其他情况),并且/或者更新时间太长。因此,在这一领域中,竞争设计肯定有创新的空间。
  4. 部分反馈 称之为情境强盗,强化学习,…哎呀,叫香蕉。对于我处理的几乎所有问题,都有一个闭环,其中算法的操作决定了数据的收集。比赛可能会释放部分观察到的历史记录以初始化策略,但实际测试应涉及在线操作,在线行为会产生反馈,从而更新模型等。
上面的共同点是需要定义到竞赛的运行时环境中的接口,当然还要定义运行时环境的实现。但是在某些情况下,还需要定义目标函数。

2015年9月20日,星期日

心电图 2015审查

心电图 今年很高兴。波尔图绝对是参加会议的最佳欧洲城市的候选名单。组织者做了出色的工作,将当地的魅力注入了日程安排中,例如在 泰勒的 was a delight. It's a wine city, 和 fittingly wine was served throughout the conference. During the day I stuck to coffee: jet lag, soft lights, 和 whispered mathematics are sedating enough without substituting coffee 对于 alcohol. 的re is no question, 怎么样ever, that poster sessions are far 更好 with a bit of social lubrication.

主题演讲始终出色。对我来说,一些突出之处是:
  • 佩德罗斯·多明戈斯(Pedros Domingos)介绍了他的 最新的求和产品网络 作为一类非凸函数,可以针对其找到一个全局最大值。机器学习被凸函数所困扰,因为它是一类大类,因此对于它而言,找到全局最大值很容易。最近,深度学习社区令人信服地指出,凸度太局限了,因此我们都对更多``细腻''的优化程序越来越满意。也许我们需要的是不同的函数类?
  • Hendrik Blockeel谈到了声明式机器学习。我在系统-ML组合小组中工作,我可以告诉您系统的人们喜欢这个想法。他们所有人都了解了关系代数如何通过SQL引发数据库的声明性革命,并将机器学习中的当前事务状态视为SQL之前的混乱。
  • Jure Leskovec进行了一个未经宣布的主题更改,并发表了一个神话般的主题演讲,可以将其解释为:``嘿,机器学习人员可能会对公共政策产生很大影响,但首先您需要了解反事实估计的原理和陷阱。 ''我完全同意,cf, 盖尔曼。 (Jure还对时间考验论文进行了讨论 克罗内克图
  • Natasa Milic-Frayling详细介绍了(尽管有些不屑一顾)数字网络和移动广告公司用于跟踪和描述用户的多种技术。所有人都非常熟悉,因为我从事计算广告工作已经有多年了,但是从社会学的角度来看,广告网络的ung头态度与欧洲对隐私的高度重视并存是很有趣的。
还有一些论文,我将在这些论文上度过美好的时光。

2015年9月2日,星期三

学习系统 NIPS Workshop CFP

CISL是我在Microsoft工作的研究小组。该团队汇集了系统专家和机器学习专家,以使这两个学科相互交流。这也是 学习系统 由NIPS 2015接受的研讨会,由 马库斯·韦默(Markus Weimer) 来自CISL。

如果听起来像您喝杯茶,请查看 CFP和consider submitting your work.

此外,CISL正在招聘:因此,如果这真的是您的最佳选择,请将简历发送给我(至我博客右上角的地址);或在蒙特利尔的工作坊中自我介绍。

2015年8月17日,星期一

美国需要更多的H1B签证,但(可能)不会获得它们

的 current US political climate is increasingly 抗-immigration, including high-skilled immigration. This 不 only makes much-needed reforms of the H1B visa system increasingly unlikely, but suggests the program might be considerably scaled back. Unfortunately, I've been dealing with H1B-induced annoyances my entire career so far, 和 it looks to continue. 的 latest: my 在tempt to hire an internal transfer 在 Microsoft was stymied because the change in position would reset their H1B visa application. Note this is someone who already is in the United States 和 already works 在 Microsoft.

因此,很明显,移民法律的目的不是优化分配效率或人类福利。但是,也许有一种更冷漠的计算支持当前政权?我不这么认为。

经济民族主义。 如果移民法的重点是使美国变得更加富有,那是失败的。借助技术,劳动者可以(断断续续!)通过电力和互联网在任何地方创造价值。所有的移民限制措施都是教会公司如何在其本国市场上获得人才。美国不仅会损失直接税收,还会损失诸如住房,基础设施,交通,教育,娱乐,育儿等需求的次要经济活动。 在温哥华的足迹不断增加,那里的移民法更加理智。有趣的旁注:移民法使与温哥华办事处员工的合作变得更加复杂,例如,他们不能太频繁地在雷德蒙德进行现场拜访。三(布朗克斯)欢呼法规。

保护美国工人。 好的,也许这些法规并没有帮助整个美国,但确实使国内技术工人受益。我不买它,因为由此导致的劳动议价能力下降,降低了工作场所的质量。让我解释。未获得绿卡的技术工作者具有两个非常奇怪的属性:首先,他们有大量的非金钱补偿(以绿卡过程中的法律协助形式提供);其次,在签证过程中,他们更换工作的自由有限。这两种影响相结合,大大降低了外国技术工人的讨价还价能力,而外国技术工人又愿意接受更少的钱和更恶劣的工作条件。因此,由于部分劳动力无法有效地进行谈判,家庭工人对雇主的集体影响力降低了。如果放宽签证限制,那么国内外雇员的劳动条件都会改善。

促进创新。 我们当前政策的另一个失败之处。我的职业生涯前半段是在初创公司中度过的,每个人至少都有一张绿卡(如果没有护照)。签证流程中没有人能够承受初创公司固有的波动性(请注意: 停火 用于转换“missing payroll”进入出色的电视)。最终的结果是,初创公司渴望获得的人力资本与大型企业不成比例,因为后者具有资本和专业知识,既可以驾驭法律程序,又可以直接参与海外劳动力市场。在职者胜于叛乱者?并非完全是创造性破坏的公式。

总结一下:我对美国选民的当前情绪感到非常不满。这不仅意味着,对国家也有害。

顺便说一句,如果您正在寻找工作,请按照我博客右上角的指示与我联系。自从我开始工作以来,我的博客一直在不断宣传我的工作职位,因为我的整个职业生涯都一直在空缺职位的团队中工作。真有趣。

2015年8月10日,星期一

纸质评论与代码评论

因为我正在经历 NIPS 现在的提交过程,与 ICLR 提交过程很重要。 NIPS提交过程是一种更为传统的过程,在该过程中,首先将(匿名)提交发送给(匿名)审稿人,后者提供反馈,然后作者就有机会对反馈进行回应。 ICLR提交过程更加流畅:将非匿名提交发送给匿名评论者,后者提供反馈,然后作者和评论者进入一个周期,在此周期中,作者更新arxiv提交,评论者提供进一步的反馈。 (ICLR也有公开评论,但我不再赘述)。注意,在传统模型中,审阅者必须想象最终版本中我(承诺的)更改将是什么样子。

传统模型是从一个时代开始的,即纸张是实际的物理对象,该对象是通过蜗牛发送(通过蜗牛邮件!)发送给审阅者的,这些审阅者使用墨水笔为它们标记,希望技术的进步使我们能够开发出更有效的过程。我认为我们应该寻求软件工程的启发。作为研究人员和软件工程师,我非常感谢 外骨骼机器人 区别。在这种情况下,科学的外骨骼姿态使其适用于纸质评论的弹道概念,其中已完成或已拒绝的工作单元;工程更多是关于协作持续改进。确实,大多数期刊和一些会议采用了更加灵活的审查流程,“conditional accepts”(更改需要重新审核)和“shepherds”(致力于通过多轮审阅指导论文的审阅者)。这些过程给审阅者带来了更多负担,审阅者正在提供有价值的服务来帮助某人改进他们的工作,而无需给予任何补偿或认可。自然而然地,会议可能会犹豫不决,要求其志愿者审阅者对此提出要求。

解决方案是减轻各方认知和后勤负担的技术。代码审查与书面审查具有相同的广泛目标:通过同行反馈提高质量。我们可以从代码审查中学到一些东西:
  1. 增量审查。很少有程序员从头开发复杂的软件。大多数评论是关于大型软件的相对较小的更改。为了减轻审阅者的认知负担,将审阅更改,而不是整个新版本。可视化技术用于提高变更审核的生产率。
    1. 在这方面,论文的最初提交与典型的代码审阅是不同的,但是随后的修订周期与此非常吻合。
  2. 模块化更新。当程序员对一个软件进行几项不同的更改时,这些更改(在可能的范围内)被设计为可互换和独立审查。技术用于促进变化(被接受的子集)的组合。
    1. 这与审核过程非常吻合,因为不同的审核者的反馈类似于 问题.
  3. 最小的清洁变化。聪明的程序员将使他们的更改在审查中最为清晰。这意味着很少“easy”诸如避免在语义上等效的词汇变化之类的事情。这也意味着清理程序的控制流与创建较大的更改之间存在紧张关系。

加上保留所有相关方匿名性的能力,您将拥有一个非常漂亮的论文评审平台,该平台可以合理地加快所有科学领域的步伐,同时提高质量。

这正是政府应资助的公共物品。学术界有人:写一份赠款!

2015年7月23日,星期四

极端分类代码发布


极端分类讲习班集成电路 2015 今年是爆炸。我们从强势开始,Manik Varma演示了如何使用商用笔记本电脑绕过其他学习算法。我们取得了不错的成绩,Alexandru Niculescu通过“反对另一种合理的选择”推理。看看 整个程序!

对于即将举行的活动,ECML 2015将举办一个名为“ 大的多目标预测。此外,还有关于NIPS 2015研讨会的传言。

同时,我已经 推送到github 极端的参考实现 嵌入分类 我和Nikos一直在研究的技术。这里有两个非常简单的想法在起作用。首先是使用 特定矩阵的(随机)SVD 作为标签嵌入,其次是对内核计算机的随机近似的使用。

2015年7月14日,星期二

集成电路 2015评论

今年的地点确实是最高级的:迷人的法国北部城市里尔,当地人显然在此生活 奶酪,薯条和啤酒 不增重。大量的供应商和招聘人员出席了会议,向饥饿的研究生发放了甜美的赃物。坦白说,如今对于ML研究生来说,很难感到难过:获得英语博士学位意味着对知识的无私奉献,而成为机器学习研究生更像是一名大学篮球运动员。

这次会议不乏娱乐性:如果您没有引起注意,深度学习的巨大成功将为您带来一些收获。 关于发明家的争议。之间 斯蒂格勒同名定律塞尔法则,这当然不足为奇,但是当他们宣布深度学习小组将在舞台上聚集一些竞争激烈的名人时,每个人都为爆米花做准备。我希望他们录制了它,因为它没有令人失望。

就趋势而言:首先,“deep”正在吃所有东西,例如 深度指数家庭。但是,您已经知道了。其次,强化学习正在升温,它利用了深度学习和GPU架构的进步以及改进的优化策略。第三,正如Leon Bottou的精彩主题演讲所暗示的那样,随着核心科学的发展,机器学习的技术缺陷变得越来越重要:具体地说,人类在创建机器学习模型时的生产力需要提高,并且机器学习与大型软件系统的集成也需要变得不那么脆弱。

此外,非凸目标函数的重要性正日益增加,“anti”-趋势。首先,分布式优化变得不那么受欢迎了,因为具有4个GPU和1TB RAM的盒子是一个非常有生产力的环境(尤其是对于非凸问题)。考虑到我在云计算和信息服务实验室中的工作,您可以对自己的职业生涯得出自己的结论。其次,有很多关于原始对偶算法的优化论文,尽管它们很酷,但它们似乎比仅原始算法具有较小的影响力,因为后者有更大的机会解决非凸问题。

这是我打算仔细阅读的论文清单。由于我的时差很长,所以这绝不是会议上所有凉爽论文的详尽清单,所以请查看 完整清单.

  1. 通过反向传播进行无监督域自适应。经典技术认为表示形式是固定的,并对数据重新加权以模拟从目标域提取的数据集。深入的方法是更改​​表示形式,以使源域和目标域无法区分。整齐!
  2. 大规模神经词嵌入中的建模顺序。事实证明word2vec不能拟合数据,并且添加相对位置可以改善嵌入。事后看来,加之偏见是有道理的:无监督预训练的最初梦想是模型复杂性不会成为问题,因为数据将是无限的。出乎意料的是,预训练革命发生在文字而非视觉上。 (类似地,马克思期望无产阶级革命将发生在德国而不是俄罗斯。)
  3. 反事实风险最小化:从记录的匪徒反馈中学习。离线策略评估涉及重要性加权,这可能会引入差异。经验伯恩斯坦告诉我们如何在学习过程中惩罚方差。花生酱和果冻!我为什么没想到…琐事花絮:本文是因果关系研究领域中唯一由伯恩哈德·舍尔科普夫(BernhardSchölkopf)共同撰写的条目。

好的,这是一个简短的列表,但是老实说,几个月前出现在arxiv上时,我已经阅读了大多数我感兴趣的论文,所以那些是我尚未注意到的。

2015年5月11日,星期一

ICLR 2015评论

ICLR的野心,质量和(小型)社区相结合,使之成为我最喜欢的会议。言语和视觉方面的最新成功,以及亿万富翁创始人和皇帝以及风险资本家的资金浪潮,给人以乐观的感觉,并渴望攻击人工智能。热情具有感染力。 (在程序上,在审阅过程中使用Arxiv使得与审阅者进行对话变得容易:每个人都应该这样做,如今双盲是一个神话。)

组织者在选择会议名称方面很有见识。虽然称为“深度学习会议”,会议是关于学习表示形式的。在AI的早期(即1960年代),表示被认为是至关重要的,但在那时,表示是手工构建的。这不仅(非常费力)费力,而且解决方案高度针对特定问题。推动这次会议的关键思想是使用数据和学习算法来帮助我们设计表示形式,希望使生成的表示形式更易于开发和更广泛地应用。如今,深度学习(即使用非凸优化技术训练的分层非线性)是实现此目的的领先技术,但如果这次会议更好地出现,那么(不久的将来)该会议将得到验证。

在上述情况下,选择接受的论文和邀请的演讲非常明智:深度学习论文绝对占多数,但也有一些有趣的论文可以利用 本征系统, 光谱法字典学习。受邀的演讲丰富多彩且有趣:Percy Liang的关于学习潜在的逻辑形式进行语义解析的演讲是一个很好的例子,因为他的工作显然涉及学习表示形式,但他在演讲中开玩笑地表示自己不熟悉深度学习。

有很多好的论文,所以看看 整个时间表,但这些吸引了我的注意。

通过共同学习对齐和翻译的神经机器翻译 结果在 这篇报告 有趣,但是该论文也作为学习的表示设计过程的一个示例而出类拔萃。深度学习是 只是将高度灵活的模型类应用于大量数据:如果那么简单,高斯内核将解决AI。取而代之的是,深度学习就像机器学习的其余部分一样:在计算复杂性的约束下,在模型复杂性和数据资源之间找到微妙的平衡。特别是,更多的数据和更快的GPU不会在标准神经编码器/解码器体系结构中带来这些改进,因为潜在矢量表示与序列到序列的映射之间存在不匹配。更好的方法是以适当匹配目标的方式明智地增加模型的复杂性。此外,“art”并不是知道对齐本身就很重要(灵感显然来自现有的SMT系统),而是在于弄清楚如何将类似对齐的操作合并到体系结构中而不破坏优化能力(使用SGD)。感谢作者。

请注意,虽然正在从数据中学习表示形式,但很显然,人类设计人员通过体系结构的规范(例如深度卷积网络),为系统提供了先验优势。我们应该预料,在不久的将来这种情况将继续存在,因为相对于我们要考虑的假设类别的复杂性,我们将始终处于数据贫困状态。谁对你说“我使用深度学习是因为我想在不做任何假设的情况下从原始数据中学习”不明白。如果他们也使用这句话“通用逼近器”,请退出对话并尽可能快地逃跑,因为没有什么比高精度表达的不正确直觉更危险了(参见Minsky)。

NICE:非线性独立分量估计 作者定义了一种灵活的非线性 它是体积保持且可逆的,从而生成了一个生成模型,对其进行推断(和训练),采样和修复很简单。这些技巧很酷,您想在其中找到用途。

定性表征神经网络优化问题 SGD的有效性有些神秘,并且 作者深入研究了优化前景 实际的神经网络遇到的直觉。演讲和海报还有其他很酷的可视化效果,这些效果不在本文中。

结构化预测 有几篇论文探讨了如何将深层神经网络超越分类而推进结构化预测。将神经网络与CRF结合是一种流行的选择,并且 陈等等 遵循这些原则,在Pascal VOC 2012上有不错的海报,并取得了良好的效果。 Jaderberg等。等 利用类似的策略来解决识别自然图像中单词的(可变和可扩展输出)问题。

极端分类 有几篇论文提出了加快学习分类模型的方法,其中输出的数量非常大。 Vijayanarasimhan等。等 尝试使用散列来近似逼近点积,而 文森特 provides an exact expression 对于 (the gradient of) certain loss functions which avoids computing the outputs explicitly. I'll be digging into these 纸s in the next few weeks to understand them 更好. (Also, in theory, you can use 我们的标签嵌入技术 以避免在GPU上训练极端深度分类器时完全避免输出层,但是YMMV尚未实现它。)

2015年4月21日,星期二

极端多标签分类

提醒:仍有时间提交给 集成电路的极端分类研讨会 今年。

多标签分类很有趣,因为它是通往 结构化预测。尽管可以将多标签视为一组强大的标签,但除非标签数量少或每个实例的活动标签数量受到限制,否则此方法会迅速瓦解。结构化的预测观点是,多标签推理涉及一组遭受联合损失的二进制预测,这满足了 ku句定义 结构化预测。

尼科斯(Nikos)和我最近独立地发现了里德(Reed)和荷尔蒙(Hollmén)的雄辩状态 :
用于多标签数据的竞争方法通常会共同投资于学习标签。为了以一种有益的方式做到这一点,对标签依赖性的分析通常被视为一个基本步骤,是在构建分类器之前单独进行的。与训练最终分类器本身相比,某些方法在建立依赖关系模型上投入的计算量最多要花费数百倍。我们扩展了文献中最近的一些讨论并提供了更深入的分析,即发展了这样的观点,即标签依赖性通常是由不适当的基础分类器引入的...
Reed和Hollmén使用神经网络风格的非线性,而Nikos和我使用 随机嵌入和随机核逼近,但是我们的结论是相似的:给定灵活且规则良好的通用非线性,可以在构造分类器时直接对标签依赖关系进行建模;此外,这在计算和统计上都比当前最新技术更有效。

对于这种设置,将神经网络样式非线性用于多标签是非常合理的,恕我直言。在结构化预测中推进深度学习的成功是当前研究的热门话题,并且部分棘手,因为尚不清楚如何将任意结构化预测问题呈现到适合(SGD)优化的结构上(c.f. 用于顺序推理任务的LSTM)。幸运的是,尽管多标签具有结构化的预测解释,但现有的用于多类的深层体系结构只需要稍作修改即可应用于多标签。 (“那为什么要使用随机方法呢? ”,问读者。答案是随机方法分布得很好,我在云计算实验室工作。)

2015年4月12日,星期日

极端分类CFP

CFP 极端分类研讨会2015年已经结束。非常感谢您的提交。我们也有一些非常酷的受邀演讲者,(恕我直言)这是一个热门领域,因此,无论您是否提交材料都应该参加研讨会,我们都将很开心。

2015年2月28日,星期六

工资与移民辩论

我毫不掩饰地赞成移民,我的意思是各种各样:高技能或低技能,我认为每个人都可以为美国的混合物添加些东西。具体来说,对于高技能移民而言,我曾经工作过的任何地方都遭受了劳动力短缺的困扰,因为我们一直都有无法填补的空缺职位。当我对不那么支持移民的朋友说这句话时,他们会回答“如果劳动力如此紧张,工资怎么没涨?”

这是一个合理的问题。根据 劳工统计局, 私营部门“Information”从2001年到2014年,薪酬从85.8降至125.1,与其他行业相比(虽然“专业和商业服务”在同一时间间隔内从87.6降至124.4;“休闲和款待”从87.1升至119.6;和“Utilities”从87.9升至130.7)。

一种可能是补偿上升了,但是测量不正确。那张桌子说“total compensation”,脚注说“包括工资,薪水和雇员福利的雇主成本。”因此,我怀疑(希望!)诸如股票期权和医疗计划之类的显而易见的因素被考虑在内,但是公司可以将一大堆成本归类为除员工福利之外的其他成本(例如,以防止引起股东震惊或出于税收目的) ),但这仍然使这项工作变得更好。在您工作的美丽校园中,那栋令人敬畏的新大楼对会计师而言可能看起来像是一笔资本资产,但它确实感觉像是我的报酬的一部分。旅费(即在异国情调的地方参加有趣的会议)如何分类?还有无形资产:灵活的工作时间,选择要从事的项目以及与谁一起工作的能力,实施技术的自由度,较少的会议等。我的个人经验是,自从我开始工作以来,这些无形资产已经有了很大的进步。可能那是资历的产物,但我怀疑不是,因为我许多位置相似的同事都比我年轻。

由于个人经验,我不喜欢这种解释:我目前的工作不是我有史以来薪水最高的工作,但这是我有史以来最好的工作。

该解释仍然存在一个问题:“为什么雇主不只是跳过所有这些东西,拥有没有草食牛肉汉堡的笨拙的办公室,而给人们更多的薪水呢?”我认为,初创公司实际上会这样做,尽管他们采用不确定性的薪酬,所以很难对此进行推理。因此,让我们考虑较大的公司。我可以想像出几种可能的解释(例如,对飞涨的劳动力成本的厌恶;或者意识到,在一定程度上,好的校园比加薪更有效),但我不知道答案。我可以这样说:虽然我曾经工作过的每家公司都有大量空缺职位,但我从未听说过有人说过“让我们通过提高工资范围来填补这些空缺职位。”我拒绝的一种解释是,雇主不想提供更高的薪水,因为他们无法在求职面试过程中评估真实的生产力。评估问题是真实的,但是高额奖金补偿方案是解决此问题的有效方法,每个人都广泛使用它们。

信息部门的工作人员可能不太擅长(或非常感兴趣)将其谈判能力转变为更多的报酬。也许在计算机工业化开始之初,就吸引了那些热爱计算机的人,但是40年后,当许多著名的工业巨人成为计算机极客时,我怀疑许多年轻人为了赚钱而专攻计算机科学。因此,这似乎并不合理。

无论如何,对我来说还是个谜,为什么工资没有涨得更快。但是,我那些不那么支持移民的朋友便进入了争论的下一个阶段:(贪心!)公司只希望高技能的移民能够进口大量廉价的智力劳动并取代美国工人。好吧,我有个新闻给你,所有专业的学生都在海外雇用大量的人才。他们不需要进口廉价的智力劳动,因为他们已经可以使用。此外,当他们涉足海外劳动力市场时,他们会建造建筑物并缴税,其员工会在当地购买房屋和理发。如果这些员工住在这里,美国将获得这些好处。

美国需要醒悟,并意识到,在全球范围内旅行并离开所有朋友和家人是一种强制,随着全球劳动力机会和治理的改善,这种吸引力每年都在降低。由于移民的诱因正在减少,我们应该寻找减少与移民尝试相关的摩擦的方法。

2015年2月18日,星期三

对抗情景和规模经济

当我太年轻而无法关注时,关系数据库已经过渡
从学术到工业技术。一些组织结束了
制造一些高性能的发动机,而我们其余的人应用了这些
特有地解决各种问题。现在看起来像监督
机器学习正在经历类似的转变,其中一些
组织正在进行一些高性能的实现,并且
我们其余的人将利用这些实现来解决问题。
今天的公告 Azure ML的一般可用性 是一个
朝这个方向走。

对于其他形式的机器学习,最终结果不太清楚。在
尤其要考虑对抗性问题,例如过滤垃圾邮件
电子邮件,识别虚假产品评论或检测
未经授权的数据中心入侵。是最好的策略
(白帽子)研究人员公开分享技术和工具?
一方面,它使好人变得更聪明。另一方面,
它还会通知坏人。问题类似于那些
在9/11之后募集用于生物学研究,
双方都提出了很好的论据 对于反对 开放性。

我的预测受到了美国国家安全局(NSA)和我自己的跑步经验的启发
1990年代的电子邮件服务器。关于前者,国家安全局
所做的就是聘请一群非常聪明的人,然后隔离他们。
这带来了社区的好处(同行评审,协作,
等),同时限制了披露费用。关于后者,
我记得运行自己的电子邮件服务器变得极为不便
随着垃圾邮件发送者和防御者之间的军备竞赛升级。最终,
将我的电子邮件需求推迟到主要的电子邮件提供商之一比较容易。

基于此,我认为将只有少数几个数据中心
服务(又名云计算)提供商,因为对抗性担忧会
对于最大的组织而言,它变得太复杂了。我认为
这将主要由采用NSA战略的组织推动
建立围墙的研究人员社区,这在增加
返回规模。

这是一个积极的旋转:作为企业家,如果您能找到一个
您的业​​务模式中发展出对抗性问题(例如,Yelp
大概是2006年发现的虚假评论在增加),拥抱它!
这可以提供防御性的护城河和/或改善您的收购目标。

2015年1月15日,星期四

展开推理

新年快乐!我的新年决心是不要害怕非凸优化。统计上有一个 高可能性 我将在二月份回到仅优化凸损耗的问题:)。

但是与此同时,这方面的有趣论文 油炸卷积网。这里的想法是使用 快速核逼近 取代深层卷积神经网络的完全连接的最终层。可以为内核近似计算梯度并将其传递到较低的卷积层,因此可以使用SGD端到端对整个体系结构进行培训,其中包括一些有趣的技巧,例如在内核近似上进行辍学。

亚历克斯·斯莫拉(Alex Smola)是一个聪明的人,我认为他从深度学习的近期成功中学到了教训。实际上,似乎我们必须每十年左右重新学习一次该课程,即 非凸架构的端到端培训可以产生出色的结果,并且SGD极其通用。我看到油炸卷积网与约翰·赫尔希(John Hershey)的观点相同 深层展开 神经网络的想法是,从模型(例如内核机器)开始,创建模型的参数化近似值(例如快餐),然后(非凸面)使用SGD优化端到端的近似值。