2015年7月14日,星期二

集成电路 2015评论

今年的地点确实是最高级的:迷人的法国北部城市里尔,当地人显然在此生活 奶酪,薯条和啤酒 不增重。大量的供应商和招聘人员出席了会议,向饥饿的研究生发放了甜美的赃物。坦白说,如今对于ML研究生来说,很难感到难过:获得英语博士学位意味着对知识的无私奉献,而成为机器学习研究生更像是一名大学篮球运动员。

这次会议不乏娱乐性:如果您没有引起注意,深度学习的巨大成功将为您带来一些收获。 关于发明家的争议。之间 斯蒂格勒同名定律塞尔法则,这当然不足为奇,但是当他们宣布深度学习小组将在舞台上聚集一些竞争激烈的名人时,每个人都为爆米花做准备。我希望他们录制了它,因为它没有令人失望。

就趋势而言:首先,“deep”正在吃所有东西,例如 深度指数家庭。但是,您已经知道了。其次,强化学习正在升温,它利用了深度学习和GPU架构的进步以及改进的优化策略。第三,正如Leon Bottou的精彩主题演讲所暗示的那样,随着核心科学的发展,机器学习的技术缺陷变得越来越重要:具体地说,人类在创建机器学习模型时的生产力需要提高,并且机器学习与大型软件系统的集成也需要变得不那么脆弱。

此外,非凸目标函数的重要性正日益增加,“anti”-趋势。首先,分布式优化变得不那么受欢迎了,因为具有4个GPU和1TB RAM的盒子是一个非常有生产力的环境(尤其是对于非凸问题)。考虑到我在云计算和信息服务实验室中的工作,您可以对自己的职业生涯得出自己的结论。其次,有很多关于原始对偶算法的优化论文,尽管它们很酷,但它们似乎比仅原始算法具有较小的影响力,因为后者有更大的机会解决非凸问题。

这是我打算仔细阅读的论文清单。由于我的时差很长,所以这绝不是会议上所有凉爽论文的详尽清单,所以请查看 完整清单.

  1. 通过反向传播进行无监督域自适应。经典技术认为表示形式是固定的,并对数据重新加权以模拟从目标域提取的数据集。深入的方法是更改​​表示形式,以使源域和目标域无法区分。整齐!
  2. 大规模神经词嵌入中的建模顺序。事实证明word2vec不能拟合数据,并且添加相对位置可以改善嵌入。事后看来,加之偏见是有道理的:无监督预训练的最初梦想是模型复杂性不会成为问题,因为数据将是无限的。出乎意料的是,预训练革命发生在文字而非视觉上。 (类似地,马克思期望无产阶级革命将发生在德国而不是俄罗斯。)
  3. 反事实风险最小化:从记录的匪徒反馈中学习。离线策略评估涉及重要性加权,这可能会引入差异。经验伯恩斯坦告诉我们如何在学习过程中惩罚方差。花生酱和果冻!我为什么没想到…琐事花絮:本文是因果关系研究中唯一不是由BernhardSchölkopf合着的条目。

好的,这是一个简短的列表,但是老实说,几个月前出现在arxiv上时,我已经阅读了大多数我感兴趣的论文,所以那些是我尚未注意到的。

2条评论:

  1. 谢谢您的审查,不胜感激。随着所有事物的普及,我的感觉是(希望)将有更多的资源集中在减少培训时间(规模)上。无论是在内部执行还是在公共云上执行,训练时间只要在几周内就可以轻松完成,这在现实世界中将不会减少。

    回复删除
    回覆
    1. 作为模型构建者,培训时间很痛苦。但是,推理(评估)时间目前在实践中更加痛苦。神经网络可能难以优化,但是与具有类似统计性能的替代方法相比,所得函数可以相当紧凑且评估便宜。

      缓慢的培训时间限制了模型构建实验的周转时间,但是实验级的并行性可以帮助从业人员"the majors".

      删除