显示带有标签的帖子 会议. 显示所有帖子
显示带有标签的帖子 会议. 显示所有帖子

2012年6月29日,星期五

我的ICML 2012杰出人物

我已经在整个博客文章中投入了一些ICML 2012论文,但是还有其他一些论文引起了我的注意,对此我仅作简单评论。

  • 通过主动学习进行在线结构化预测: 阅读 完整的博客文章.
  • 用排名损失预测准确的概率: 阅读 完整的博客文章.
  • 在单词观察中训练受限的Boltzmann机器。我已经十多年没有使用RBM了,对于实际的文本分类问题,通常用袋形图表示就足够了,而LDA是我的首选技术,用于文本的无监督特征提取。那我为什么喜欢这篇论文呢?首先,计算效率的提高似乎是可观的,这始终是令人感兴趣的:我喜欢理论上的深度学习,但实际上我很耐心。其次,发现文本(5克!)中更高阶结构的想法很有趣。第三(类似于LDA),该技术显然更普遍适用,我想知道它将在社交图表上做什么。所有这些都表明我有可能在实际问题上进行尝试。
  • 新功能实用程序的快速预测:我一直处于尝试选择下一个要尝试的功能的情况,并且与损失函数的负梯度相关联很直观。
  • 用于测试在线可交换性的插件Martingales:如果在线学习模式下的大众汽车输出警告说``输入数据似乎不是由可交换的分布生成的,那会是多么棒;尝试随机改组数据以提高通用性。''
  • 局部判别高斯降维:这似乎迫在眉睫。主要限制是它是一种有监督的降维技术,因此它适用于以下情况:存在标记数据不足的问题和使用相同特征且具有大量标记数据的相关问题(这是特例)的 转移学习)。我通常会在``少量标记数据和大量未标记数据''案例中发现自己需要无监督技术,但这可能是因为我没有经常问自己以下问题:``是否存在一个相关问题与之相关的大量训练数据吗?''
  • 使用最小图聚类查找僵尸网络: 非常有趣。一次面试中有人问我如何处理从搜索日志中识别和过滤自动流量。没有``正确答案'',而且黑字母机器学习技术显然不适用,因此创造力非常重要。

2011年7月8日,星期五

集成电路 2011著名人物

以下是我标记为要跟进的一些论文,不分先后顺序:
  • 最小概率流 (强积金)。通过避免计算分区函数,可以更快地训练各种概率模型。既然我迷恋速度,这引起了我的注意:我基本上忽略了很多技术,因为我认为它们太慢了。也许这是改变游戏规则的人?我必须尝试尝试确定的东西。
  • 文本的稀疏加性生成模型 (智者)。我猜想作者最初对稀疏的LDA感兴趣,但是发现多项式令牌发射规范不利于这种操纵。无论如何,我的总结是:用LDA的令牌排放模型中的对数概率替换概率,并将排放相对于背景(令牌频率)居中。有两个主要好处:1)最终的按主题的说明可以非常稀疏,因为它们仅建模与背景的差异。 2)可以通过(日志)加法而不是(概率)乘法来处理其他潜在参数。不幸的是,更新中埋有一个分区术语,它是$ O(| V |)$,其中$ V $是词汇。也许SAGE的作者应该和MPF的作者交谈:)
  • 通过保留订单损失和标准化监督来学习评分功能。本文的目的是弄清何时对目标函数进行排序会降低对具有得分函数的回归或成对分类的影响。公式6具有在Vowpal Wabbit中实施的正确结构,并且有一致的方法可以减少 DCG 和NDCG埋在这里,如果我能弄清楚的话:)
  • 自适应学习人群内核。的概括 MDS 使用基于三元组的相对相似性而不是绝对相似性。这真是太棒了,因为很难从人们那里获得绝对相似性的判断,而基于三重态的相对相似性(``对象$ a $更类似于$ b $或$ c $吗?'')是很自然的。
此外,受邀的演讲者都很棒,星期四下午受邀的交叉会议特别有趣。