2013年10月2日,星期三

缺乏监督

对于计算广告和互联网约会,标准的统计学习理论手册对我来说效果很好。是的,存在不稳定的环境,探索利用困境和其他协变量转变;但是大部分教科书的直觉都是有价值的。现在,在潜在的情况下 彼得原理,我在操作遥测和安全性方面遇到的问题似乎相去甚远,这对教科书的帮助较小。在向Gartner致意时,我将恐吓概括为4个象限的助记符。
环境
遗忘的对抗性
标签丰富教科书机器学习恶意软件检测
罕见服务监控和警报入侵检测

第一个维度是环境:它是遗忘的还是对抗性的?遗忘意味着,尽管环境可能会发生变化,但它的行为与系统做出的任何决定无关。对抗性意味着环境正在根据我所做的决定而改变,从而使我的决定变得更糟。 (当然,Adversarial不是疏忽的对立面:环境可能是有益的。)第二个方面是标签信息的普及,我广义上讲是指通过数据定义模型质量的能力。对于每种组合,我都会给出一个示例问题。

顶部是教科书监督学习,在这种环境中,学习环境可以忽略不计,标签也很丰富。我目前的老板有很多这样的问题,但也有很多人需要解决,还有很多很酷的工具可以解决。底部是入侵检测,入侵检测是每个人都想做得更好的一个领域,但这极具挑战性。这是象限开始提供帮助的地方,方法是建议缓解入侵检测的困难,我可以将其用作热身。在恶意软件检测中,环境具有很高的对抗性,但标签却很多。鉴于 震网 保持隐藏状态这么长时间,但实际上所有主要的防病毒软件供应商都雇用大量的人类,他们的日常活动提供了丰富的标签信息,尽管公认的是不完整的。在服务监视和警报中,某些标签相对较少(因为严重的中断很少发生),但是工程师并没有以明显逃避检测的方式注入缺陷(尽管有时会感觉到这种情况)。

我怀疑在标签信息稀少时取得胜利的关键是降低标签获取成本。这听起来似乎是重言式的,但是它确实提出了来自主动学习,众包,探索性数据分析,搜索和隐式标签插补的想法;所以不是完全虚空。换句话说,我正在寻找一种系统,该系统会审慎地询问域专家,提出一个可以可靠回答且其回答具有较高信息内容的问题,以有效的格式显示他们需要回答该问题的信息,并允许域导出以指导学习,并且可以从现有的未标记数据中进行引导。十分简单!

对于对抗性设置,我认为在线学习是难题的重要组成部分,但只是其中一部分。我特别赞同这样的观点: 在对抗环境中,可理解的模型具有优势 因为它们可以更好地与需要维护它们,了解其脆弱性并加强防御主动和反应攻击的人员一起工作。我勉强承认这一点,因为迄今为止,我感觉到机器学习的一大优势就是能够使用难以理解的模型:可理解性是一个严格的限制!但是,可理解性并不是一个固定的概念,并且只要有了正确的(模型和数据)可视化工具,机器学习技术的种类就会越来越广泛。

有趣的是,对于稀有标签和对抗性问题,用户界面问题似乎都很重要,因为两者都需要与人类进行有效交互(出于不同目的)。

没意见:

发表评论