2014年5月3日,星期六

最具因果关系的观察者

戴维·帕克 最近有一个 来宾帖子 在Gelman的博客上。您应该阅读它。的 tl; dr 是``大数据是大事,但因果关系很重要,与预测不一样。''

我同意以下基本信息: 因果关系很重要。作为职业建议,如果您刚刚开始职业生涯,那么关注因果关系将是一个好主意。几乎没有人为预测目的而建立一个预测模型。相反,重点是 建议干预。例如,为什么要预测信用卡交易的欺诈风险?大概目标是拒绝一些交易。当您这样做时,情况会改变。最简单的是,如果您拒绝交易,您将不会了解如果您批准该交易将会发生的反事实。由于问题的对抗性质,还会出现其他问题,即欺诈者将对您的模型做出反应。不注意这些影响会导致意想不到的后果。

但是,我对``需要认真思考问题并推动这些过程的基本机制''的创意人持保留意见,以``实现大数据的承诺''。当我读到这些词时,我将其翻译为“尽管存在大量数据,也必须利用强大的结构先验知识来建立因果关系模型。”大实验系统收集的大数据将能够以不可知论的方式发现随意的关系。这里的“不可知论”基本上是指“适用于自动化的弱结构假设”。当然,总是存在一些假设,例如,在进行Vapnik风格的ERM时,人们会对数据生成过程做出虚假的假设。问题是是否需要人类和创造力。

也许更好的说法是“需要创造力的人类来履行大观测数据的诺言。”我认为这是事实,社会科学一直在处理观测数据已有一段时间,因此他们具有相关经验,洞察力和培训,我们应该更加重视。此外,另一个合理的主张是“大数据将在不久的将来成为观察性的”。当然,监视Twitter消防站很容易,而我却完全不清楚实验平台将如何操纵Twitter以确定因果关系。尽管如此,我认为大规模的自动化实验设计具有巨大的破坏潜力。

我假设的主要区别在于,机器学习将越来越多地从处理由另一个流程生成的大量数据转变为驱动收集数据的流程。对于计算广告,情况已经如此:通过平衡开发(赚钱)和探索(了解什么广告在什么条件下会很好)来放置广告。上下文强盗技术已经成熟,“大实验”已经不是天方夜谭,它每天都在发生。有人可能会争辩说,广告是一种特殊的应用程序,具有如此极端的经济重要性,以至于有创造力的人已经设计出一种结构模型,可以进行因果推理,参见 Bottou等等 我会说这是正确的,但也许只是第一步。对于预测,我们不再需要在参数有意义的情况下进行参数化建模:如今,我们有许多具有本质上有害参数的模型。一旦我们拥有了收集数据并对其进行建模的系统,是否将需要具有有意义参数的强大结构模型,或者是否有某种不可知的方式来捕获具有足够数据的大量临时关系 实验?