[美]JudeaPearl《因果论(原书第2版)》作品简介与读书感悟

2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主、贝叶斯网络奠基人JudeaPearl做了名为《TheNewScienceofCauseandEffectwithreflect

2020年6月21日,在第二届北京智源大会开幕式及全体会议上,图灵奖得主、贝叶斯网络奠基人Judea Pearl 做了名为《The New Science of Cause and Effect with reflections on data science and artificial intelligence》的主题演讲。

在演讲中,Judea Pearl 站在整个数据科学的视角,简单回顾了过去的“大数据革命”,指出数据科学正在从当前以数据为中心的范式向以科学为中心的范式偏移,现在正在发生一场席卷各个研究领域的“因果革命”。Pearl 解释了什么是因果科学以及相关新逻辑和推理引擎的思想脉络,包括介绍了被称之为“Double-Helix”的两个因果推理的基本定理,并以其作为出发点推演出因果图模型框架,最后概述了该框架下因果推理的七大工具。另外,为了帮助读者们更加透彻地理解Pearl 的因果推理思想,我们结合 Judea Pearl 近年来的论文、访谈和报告,以及其学生 Elias Bareinbion、马普智能所 Bernhard Scholkopf 团队等的相关研究工作,对本报告进行了一定的补充说明。

Judea Pearl 个人简介

朱迪亚·珀尔(Judea Pearl)是加州大学洛杉矶分校(UCLA)教授,图灵奖(Turing Award)得主。他在 20 世纪 80 年代开发并倡导了AI 的概率方法,被称为贝叶斯网络之父。然而为了强人工智能的愿景,Pearl 脱离主流 AI 研究社区,提出了一套因果的数学语言和理论,引领了正在席卷各个学科的”因果革命“。他自己最引以为傲的工作是 “The fundamental law of counterfactuals。”[4]

To Build Truly Intelligent Machines,Teach Them Cause and Effect。

——Judea Pearl

因果革命:改变数据科学的新革命

在报告中 ,Pearl 首先介绍了一场正在改变数据科学的新革命 --- ”因果革命“。因果革命和以数据为中心的第一次数据科学革命,也就是大数据革命(涉及机器学习,深度学习机器应用,例如Alpha-Go、语音识别、机器翻译、自动驾驶等等 )的不同之处在于,它以科学为中心,涉及从数据到政策、可解释性、机制的泛化,再到一些社会科学中的基础概念信用、责备和公平性,因果论与因缘论, 甚至哲学中的创造性和自由意志 。可以说, 因果革命彻底改变了科学家处理因果问题的方式。

图1:Pearl 关于数据科学本质的洞见,见文献[3]

因果革命中,数据科学的任务被重新分成了三类:预测,描述和反事实预测[6]。关于它具体如何席卷各个学科,详情可参见:

Bernhard Scholkopf 最引以为傲的论文之一《Causality for Machine Learning》,它概述了信息革命时代下因果和机器学习的融合的基本原理和深刻思考[5];

《Causal Inference and Data-Fusion in Econometrics》是 Elias Eareinboim(Pearl 学生) 关于因果结合经济学领域的最新综述[7];

因果也影响了社会科学,医疗健康科学,计算机和统计学等,见资料[1,8]。

哈佛大学教授 Gary King(2014) 盛赞了这场因果革命,它指出“过去三十年关于因果理论的进展超过了人类前面积累的总和。” Pearl 继续解释说,成百上千过去认为不可能解决的问题,现在可以通过简单的数学和可计算的算法解决。在介绍完“因果革命”之后,Pearl接着介绍了本次报告的大纲:

什么是因果科学,为什么它需要新的逻辑和推断引擎

如何让机器获得因果推理的能力(因果推理引擎的结构)

因果推理的两个基本定律

2、邱国鹭的《投资中最简单的事》这本书被很对投资界的人推荐,另外这可说得上是价值投资中国版的最好解读。国内价投实战派的代表人物,这位邱国鹭就是其中的一位,他可以帮助朋友们指引一个投资方向,走向正确的投资道。

因果智慧的七个工具

但是,认为“因为那时候被打,所以关系不和”是弗洛伊德式的原因论的想法。 如果站在阿德勒目的论的立场上,因果律的解释就会完全倒过来了,也就是说我“为了不想与父亲搞好关系,所以才搬出被打的记忆。” 不修复与父亲之间的关系更合适。

什么是因果科学?

当前曲线拟合的机器学习和深度学习取得了巨大的成功,为什么需要研究因果[8]?Pearl 在去年接受 Lex Fridman 访谈[4]时提到 “Everything starts with the question: What is the research question? ”。

而Pearl 在这次报告中,则用了几个统计学中的经典例子。第一个问题是:“锻炼身体是否能够是否有利于健康?”见下图,x轴表示运动时间,y轴表示胆固醇水平。

图2:锻炼是否有利于健康?

一方面,在图2(左)中,可以看大每个年龄组中都出现了向下的趋势,表明运动可能的确有降低人体胆固醇水平的效果;另一方面,在图2(右)中,同样的散点图并不依据年龄对数据进行分层,那么我们就会看到一个明显向上的趋势,这表明运动得越多,人体胆固醇水平就越高,这种矛盾在统计学中被成为辛普森悖论。Pearl 介绍的另外两个例子,一个是关于“药物”、“性别”、“死亡率”的研究问题:“药物有效果吗?” 另外一个是关于“疫苗”、“天花”、“死亡率”的研究问题:“疫苗有效果吗?”

这几个例子共同说明了数据可能对你讲出两个不同的故事。如果信息发生了一些变化,得到的结论就可能是不一样的。更加准确地来说,这几个例子本质上是要回答因果问题,仅有数据信息而没有先验因果关系信息的时候,就可能得出与关注研究的问题相互矛盾的答案。回答因果问题需要因果信息。

Pearl 在这次报告中指出,因果科学始于因果问题,因果科学研究如何回答因果问题。

什么是因果问题呢?他举了几个简单的例子:

1. 给定的治疗方法在预防疾病方面效果如何?

2. 是新的减税政策导致销售额上升吗?还是我们的营销活动?

3. 肥胖引起的年度医疗保健费用是多少?

4. 雇佣记录可以证明雇主犯了性别歧视吗?

5. 我即将辞职,我会后悔吗?

他解释到,上面这五个因果问题,因为这些问题都包含着不对称信息,所以无法用现在标准的科学语言,也就是具备对称性的数学公式来描述。相对于“=”表示对称信息,他用箭头 → 表示非对称信息,见下图:

图3:对称 VS 非对称

在过去的30年中,Pearl 和他的同事找到了非对称性的表达工具。他认为因果科学是回答因果问题的逻辑和工具,也就是推理引擎。通俗来说它有三个输入,包括我们想知道什么、我们已经知道什么和可用数据,以及作为输出的两类关注问题的答案:a) 现在某个行动会有什么结果?b) 过去换个选择会有什么不同的结果?

因果推理是人类思想中不可或缺的组成部分,应该对其进行形式化和算法化处理,以实现人类水平的机器智能[3]。Pearl 描述了一个因果推理的三级结构,把因果信息按其能够回答的类型进行分类。该分类形成了一个三层的层级结构,某层的问题,只有在获取不低于该层信息时,才能够被回答。

a) 三个因果层级

图4:三个因果层级,参见书籍[2]

第一层是关联(Association),它涉及由数据定义的统计相关性。大多数机器学习系统围绕这一层运行。

1.高尔基《童年》好词好句好段,读书感悟,主要内容 好词: 美不胜收、神采奕奕、气喘吁吁、色彩斑驳、震耳欲聋、司空见惯、绘声绘色、吹毛求疵、惴惴不安、悲悯、婀娜、踉跄、自言自语、小心翼翼、摇摇欲坠、黑黢黢、汗涔涔出类拔萃。

第二层是干预(Intervention),不仅涉及到能看到什么,还涉及一个干预或行动将会导致什么结果。作为例子,Pearl 提了一个问题:“如果我们把价格翻倍,将会发生什么?”

第三层是反事实(Counterfactual),是对以前发生的事情的反思和溯因,解决的是“如果过去作出不一样的行为,现在的结果会有何不同?”的问题。

顶层也就是反事实层是功能最强大的层次,如果我们有一个可以回答反事实问题的模型,那么我们也可以回答有关干预和观察的问题。例如,干预问题:What will happen if we double the price? 可以通过反事实问题来回答:What would happen had the price been twice its current value? 同样,一旦我们回答了干预问题,就可以回答关联问题。我们只是忽略了干预动作部分,而是让观测取代了。但是在相反的方向上,干预问题不能仅凭观测信息(也就是统计相关性)回答,涉及反思和溯因的反事实问题也不能仅用从随机对照实验中获得的干预信息来回答。

反事实是科学思维以及法律和道德推理的基础。举个例子,在法庭判定被告是否应该负法律责任的时候,判定有罪的一个依据是 ——“若非”被告的行为,损失就很可能不会发生(For example,in civil court,a defendant is considered responsible for an injury if,but for the defendant&34;若非&34;一个人吃了药死了",对应的一个反事实问题是“如果此人没有吃药,不死的概率是多少?”

Pearl 在报告中指出,理解因果推理需要抓住一个窍门,那就是区分 seeing 和 doing 的不同,一个简单例子就是某个便利店中”观测到某商品的价格翻倍“和“店主强制让某商品价格翻倍”存在区别。Pearl 发明了 do 算子来数学化表示干预或行为,有了它我们能用数学公式区分 seeing 和 doing:

(|)≠(|())

这里我们借用文献[5]中一个表格补充说明,表格的行是不同类型的问题,而列是不同类型模型:

表1:从统计模型到因果模型,再到物理模型[5]

可以看到统计模型只有关联层的信息,所以只能回答相关性问题,而不能回答干预问题和反事实问题。基于图的因果贝叶斯网络因果只有干预层的信息,所以只能回答干预和关联层的问题,而不能回答反事实问题。最后基于结构的因果模型,它的能力最接近物理模型,三个层级的问题都能够回答。事实上,朱松纯教授[10]在报告的最后向 Pearl 提出了因果建模的定位问题, 他说他喜欢因果建模的思想 “From to data to science”,从上面的表格中可以看到因果模型是从统计模型走向物理模型的过渡。

b) 因果推理引擎

Pearl 提出了一套基于结构的关于因果的数学语言和理论,作为因果科学是回答因果问题的推理引擎,该引擎的特点是 “Knowledge in,Knowledge out,Data in between”, 而基本出点是因果推理的两大基本定律:

[美]JudeaPearl《因果论(原书第2版)》作品简介与读书感悟

图5:因果推理的两大基本定律

他指出第一个定律是关于反事实的信息,可以推演出需要使用函数来刻画变量之间的因果关系,而第二个定律刻画了因果图结构,因果图上每个每条缺失的边都意味着在给定某些变量下的条件独立性,可用它做模型检验,结构学习和因果问题的符号演算。他以这两大基本定律为出发点,发展出了被称为结构因果模型(SCM)的数学框架,该框架能够回答三个层级的因果问题。在如下的例子中,模型用函数关系表示,而因果图上的缺失的边 CW 和 SR 都意味着给定某些变量之下的条件独立性。

图6:一个简单结构因果模型

现代因果建模工具的发展已对所有数据密集型科学(尤其是社会科学和流行病学)产生了变革性的影响,其中因果图已成为它们的第二语言。在这些学科中,因果图模型帮助科学家从观测数据中提取因果关系,并解构了困扰研究人员数十年的悖论。

我们根据 Pearl 的论文[3]补充说明因果科学的推理引擎,它由三个部分组成:图模型,结构方程以及反事实和干预逻辑。图模型是一种语言,用于表示 Agent 对世界的了解。反事实帮助他们阐明他们想知道的事情。结构方程将两者以扎实的语义联系在一起。该推理引擎将假设(以图模型的形式)、数据和 Query 作为输入。

图7:SCM推理引擎如何结合数据和因果模型回答因果问题,见文献[3]

SCM推理引擎存在三个输出:

估计式(Estimand) 是关注的查询(Query)的某个概率表达式,表示在已有模型假定下计算 Query 的一种方法;

晚年因家贫出任长兴县丞,由于看不惯官场的黑暗,不久愤而辞官,贫老以终。2、作品简介:主要描写了唐僧、孙悟空、猪八戒猪悟能、沙僧沙悟净师徒四人去西天取经,历经九九八十一难最后终于取得真经的故事。《西游记》内容分为。

Estimate 是用某种统计方法和已有数据对 Estimand 概率表达式的估计;

一组拟合指标(Fit Indices)用于衡量数据与假设的兼容程度。

因果推理的七个工具

1、作者简介:吴承恩中国明代杰出的小说家。他生于一个由学官沦落为商人的家族,家境清贫。吴承恩自幼聪明过人,《淮安府志》载他“性敏而多慧,博极群书,为文下笔立成。”但他科考不利,至中年才补上“岁贡生”,后。

接着 Pearl 概述了通过因果科学的推理引擎完成七个任务以及每个任务中使用的工具,并讨论了每个工具对自动推理技术的独特贡献。下面是因果智慧的七大工具:

Tool 1. Encoding causal assumptions in transparent and testable way.

Tool 2. Predicting the effects of actions and policies.

Tool 3. Computing counterfactuals and finding causes of effects (attribution,explanation,susceptibility).

Tool 5. Integrating data from diverse sources (external validity and selection bias).

Tool 6. Recovering from missing data.

Tool 7. Discovering causal relations from data

第一个工具就是使用因果图透明的编码了因果知识,使用 d-分离图准则下的条件独立性来检验因果结构先验假设。Pearl 给出了 Shrier 和 Platt 于 2008 年提出的运动医学领域的简单例子(热身对于运动损伤的影响),在这个例子中变量之间相互如何相互影响被透明的表示了出来,变量之间因果关系的确定可以基于合理的事实,它能用 d-分离图准则下的条件独立性来检验。

图8:一个因果图模型实例

图9:Do-Calculus 确定控制变量

第三个工具是计算反事实,找出某个结果的原因。我们要去找到事件结果的原因,我们要进行归因,进行解释。反事实是科学思维以及法律和道德推理的基础,例如,反事实问题 “一个人吃了药死了,如果此人没有吃药,不死的概率是多少?”的答案是法律责任判定中的重要依据。

图10:反事实概率回答归因问题

第四个工具是中介分析。直接(间接)因果效应是指一个变量对另一变量的既定影响在多大程度上是直接的(间接的),这是许多不同学科都关注的一类重要因果问题,它们可用 Pearl 的推理引擎解决。这一工具现在也被用于判断「歧视」、「不公正的做法」、「不公平现象」,我们要讨论人工智能和机器学习领域中的公平性问题时,我们必须考虑中介效应,Pearl 给出了一个雇主是否有性别歧视的例子,也就是回答如何用数据判断雇主是否用性别决定录用员工与否的问题。

作者:[美]朱迪亚·珀尔(Judea Pearl)译者:江生 豆瓣评分:8.7 出版社:中信出版集团 出版年份:2019-7 页数:374 内容简介:在本书中,人工智能领域的权威专家朱迪亚·珀尔及其同事领导的因果关系革命突破多年的迷雾,厘。

图11:中介分析回答性别歧视与否问题

第五个工具是泛化和数据融合。它的基本问题关于如何融合分布不同的实验性研究或观测性研究,Pearl 及其学生 Elias Bareinboim 提出一个解决此任务的框架,这是 Pearl 在文献[1]中称因果建模工具能够帮助解决 AI 应用中鲁棒性或适应性的原因。Pearl 在报告中用一个例子简单的讲解了一下基本思路,首先把数据源的数据类型(观测/RCT)和其他特点用图表(上)列出来,然后转化称对应的因果图(下),其中图中 S 节点标记了数据源的 S 指向变量有差异。这样就可以用因果建模工具综合不同数据源,回答关注总体的感兴趣因果问题,其详情见文献[7]

图12:因果推理解决多源数据集融合问题实例

第六个工具是从缺失数据恢复。由于缺少数据而导致的问题困扰着实验科学的每个分支,所有的数据都会有一个缺失值的问题,它本质是一个因果问题。实际上建立一个缺失数据因果模型之后,可以用因果推理引擎判断和实现从缺失数据下的所关注问题的推断。

图13:缺失数据问题本质是因果问题

第七个工具是因果发现。因果发现就是要去寻找一系列的模式或者图结构,能够与数据相兼容的,同时能够进行简洁的表示。当前从数据中得到因果结构的因果结构学习,不仅要学习因果结构,还要学习从数据中直接得出哪些变量是因果变量的因果表示学习,这已经成为了当前一个热点研究课题,Pearl 在文献[2]中提出了为 AI 提出小图灵测试作:

How can machines represent causal knowledge in a way that would enable them to access the necessary information swiftly,answer questions correctly,and do it with ease,as a human can?

结论

最后,Pearl 指出,因果革命不仅仅席卷了各个研究领域,也开始影响教育和实际应用,将数据科学从当前以数据为中心的范式往科学为中心的范式偏移。这个革命的高潮还没有到来,但我们将会看到一个非常声势浩大的革命,尤其是从社会智能的角度来观察。我们将能够与机器智能进行紧密的交流和互动,无论用户是谁,其可能是另外一个机器或者电力服务系统,这在社会智能领域未来的十年中就会发生。另外一个,是与伦理学相关的,即同理心,最终机器甚至会有意识和自由意志、同情心以及伦理道德。所以,我们每一个人都应更多地关注因果科学。

For me,consciousness is having a blueprint of your software.

---Pearl,2019 Dec[4]

[1] “Foundations and new horizons for causal inference” 研讨会,2019。

[2] &34; Judea Pearl and Dana MacKenzie,(Basic Books,2018).

[3] J. Pearl,“The Seven Tools of Causal Inference with Reflections on Machine Learning,” Communications of ACM,62(3): 54-60,March 2019

这三个材料是 Pearl 的因果理论的最新综述,较为通俗易懂介绍了因果关系的新科学,描绘了一条教会机器因果思维的强人工智能之路。

[5] Causality for Machine Learning,Bernhard Schölkopf,2019

这是一篇刚刚挂 arxiv 就被 Pearl 亲自 twitter 点赞的论文,是马普智能所所长 Bernhard Scholkopf 最引以为傲的论文之一,他将被 Pearl 点赞这事情写在其个人主页自我介绍的第一段中。Scholkopf 及其团队在因果结合机器学习方面做了最多的工作,此文总结和升华了提出了信息革命时代下因果结合机器学习的一般理论和深刻思考。

[6] A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks,Miguel A. Hernán,John Hsu &Brian Healy,2019

来自哈佛教授 Migual A. Hernan 对当前数据科学的深刻反思,澄清了数据科学任务如何分类的基本问题:prediction,description and counterfactual prediction.

该论文是因果革命,Pearl 的因果图模型框架如何影响某一个特定领域--计量经济学的范例。

[8] Beyond Curve Fitting: Causation,Counterfactuals,and Imagination-based AI,AAAI Spring Symposium,March 25-27,2019

[9] NeurIPS’2019,From System 1 Deep Learning to System 2 Deep Learning,Yoshua Bengio. Video with synchoronized slides .

Bengio 描绘了一个具备因果推理能力和 AI 系统

[10] 加州大学洛杉矶分校UCLA朱松纯教授,浅谈人工智能:现状、任务、构架与统一 | 正本清源

上一篇 2023年01月14 23:47
下一篇 2023年01月07 18:29

相关推荐

  • 怎样制作课件,用手机制作课件

    在日常的学习和工作中,我们都会遇到需要制作PPT演示文档的情况,而大多数人对于PPT的制作并不熟练,无法流畅、快速地完成PPT的制作。今天,我就来教大家几个PPT的制作技巧,帮助大家快速搞定演示幻灯片

    2022年12月26 216
  • 怎么讲故事,故事大全睡前故事哄大人的

    历史长河中,中国与许多国家都结下不解之缘,构成如今相知相识的共同记忆。无论是曾经的驼铃相闻,还是舟楫相望,过往的交流成为如今的故事,也构筑起未来的互动基础。如何让文化背景迥异的听众听得懂中国人的讲述?

    2023年01月15 246
  • 演讲紧张怎么克服,演讲不怯场的八种方法

    恭喜你,看到本文,本篇回答绝对是最有效的干货!掌握这个方法,不出1个小时你就可以学会自信表达!一定要认真看完,建议先点赞,收藏,再仔细阅读【文末有彩蛋】我们在上台演讲时,如何克服紧张情绪?下面小编为你

    2023年02月05 235
  • 自动求和公式怎么用,自动匹配求和公式

    关注职场办公,分享实用干货,洞察科技资讯!大家好,这里是职场科技范~自动匹配求和公式,一说到Excel数据求和,很多人第一时间想到的是各种复杂难学的求和函数,其实不用那么麻烦,只要掌握下面这7个常用的

    2023年01月23 286
  • 怎么查分,个人成绩查询

    我想看看养老金是否到账了,该怎么办?前阵子办理了工伤一次性医疗补助金业务,但记不清是用哪张银行卡作为领取待遇的卡了,我可以在哪里查询?驾驶证查分方法:1、到各市各区县交通支大队的办公大厅通过触摸查询终

    2023年02月08 217
  • 大小符号怎样区别,大小符号怎么区分

    电子设备中有各种各样的图。能够说明它们工作原理的是电原理图,简称电路图。电路图有两种,一种是说明模拟电子电路工作原理的。它用各种图形符号表示电阻器、电容器、开关、晶体管等实物,用线条把元器件和单元电路

    2023年01月05 203
  • 怎样做到止于至善,如何做到止于至善七年级政治

    导读如何衡量你的人生?如何走出咸鱼的生活底层?做到止于至善的方法是:1、应有自己的格调,有自己的“至善”追求。拥有知识,即研究万事万物,做到有正思维、正言、正向思想。2、从点滴小事做起,积少成多。勿以

    2022年12月30 234
  • 黄河是怎样变化的,小学四年级上册的黄河课文

    古老的黄河是中华民族的摇篮,见证了几千年中华民族的诞生、成长以及灾难。由于气候、地势以及流域等多种因素的影响,黄河多次泛滥、改道。据文献资料记载,从先秦时期开始,黄河下游决口泛滥达一千五百九十三次,平

    2022年12月26 287
  • 怎样提高课堂教学效率,提高课堂教学的方法措施

    转观念,讲方法,提高课堂效率为了提高课堂效率,自上而下进行了多年的课堂教学改革。但在平时的听课中,发现我们的课堂教学还是以教师为主角,满堂讲,满堂灌。教师讲得口干舌燥,学生听得昏昏欲睡。课上不足课下补

    2022年12月26 288
  • 家庭成员关系怎么填写

    根据我的工作经验,至少80%的干部,是不会填写《家庭主要成员与重要社会关系》(以下简称《家庭成员关系》)的。要么填写不准,要么填写不全,要么填写错误。其实,错不出在干部本人,主要是没有人告诉干部该怎么

    2023年02月06 231
  • 表格求和怎么操作,excel怎么一列数求和

    众所周知,Excel表格里可以运用很多函数来计算,将数据进行整理分析,运用函数是不可或缺的,特别是当我们的数据庞大时,人工计算是很浪费时间的,excel怎么一列数求和,而且使用函数进行求和不仅仅是因为

    2023年02月05 262
  • 记账凭证怎么填写,记账凭证的填写示例

    现在使用手工记账的企业基本没有了,财务软件的普及,确实改变了财务工作的现状。但是,我们要说的是,财务软件只是我们手中的工具,企业财务工作的基本内容并没有改变。我们即使使用财务软件进行记账工作,记账凭证

    2023年01月16 255
  • 二元一次方程怎么解,代入消元法30例题

    代入消元法30例题,方程两边都是整式,含有两个未知数,并且含有未知数的项的次数都是1的方程,叫做二元一次方程.使方程左右两边相等的未知数的值叫做方程的解。1、二元一次方程的解1、解二元一次方程组的基本

    2023年02月05 253
关注微信