推荐文章

因果推断——现代统计的思想飞跃

丁鹏 / 2021-06-27

转载自《数学文化》2021/第12卷第2期 […] 探求事物的原因，是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌，都充满了对原因的追问和对因果关系的思考。比如，亚里士多德就在《物理学》（Physics）和《形而上学》（Metaphysics）两书中反复强调，我们只有知道了事物的原因，才能算真正理解这个事物。又如，屈原在《天问》开篇，就追问日月星辰运行的原因。长期以来，人……

统计应用

广告界的因果推断挑战

陈丽云 / 2021-02-09

声明：本文引用的所有信息均为公开信息，仅代表作者本人观点，与就职单位无关。 […] 广告界有一句经久流传的话：“我知道我的广告费有一半浪费了，但遗憾的是，我不知道是哪一半被浪费了“。人们对这句话有着不同的解读，其中之一就是广告效果衡量的不足。正因为无法很精确地衡量广告的效果，所以没办法进行进一步的投放优化，只能白白浪费。毫无疑问，每个广告主都想知道自己投出去的钱带来了多大收益。换言……

统计模型

因果推断简介之八：吸烟是否导致肺癌？Fisher versus Cornfield

丁鹏 / 2013-09-17

这一节介绍一个有趣的历史性例子：吸烟是否导致肺癌？主要涉及的人物是 R A Fisher 和 J Cornfield。前者估计上这个网站的人都听过，后者就显得比较陌生了。事实上，Cornfield 在统计、生物统计和流行病学都有着非常重要的贡献。来自 Wikipedia 的一句介绍：“He was the R. A. Fisher Lecturer in 1973 and President of……

统计模型

因果推断简介之七：Lord’s Paradox

丁鹏 / 2013-09-09

在充满随机性的统计世界中，悖论无处不在。这一节介绍一个很有名，但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的；最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部……

统计模型

因果推断简介之六：工具变量（instrumental variable）

丁鹏 / 2013-08-28

为了介绍工具变量，我们首先要从线性模型出发。毫无疑问，线性模型是理论和应用统计（包括计量经济学和流行病学等）最重要的工具；对线性模型的深刻理解，可以说就是对一大半统计理论的理解。下面的第一部分先对线性模型，尤其是线性模型背后的假设做一个回顾。 […] 线性模型和最小二乘的理论起源于高斯的天文学研究，“回归”（regression）这个名字则是 Francis Galton 在研究优生……

统计模型

因果推断简介之五：因果图 (Causal Diagram)

丁鹏 / 2012-10-25

这部分介绍 Judea Pearl 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”，这篇文章是 Biometrika 创刊一百多年来少有的讨论文章，Sir David Cox，Guido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl……

统计模型

因果推断简介之四：观察性研究，可忽略性和倾向得分

丁鹏 / 2012-04-01

这节采用和前面相同的记号。$Z$ 表示处理变量（$1$ 是处理，$0$是对照），$Y$ 表示结果，$X$ 表示处理前的协变量。在完全随机化试验中，可忽略性 $Z \bot \{Y(1), Y(0)\} $ 成立，这保证了平均因果作用 $ACE(Z\rightarrow Y) = E\{Y(1) – Y(0)\} = E\{Y\mid Z=1\} – E\{Y\mid Z=0\}$ 可以表示成观测数……

统计模型

因果推断简介之三：R. A. Fisher 和 J. Neyman 的分歧

丁鹏 / 2012-03-30

这部分谈到的问题非常微妙：完全随机化试验下的 Fisher randomization test 和 Neyman repeated sampling procedure。简单地说，前者是随机化检验，或者如很多教科书讲的Fisher 精确检验（Fisher exact test）；后者是 Neyman 提出的置信区间（confidence interval）理论。我初学因果推断的时候，并没有……

统计模型

因果推断简介之二：Rubin Causal Model (RCM)和随机化试验

丁鹏 / 2012-03-28

因果推断用的最多的模型是 Rubin Causal Model (RCM; Rubin 1978) 和 Causal Diagram (Pearl 1995)。Pearl (2000) 中介绍了这两个模型的等价性，但是就应用来看，RCM 更加精确，而 Causal Diagram 更加直观，后者深受计算机专家们的推崇。这部分主要讲 RCM。设 $Z_i$ 表示个体 $i$ 接受处理与否，……

统计模型

因果推断简介之一：从 Yule-Simpson’s Paradox 讲起

丁鹏 / 2012-03-26

在国内的时候，向别人介绍自己是研究因果推断（causal inference）的，多半的反应是：什么？统计还能研究因果？这确实是一个问题：统计研究因果，能，还是不能？直接给出回答，比较冒险；如果有可能，我需要花一些篇幅来阐述这个问题。目前市面上能够买到的相关教科书仅有 2011 年图灵奖得主 Judea Pearl 的 Causality: Models, Reasoning, and……