说起广告大家肯定都知道，可是什么是幽灵广告？其实幽灵广告的英文是ghost ads，源自Google的一篇论文，Johnson, Garrett A., Randall A. Lewis, and Elmar I. Nubbemeyer. “Ghost Ads: Improving the Economics of Measuring Online Ad Effectiveness.” (2016)。幽灵广告是他们创造出来用来提高衡量在线广告效果的一套系统。由于实施过程中某些广告会化作用户看不到的幽灵，所以称之为“幽灵广告”系统，专门用于线上广告的随机对照实验。

园主断断续续也写了不少关于线上实验的各种介绍了，可是大多数都没有涉及在线广告。可能大家会想，在线广告和其他的在线实验不都一样么，有什么需要特别注意的？园主在没有听Randall讲这篇论文之前，也是一头雾水地读了一遍，不知所云。听Randall讲完之后，才大概明白个中精妙。直到最近自己开始做跟广告相关的事情了、认认真真把这篇论文翻了出来，重新通读，顺便跟大家分享一下从开始到现在的一些感悟。

在线广告的大背景

在详细介绍幽灵广告之前，园主先大概讲一下在线广告的情况。面向用户的互联网企业盈利的大头无非就是三种：广告，游戏，卖东西（实体产品和服务）。大部分网站对用户是免费使用的，所以赚钱的方式就来自广告，比如谷歌和百度。简单如付费搜索，即相关网站付钱给谷歌，让用户在搜索特定关键字的时候，可以先看到自己的网站。当然，大家更常见的是各种各样的图片和视频，比如在优酷追剧的时候会强制插播一小段广告，或者刷刷微博发现时间流里面夹杂着一些不太熟悉的博主。对于普通用户来说，可能不会想到自己看到的广告背后是多么复杂的一套生态系统。园主也不知道，直到看到了这张图。好吧，原来生态链可以这么冗长。

在线广告系统生态圈原图：http://earlh.com/blog/2011/07/19/online-display-advertising-ecosystem/

显然这个生态系统中的付钱的广告主们，很想知道他们每一分钱都花在哪里了，花得到底值不值得。毕竟广告届一直流传着一句名言：

我知道我的广告费有一半浪费了，但遗憾的是，我不知道是哪一半被浪费了。（著名广告大师约翰•沃纳梅克，其实园主也不知道他到底多著名…）

所以在广告这个生态圈里面，衡量广告效果自然也是很重要的一个环节。在线广告的好处就是可以搜集很多用户反馈的数据，从而可以更好的了解广告主的每一分钱到底花在了哪里。所以对于在线广告来说，很重要的一点就是我们可以衡量到底投入产出比如何。

在线广告投放系统的历史

在线广告得益于数据追踪的方便性，迭代出前后三代广告投放系统。

第一代广告投放系统

基于投放量的系统（CPM，Cost Per Mille，按展现收费）。此类系统类似于买断报纸版面或者电视时段，即在给定广告主的投放要求的情况下，把广告投放到事先约定好的数量，并不考虑用户对于广告的反馈情况。此种情形没有任何投放优化，完全是根据流量直接随机投放。

第二代广告投放系统

基于群体行为的优化投放（CPC，Cost Per Click，按点击付费，或者CPA，Cost Per action，按给定用户行为付费）。此类系统会追踪用户的反馈数据（比如是否点击广告，是否购买了广告中的商品），然后把行为数据反馈回投放算法，专门针对反馈效果好的人群进行有效投放。比如我打算投放一个适合80后的护肤品广告，那么此类算法会先随机投放给所有人，然后在他意识到80后反馈比较好的时候，会集中投放给80后的用户，而减少对其他用户的无效投放。

第三代广告投放系统

基于个体用户的优化投放。此类系统在第二代系统的基础之上，增加了对于每个用户点击和行为历史的考虑，从而实现了更为个性化的投放优化。

在线广告随机控制实验的挑战

相比于普通的线上产品实验，比如测试一下怎么布局比较好，在线广告的实验就要更为复杂一些。其实核心的问题还是，假如用户看不到我的广告，那他们还会买我的产品吗？有些人自然还是会的，而有些人则不一定。

所以问题来了，在线广告的对照组是什么？如果我们考虑第一代广告系统，那么他是垄断投放量的。比如我买了新浪首页的横幅广告，那么每个访问新浪首页的人看到的都是同样的广告。此时广告界常用的是PSA（Public Service Announcements，即公益广告）作为对照组，然后直接对比该商业广告和公益广告效果之间的差别。可是从第二代系统开始，在线广告的投放开始基于各种机器学习的优化算法的，所以并不是每个人看到的都是一样的广告，自然实际看到实验广告的用户和看到公益广告的用户是不同的。从因果推断的角度来讲，这样的非随机的广告投放会导致我们对接受处理的人（即实际看到广告的人）的平均处理效应 (average treatmenet effect on treated，一些文献简写为ATT) 的估计会产生偏差。对细节感兴趣的读者可以阅读 Imbens, Guido W., and Donald B. Rubin. Causal inference in statistics, social, and biomedical sciences 一书的23章。

下面我们基于第二代利用行为反馈数据优化过的系统，来理解为什么Google这篇论文一开始就说在第二代广告投放系统之上，公益广告并不是一个很好的对照组。

图1：理想的实验设计

图一，理想的实验设计。所有人被随机分配到实验组和对照组，然后我们可以观察到哪些实验组里面的人实际看到广告，哪些对照组的人如果放在实验组的话是本应看到广告的。这种理想情况下，绿色部分所示的实验组和对照组里面看到广告和本应看到广告的人是相同的。

图2: 意向处理分析

图2说的是意向处理分析（intent-to-treat，一些文献简写为ITT）的情况。此时，我们知道实验组里面哪些人看到了广告，却不知道对照组里面哪些人本应看得到广告。这是我们只能按照实验设计的初始意向来分析，即回到随机化的初始阶段，把所有实验参与者都包括进来，然后对比所有实验组和对照组的人（不管他们是不是实际看到了广告）。显然，相比于图1的理想情况，意向处理分析由于包括了那些并没有实际看到广告的人，所以会稀释处理效应。意向处理分析的优势在于它给出的是无偏的估计量。

此外，在真正的广告投放实践中，由于制约广告效果的往往是广告的预算，所以在初期的时候对于看到广告的人的平均效应（即ATT）的估计会变得额外的有意义。这样的结果可以用来推测在增加预算以后，可以达到什么样的预期效果。而基于意向处理分析（ITT）的估计量由于没有考虑随着广告预算增加实际看到广告的人的比例也会增加的问题，所以没办法给出较好的预测。

图3: 公益广告作为对照组

图3说的是利用公益广告作为对照组的情况。显然，由于广告投放优化系统的存在，实验组里看到广告的人会和公益广告组里面看到广告的人的分布不一样，所以如果直接对比这两组，我们会得到一个有偏的估计量。

所以，幽灵广告的目标就是得到近似于图1的情形，找出一种办法来观察到对照组中本应看到广告的人，从而可以直接估计看到广告的人的平均处理效应（ATT）。

幽灵广告系统的设计原理

如果我们想得到和图1一致的观测结果，那么用户实际看到的广告应该是什么样子的呢？

图4: 看到广告的人图4显示了不同情形下人们最终看到的广告。

左上角的1）是实验组，有3个人看到的我们关心的Louboutin鞋子广告（灰色虚线框），而剩下三个人看到的是丰田、星巴克和熊猫。

右上角的2）是对照组，没有放入鞋子的广告，故而那三个本应看到Louboutin鞋子广告的人看到的是其他三个广告（另外一个鞋子网站、迪斯尼和可口可乐）,但是我们没法区分是哪三个人。左下角的3）是有公益广告广告的情形，那三个人看到的是公益广告广告。右下角的图4是幽灵广告的情形，和2）的结果一致，但是我们明确知道是哪三个本应看到Louboutin广告的人看到了其他广告。

为了实现4）的结果，幽灵广告系统需要在真正的广告拍卖之外再加一层“模拟拍卖”，并对那三个本应看到Louboutin广告的用户和行为进行一步额外的记录。图5: 幽灵广告系统工作原理

图5描述了幽灵广告的工作原理。左边是实验组的用户，Louboutin广告被放入可以显示的广告集中，然后进入实际的广告拍卖过程，赢取的用户将看到Louboutin广告。右边显示的是对照组的情形。蓝色的方框表示，如果我们直接把Louboutin广告从备选集中拿出来，那么所有用户经过拍卖系统看到的都是其他广告，而我们无从得知哪些人本应看到Louboutin广告。所以这里多了一个黄色方框所指示的步骤，对照组用户先进入一个“模拟拍卖”过程，决定到底哪些人应该看到Louboutin广告，哪些人看到其他广告，并记录下来这样的结果。然后我们把Louboutin广告拿出来，让其他广告进入实际的拍卖，并记录最后的结果。

所以这里，幽灵广告的原理就是利用提前一步的模拟拍卖，有机会记录哪些人本应看到Louboutin广告，即前面所述的对照组中本应看到广告的人。故而就算第二代系统实现了投放的优化，我们还是有计划来记录那些本应看到广告的人。

幽灵广告之于三代广告投放系统

图8总结了幽灵广告在三代广告投放系统上的效果。

图8: 幽灵广告之于三代广告系统

第一代广告系统：基于投放量的系统不考虑各种基于用户反馈的优化，故而幽灵广告和公益广告会产生一样的效果。

第二代广告系统：基于行为的优化投放系统会追踪用户的反馈数据，故而由于优化的产生，公益广告对照组会成为一个无效的对照组，而幽灵广告可以准确识别对照组中的complier。

第三代广告系统：基于个体用户的优化投放。此类系统在第二代系统的基础之上，增加了对于每个用户点击和行为历史的考虑，从而实现了更为个性化的优化投放。此时需要幽灵广告的升级版，作者称之为Predicted Ghost Ad methodology，感兴趣的读者可以阅读原文第四章。

总结

总之，幽灵广告相比于公益广告作为对照组，有以下四个优点：

得到的是无偏的估计量
没有公益广告的额外执行成本
正确的基准成功率
提高了估计效率

可是幽灵广告就是完美的吗？在现在这个在线广告优化技术日新月异的年代，幽灵广告也有着自己的局限性。比如为了保证模拟拍卖的效果和实际拍卖的效果差别不大，幽灵广告需要在模拟拍卖的阶段就得到所有决定实际广告投放与否的信息与数据变量。一旦实际拍卖过程中产生了其他变化（最常见的是预算的变化），模拟拍卖就有可能离实际效果相差甚远。

此外，幽灵广告系统只解决了单一的实验组和对照组的对比问题，而实践过程中我们往往需要对比多个实验组，比如简单的全因子实验（full factrial design）。此时幽灵广告并不比意向处理分析(ITT)多出来显著的优势。

最后，在线广告实验也难逃一般在线实验的共同挑战。比如大部分在线实验目前还是基于cookie的，而在移动互联网时代，不可避免的同一个用户拥有多个设备，而很多行为、尤其是多步骤的购买行为，往往并不是在一个设备上就一气呵成的。基于点击的追踪也有自己的问题，比如用户可能在多个渠道看到同一家的广告，比如用户买机票订酒店的时候可能在百度、新浪、淘宝、携程分别搜索，然后认为最后的成交是由最后一个点击带来的也是不甚公允的。这些挑战现实存在，相关从业人员也一直致力于寻找更好的衡量办法，以期达到更精准的实验效果估计。

谷歌为什么创造了幽灵广告？

陈丽云