拍脑袋的决策与讲依据的政策

发表时间：2016-02-26 13:24

即便是彻头彻尾的无政府主义者，大隐隐于市，也难免要生活在公共政策的影子之下。比如，你家小区的墙现在好好的，一纸《意见》公布，它还能站立多久，就是个问号了。

影响政策质量的因素大概可以分为四项：制定者、制度、政策理论、政策方法。在前三项要素稳如泰山雷打不动的背景下，提高政策质量的途径就剩下对于政策方法的选择与研究上。

近二十年，来一种被称作基于证据的决策方法(evidence-based decision making) 被广泛关注，并由此出现一种新的政策制定模式 -- 基于证据的政策（Evidence-based policy, EBP）。美国、英国等西方国家的政府和非营利机构都开始接受这种基于证据的政策制定方法。刚刚上台的加拿大自由党联邦政府，也在其施政纲领中频频提到EBP，一时间成了个buzzword，到底什么意思，也没见谁认真讲出个子午卯酉。一个热词，各自体会。

既然是“基于证据的政策”，抛开无趣的“政策”，寻找可靠的“证据”终归是基础。哈佛大学教授Ricardo Hausmann的一篇文章，从方法论上进行了一番深入浅出的探讨。

在这无聊的星期五下午，翻译一下，供不怕沉闷的读者一阅。

--------------

基于证据制定政策的问题

作者：Ricardo Hausmann
翻译/配图：海天

（作者简介：Ricardo Hausmann，现任哈佛大学肯尼迪政府学院经济发展实践学教授兼国际发展中心主任，世界经济论坛包容性增长全球议程元委员会主席；曾任委内瑞拉规划部前部长，美洲开发银行前首席经济学家。）

从政府机构到慈善救助的许多组织，现在的方案与政策制定都有“基于证据”的要求。要求政策制定有据可依，而且依据的是在合理的时间和预算限制内尽可能好的证据，这自然是有道理的。但是，相关的实施方式却可能会造成不少伤害，影响我们研究和改进的能力。

对于什么算是好的证据，目前所谓的“黄金标准”是随机对照试验（Randomized Control Trial, RCT）。RCT这个概念始于两个世纪前，从医学研究发端，再推进到农业，在过去的二十年间，又在经济学中风靡一时。RCT的广受欢迎，是因为它解决了统计推断过程中的关键问题。

比如，富人们穿衣服都很讲究。那么把讲究的衣服发给穷人穿，就会让他们变得有钱吗？这是相关性（衣服和财富之间）并不意味着因果关系的一个例子。

再比如，哈佛大学的毕业生就业机会上佳。这到底是因为哈佛擅长教育，还是因为他们擅长选择那些无论怎样都会是人生赢家的聪明学生呢？这是选择偏差的问题。

随机对照试验RCT把研究对象随机分配到实验组和对照组中，籍此来解决诸如此类的问题。通过观察两组在实施干预后的不同表现，对干预的有效性进行评估。RCT已经被用于药品，小额贷款，培训计划，教育工具，和其他难以计数的干预措施研究之中。

打个比方。你正在考虑引入平板电脑，作为促进课堂学习的一种方法。你选择了300所学校参加RCT实验，其中150所被随机分配到不使用平板电脑的对照组，另150所进入实验组。在实验开始前，你先进行一个基线调查，评估孩子们的学习情况，然后给实验组的150所学校发放平板电脑，在教学中使用。过一段时间后，你再进行另一次调查，看看实验组学生与对照组学生的学习效果是否存在差异。

假设你没有发现存在显著差异 -- 此前有4个类似的RCT实验，关于在学校分发书籍的，也没发现什么效果。但如果据此认定引进平板电脑不会提高教学效果，很可能是错误的结论。你所证明的仅仅是那种特定的平板电脑，辅以那种特定的软件，用于某特定的教学策略，在某些特定概念的教学中，没能带来不同效果。

然而，我们真正想研究的问题，是如何利用平板电脑来最大限度地促进教学。这其中的方案设计，存在着很大的空间/余地，而RCT研究不允许同时对超过两、三个的不同设计进行测试，每次试验的过程又仿佛蜗牛爬行一般缓慢。我们能做得更好吗？

让我们来脑洞大开，做个思维实验：我们可以在平板电脑提供一些手段，使得教师可以实时了解学生们对教学内容的吸收理解水平。教师们可以自主采用不同的软件，按照不同的策略，使用不同的方法来对平板电脑这一新教学辅助工具进行实验。这样的快速反馈回路可以帮助教师调整策略，以达到最佳效果。随着时间的推移，我们会观察一些老师无意中发现了非常有效的策略，我们随之将这些发现与其他教师分享。

请注意此方法的根本性差异。相比于由300所中的150所来实施同一个方案，上述方法是由每个教师在整个设计空间内“匍匐前进”来探索结果；相比于一个基线调查加一个最终结果调查，上述方法不断对绩效提供反馈；相比于由一个计量经济学家进行分析再把测试结果通报众人，上述方法是由教师们以去中心化的方式进行分散探索，将其发现向中心汇总。

显然，在策略调整时，老师们可能混淆相关性与因果关系，但是由于错误假设不会产生更好的效果，这种错误认识很快就会被意识到。同样，选择偏差的问题也会出现（也就是说，有些地方表现比别人好，其实是由于其他因素的差异），但是如果不同的背景条件需要不同的应对策略，系统迟早会把它们都找出来。与临床医学试验相比，这种策略更类似于机器学习算法在社会中的实践。

RCT迄今仍在经济学界风靡一时，尤其是在国际发展领域，尽管如诺贝尔奖得主Angus Deaton, 和Lant Pritchett, Dani Rodrik（等知名经济学家）都曾经对RCT支持者们的夸大其辞提出过批评。RCT的一个严重缺点是外部有效性，学到的经验往往走不了多远：比如一个随机对照试验发现，给危地马拉的儿童补充微量元素能帮助他们的学习，那么就应该给挪威的孩子也补充这些微量元素吗？

我对RCT的主要担忧在于，这类实验会使我们对干预、政策和组织的想法发生错误。随机对照试验过程迟缓，一次只能涵盖两、三个设计（比如在学校试验平板电脑或者活动挂图），而大部分的社会干预则有数百万计的设计可能性，结果取决于它们之间的复杂组合。复杂性科学学者Stuart Kauffman称之为“崎岖的适合度景观（rugged fitness landscape）” 。

获取多种参数的正确组合是至关重要的。这就要求组织机构实施进化式策略，像哈佛大学国际发展中心的Matt Andrews, Lant Pritchett，Michael Woolcock等所建议的那样，不断尝试，高速反馈，快速学习。

随机对照试验可能对临床药物试验很适用。但对于一个牵涉广泛的政策领域，滥用RCT所造成的影响相当于让搞审计的去负责技术研发。要设计出一个行之有效的政策，这是一种错误的方式。只有构造出能学习如何学习的组织机构，如同工业界的精益制造(lean manufacturing)，我们才能加速进步。

原文请见：

https://www.project-syndicate.org/commentary/evidence-based-policy-problems-by-ricardo-hausmann-2016-02#5tdhJKFWCmSjHgym.99