海天

注册日期:2012-05-22
访问总量:936997次

menu网络日志正文menu

拍脑袋的决策与讲依据的政策


发表时间:+-

即便是彻头彻尾的无政府主义者,大隐隐于市,也难免要生活在公共政策的影子之下。比如,你家小区的墙现在好好的,一纸《意见》公布,它还能站立多久,就是个问号了。

影响政策质量的因素大概可以分为四项:制定者、制度、政策理论、政策方法。在前三项要素稳如泰山雷打不动的背景下,提高政策质量的途径就剩下对于政策方法的选择与研究上。

近二十年,来一种被称作基于证据的决策方法(evidence-based decision making) 被广泛关注,并由此出现一种新的政策制定模式 -- 基于证据的政策(Evidence-based policy, EBP)。美国、英国等西方国家的政府和非营利机构都开始接受这种基于证据的政策制定方法。刚刚上台的加拿大自由党联邦政府,也在其施政纲领中频频提到EBP,一时间成了个buzzword,到底什么意思,也没见谁认真讲出个子午卯酉。一个热词,各自体会。

既然是“基于证据的政策”,抛开无趣的“政策”,寻找可靠的“证据”终归是基础。哈佛大学教授Ricardo Hausmann的一篇文章,从方法论上进行了一番深入浅出的探讨。

在这无聊的星期五下午,翻译一下,供不怕沉闷的读者一阅。

--------------


基于证据制定政策的问题

作者:Ricardo Hausmann
翻译/配图:海天

(作者简介:Ricardo Hausmann,现任哈佛大学肯尼迪政府学院经济发展实践学教授兼国际发展中心主任,世界经济论坛包容性增长全球议程元委员会主席;曾任委内瑞拉规划部前部长,美洲开发银行前首席经济学家。)

从政府机构到慈善救助的许多组织,现在的方案与政策制定都有“基于证据”的要求。要求政策制定有据可依,而且依据的是在合理的时间和预算限制内尽可能好的证据,这自然是有道理的。但是,相关的实施方式却可能会造成不少伤害,影响我们研究和改进的能力。

对于什么算是好的证据,目前所谓的“黄金标准”是随机对照试验(Randomized Control Trial, RCT)。RCT这个概念始于两个世纪前,从医学研究发端,再推进到农业,在过去的二十年间,又在经济学中风靡一时。RCT的广受欢迎,是因为它解决了统计推断过程中的关键问题。

比如,富人们穿衣服都很讲究。那么把讲究的衣服发给穷人穿,就会让他们变得有钱吗?这是相关性(衣服和财富之间)并不意味着因果关系的一个例子。

再比如,哈佛大学的毕业生就业机会上佳。这到底是因为哈佛擅长教育,还是因为他们擅长选择那些无论怎样都会是人生赢家的聪明学生呢?这是选择偏差的问题。

1456522203309995.png随机对照试验RCT把研究对象随机分配到实验组和对照组中,籍此来解决诸如此类的问题。通过观察两组在实施干预后的不同表现,对干预的有效性进行评估。RCT已经被用于药品,小额贷款,培训计划,教育工具,和其他难以计数的干预措施研究之中。

打个比方。你正在考虑引入平板电脑,作为促进课堂学习的一种方法。你选择了300所学校参加RCT实验,其中150所被随机分配到不使用平板电脑的对照组,另150所进入实验组。在实验开始前,你先进行一个基线调查,评估孩子们的学习情况,然后给实验组的150所学校发放平板电脑,在教学中使用。过一段时间后,你再进行另一次调查,看看实验组学生与对照组学生的学习效果是否存在差异。

假设你没有发现存在显著差异 -- 此前有4个类似的RCT实验,关于在学校分发书籍的,也没发现什么效果。但如果据此认定引进平板电脑不会提高教学效果,很可能是错误的结论。你所证明的仅仅是那种特定的平板电脑,辅以那种特定的软件,用于某特定的教学策略,在某些特定概念的教学中,没能带来不同效果。

1456522203319938.jpg然而,我们真正想研究的问题,是如何利用平板电脑来最大限度地促进教学。这其中的方案设计,存在着很大的空间/余地,而RCT研究不允许同时对超过两、三个的不同设计进行测试,每次试验的过程又仿佛蜗牛爬行一般缓慢。我们能做得更好吗?

让我们来脑洞大开,做个思维实验:我们可以在平板电脑提供一些手段,使得教师可以实时了解学生们对教学内容的吸收理解水平。教师们可以自主采用不同的软件,按照不同的策略,使用不同的方法来对平板电脑这一新教学辅助工具进行实验。这样的快速反馈回路可以帮助教师调整策略,以达到最佳效果。随着时间的推移,我们会观察一些老师无意中发现了非常有效的策略,我们随之将这些发现与其他教师分享。

请注意此方法的根本性差异。相比于由300所中的150所来实施同一个方案,上述方法是由每个教师在整个设计空间内“匍匐前进”来探索结果;相比于一个基线调查加一个最终结果调查,上述方法不断对绩效提供反馈;相比于由一个计量经济学家进行分析再把测试结果通报众人,上述方法是由教师们以去中心化的方式进行分散探索,将其发现向中心汇总。

1456522203879721.jpg显然,在策略调整时,老师们可能混淆相关性与因果关系,但是由于错误假设不会产生更好的效果,这种错误认识很快就会被意识到。同样,选择偏差的问题也会出现(也就是说,有些地方表现比别人好,其实是由于其他因素的差异),但是如果不同的背景条件需要不同的应对策略,系统迟早会把它们都找出来。与临床医学试验相比,这种策略更类似于机器学习算法在社会中的实践。

RCT迄今仍在经济学界风靡一时,尤其是在国际发展领域,尽管如诺贝尔奖得主Angus Deaton, 和Lant Pritchett, Dani Rodrik(等知名经济学家)都曾经对RCT支持者们的夸大其辞提出过批评。RCT的一个严重缺点是外部有效性,学到的经验往往走不了多远:比如一个随机对照试验发现,给危地马拉的儿童补充微量元素能帮助他们的学习,那么就应该给挪威的孩子也补充这些微量元素吗?

1456522203510218.png我对RCT的主要担忧在于,这类实验会使我们对干预、政策和组织的想法发生错误。随机对照试验过程迟缓,一次只能涵盖两、三个设计(比如在学校试验平板电脑或者活动挂图),而大部分的社会干预则有数百万计的设计可能性,结果取决于它们之间的复杂组合。复杂性科学学者Stuart Kauffman称之为“崎岖的适合度景观(rugged fitness landscape)” 。

获取多种参数的正确组合是至关重要的。这就要求组织机构实施进化式策略,像哈佛大学国际发展中心的Matt Andrews, Lant Pritchett,Michael Woolcock等所建议的那样,不断尝试,高速反馈,快速学习。

随机对照试验可能对临床药物试验很适用。但对于一个牵涉广泛的政策领域,滥用RCT所造成的影响相当于让搞审计的去负责技术研发。要设计出一个行之有效的政策,这是一种错误的方式。只有构造出能学习如何学习的组织机构,如同工业界的精益制造(lean manufacturing),我们才能加速进步。

Untitled.jpg

原文请见:

https://www.project-syndicate.org/commentary/evidence-based-policy-problems-by-ricardo-hausmann-2016-02#5tdhJKFWCmSjHgym.99


浏览(1964)
thumb_up(5)
评论(7)
  • 当前共有7条评论
  • 海天
    欧阳博到访,倒履相迎!说到大数据,绝对是热门话题,也是我个人特别感兴趣的一个方向,一直想有机会就这个话题写点什么。不过放在公立机构的背景下,多么promissing 的理念、技术都容易被用来做表面化文章,“大数据”现在常常被用作统计数据的代名词了。其实不管什么样的统计方法和数据,能够正确运用,正确解读是最重要的,否则可能适得其反。
    屏蔽 举报回复
  • 欧阳峰
    很有意思的信息!我对RCT在公共政策制定中的作用和局限很有兴趣,但这篇文章是我看到的把学术性和易懂性结合得最好的。看来文中对RCT的主要批评是它的效率和快速反应能力。我希望随着大数据的普遍应用,这方面会有大的改善。而且新的数据分析方法也有助于tease out和迅速推广随机产生的创新。
    屏蔽 举报回复
  • 海天
    芹泥MM:我刚刚又想了一下,当年国内组织用中草药之类疟疾的科研攻关,屠呦呦发明青蒿素获诺奖,这个过程跟上面所说的“分散试错,快速反馈,汇总推广”的模型还是非常相似的。
    屏蔽 举报回复
  • 海天
    芹泥:谢谢MM顶贴!“浅显易懂”不是我的功劳,要是原文太艰涩,我也就不会在星期五下午没事拿它练手了。

    RCT的确是从医药行业发端的。记得MM以前是学生物的,对此一定非常熟悉。你提到“这大约也是中医很难成为科学的原因”,很有道理。这倒不是说中医研究不能借助RCT的方法,而是中医强调变化,强调个体与环境因素的特殊性,所谓“千人千方”,就是说有太多的变量需要协同考虑,这个跟一般RCT的思路不同。在统计研究中,多变量的背景,要求巨大的样本,难度自然就大。其实,本文中提到的“小快灵”实践法,是不是可以借鉴来评估中医对某种病症的治疗方案呢?
    屏蔽 举报回复
  • 芹泥
    很认真地阅读学习了,谢谢海天MM。 

    海天MM这篇相当专业的东东,肯定是曲高和寡, 但能把这么学术的文章翻译得浅显易懂,功夫很深了。 

    文章中的“随机对照试验”倒是听说过,因为生物学和医学研究上用得很广,这大约也是中医很难成为科学的原因吧。  

    我也大顶!
    屏蔽 举报回复
  • 海天
    昭君好!谢谢表扬。能喜欢这种文章这种话题的估计不太多,MM当然是其中的一位:-)  这篇文章的原文写得比较随意,有些地方只说半句话,严格直译很别扭,我后来也就放开来,稍稍添枝加叶一点。

    你说的对,拍脑袋的决定有时候是必要的,也很可能是建立在很多积累认知后的灵光一闪。在企业史中,我们可能不难找到这样的轶闻佳话。然而在公共政策领域,官僚体系之中,拍脑袋就不行了,一来兹事体大,二来肉食者鄙,决策过程中要求讲证据有论证,是必需的。问题在于如何采信,解读证据,否则基于伪科学伪信念的认知可能适得其反。我觉得文中提出的“小快灵“的思路还是有道理的,但是对组织的能力要求实在不低。

    "Lean In"一书我只摩挲过封皮,没有读过,马上去你那边拜读评论。
    屏蔽 举报回复
  • 昭君
    海天辛苦! 翻译得信,达,雅,配图也很好喜欢这样的文章。
    Evidence based decision making一般来说因为”行而有据”,比较容易说服他人。但很多时候,”拍脑袋的决定”其实也可能是更好的途径,尤其在时间有限,而做决定的人有很丰富的相关经验和直觉的前提下。当然这些丰富的经验和背景也可以说是另外一种间接,普遍意义上的的”evidence"。

    昨晚贴了一篇读书心得,是脸书COO Sheryl Sandber的”Lean In",不知海天有没有看过。我觉得有很多值得学习的东西
    屏蔽 举报回复